基于高斯混合模型的话者识别系统的研究
【摘要】:
话者识别技术属于生物认证技术的一种,是一项根据语音波形中反映说话人生理和行为特征的语音参数来自动识别说话人身份的技术。在生物认证技术领域中,话者识别技术以其独特的方便性、经济性和准确性等优势受到世人关注。
本文的工作是围绕基于高斯混合模型的话者识别系统展开研究,在完成多项基本性能的测试和比较的基础上,对分类算法中的某些环节进行一定的改进,以便获得较高的识别率。本文的工作主要有以下几个方面:
(1)系统构建:在给出语音分段和识别率计算原则的基础上,首先研究了不同测试语音单位长度对识别率的影响情况,证明了这些原则的正确性和系统的可靠性。针对预处理过程中的预加重系数和加窗分帧帧长的选择进行实验,取得了预加重系数的最优值,以及在不同高斯混合模型阶数条件下的最佳帧长。
(2)性能研究:在相同的测试条件下,研究了高斯混合模型的阶数对系统识别率的影响,分析了阶数过大或过小对系统的负面影响,并结合实际情况进行了选择;提出在EM算法的迭代过程中设置协方差阈值,并对不同阈值条件下的识别率进行实验对比,证明了将协方差阈值设置为0.10的普适性和可行性。
(3)系统改进:考虑到传统最大期望算法存在着会出现奇异阵的缺陷,引入参数α来控制修正比例对迭代结果进行修正,验证了改进算法在参数估计上的有效性。