摘要:说话人识别是一种身份认证技术,可以通过计算机来自动实现。说话人识别由于其不仅方便、经济且准确性高,逐渐成为人们常用的身份验证方式,市场运用前景非常广阔。识别正确率和鲁棒性一直都是说话人识别系统的探讨重点,混合高斯模型(Gaussian Mixture Model,GMM)由于能很好地描述说话人特点分布情况,被广泛地运用于与文本无关的说话人识别中。随着识别系统语音库中的说话人数目的增加,传统GMM模型的识别时问越来越长,识别速度慢将大大限制说话人识别系统的实用性。本论文提出基于模型聚类的说话人识别,在尽量不降低识别性能的情况下,大大提升识别速度。在识别时,发现每次得分较高的说话人模型只有少数几个,由此只需将测试特点矢量与这少部分说话人模型进行匹配,就可确定说话人身份。说话人模型聚类就是利用说话人模型相似的特性,将相近的说话人模型聚类,聚类后为每一类选取类中心和类代表。测试时,首先计算测试特点矢量与类中心之间的欧氏距离或者与类代表之间的对数似然度,选定距离最小或者得分最高的一类,再计算测试特点矢量与选定类中说话人模型之间的对数似然度,最终确定目标说话人。由于可能出现聚类不完全的情况,在测试时选择得分较高的几类构成类的子集合,可以保证识别正确率。实验结果表明:相较于传统的GMM模型,基于模型聚类的说话人识别在聚类数目为100,测试搜索范围为20%时,识别正确率只降低了0.95%,但是平均识别速度却提升了近4倍。为了进一步提升说话人识别系统的识别速度,本论文又提出说话人模型聚类和预量化或剪枝相融合的算法。预量化或剪枝是对测试特点矢量进行处理来提升识别速度,属于测试阶段的提速策略;而说话人模型聚类是指在训练阶段结束后,将训练好的说话人模型聚类,属于训练阶段的加速策略。不同阶段的加速策略可以进行融合,进一步提升系统的识别速度。关键词:说话人识别论文说话人模型聚类论文混合高斯模型论文预量化论文剪枝论文
中文摘要4-5
Abstract5-9
第1章 引言9-16
1.1 说话人识别的探讨背景9-11
1.1.1 说话人识别的探讨作用9-10
1.1.2 说话人识别的进展10-11
1.2 说话人识别原理11-12
1.3 说话人识别面对的不足12-15
1.4 论文的探讨内容和结构15-16
第2章 说话人识别策略16-24
2.1 说话人识别的整体流程16-18
2.2 高斯混合模型18-23
2.2.1 高斯混合模型原理18-19
2.2.2 高斯混合模型的建立19-22
2.2.3 高斯混合模型的实验比较22-23
2.3 小结23-24
第3章 基于模型聚类的说话人识别24-36
3.1 说话人模型聚类24-31
3.1.1 说话人模型聚类策略26-27
3.1.2 说话人模型聚类的设计历程27-28
3.1.3 说话人模型聚类的识别阶段28-30
3.1.4 说话人模型聚类的识别阶段效率浅析30-31
3.2 不同快速说话人识别策略的融合31-35
3.3 小结35-36
第4章 快速说话人识别实验结果浅析36-50
4.1 不同说话人识别策略的性能浅析36-48
4.1.1 基于模型聚类的说话人识别的性能浅析36-40
4.1.2 基于预量化的说话人识别性能浅析40-41
4.1.3 基于剪枝的说话人识别性能浅析41-43
4.1.4 不同快速识别策略融合的性能浅析43-48
4.2 实验结果比较浅析48
4.3 小结48-50
第5章 总结与展望50-52
5.1 全文总结50-51
5.2 探讨展望51-52
致谢52-53