您的位置: turnitin查重官网> 计算机 >> 人工智能 >神经网络基于MFCC和BP神经网络说话人识别

神经网络基于MFCC和BP神经网络说话人识别

收藏本文 2024-03-20 点赞:11839 浏览:47423 作者:网友投稿原创标记本站原创

【摘 要】介绍了语音的美尔倒谱特征及提取算法,并提取语音段的美尔倒谱特征,建立BP神经网络,用Matlab进行仿真识别,表明能较好的实现连续语音的说话人识别。
【关键词】美尔倒谱特征;BP神经网络;说话人识别
1.引言
说话人识别技术是一项根据语音波形中反映说话人生理和行为特征的语音参数,自动识别说话人身份的技术。说话人识别技术的核心是通过预先录入说话人声音的样本,提取说话人的语音特征并保存在数据库中,应用时将待验证的声音与数据库中的特征进行匹配,从而决定说话人的身份。
说话人特征主要有美尔倒谱系数(MFCC),线性预测系数(LPC),线性预测倒谱系数等(LPCC),识别模型主要有矢量量化技术(VQ),动态时间规整模型(DTW),隐马尔科夫模型(HMM),和人工神经网络(ANN)。它们用于语音识别的不同场合,各有所长。NN就是模仿人脑工作方式而设计的一种机器,可以用软件在计算机上仿真;NN能够通过学习,获取知识并解决问题。BP算法成为目前应用最为广泛的神经网络学习算法BP网络在函数逼近、模式识别、数据压缩等领域有着广泛的应用。

2.MFCC特征提取

人的听觉系统是一个特殊的非线性系统,他对不同频率信号的响应基本上是一个对数关系,美尔倒谱系数应够充分利用人耳这种感知的特性。实验发现,在1000Hz以下,感知能力与频率成线性关系,但在1000Hz以上时,主观心理感知能力与频率成对数关系,Mel频率和普通频率的对应关系是:
MFCC参数的提取分为预处理(采样/量化、数字滤波、预加重处理、加窗)和特征提取(包含求倒谱),流程图如图1所示。
图1 MFCC特征提取流程
其算法流程为:
(1)首先确定每一帧语音采样序列的点数,本文取N=256点。对每帧序列进行预加重处理后再经过离散FFT变换,取模的平方得到离散功率谱。
(2)计算通过M个带通滤波器后所得的功率值,即计算和在各离散频率点上乘积之和,得到M个参数:
(3)计算自然对数,得到:
(4)对离散余弦变换,得到。
(5)舍去代表直流成分,取作为MFCC参数,本文中K=16。
语音的信息大多集中在低频部分,而高频部分容易受到环境噪声的干扰。MFCC参数强调语音的低频信息,从而突出了有利于识别的信息,屏蔽了噪声的干扰。

3.BP神经网络的建立和训练

设计一个三层BP神经网络,如图2所示。其中Input表示网络的输入,网络输入的个数是语音帧的MFCC特征向量(输入向量)P,本文MFCC特征取16,P的维数为40*16。Layer是输入层到隐含层和隐含层到输出层各神经元的权值矢量,表示输入与神经元间的连接强度;第一层(隐含层)神经元的数目设计为37;第二层(输出层)神经元的个数根据待识别说话人数设计。
图2 识别神经网络的结构
对设计好的网络进行识别时,要考虑到以下几点:(1)使网络具有较强的泛化能力,应对说话人语音帧进行过零率检测,将MFCC特征进行归一化;(2)对同一人的不同发

源于:论文写作www.udooo.com

声语音段进行训练,提高神经网络的识别能力;(3)对噪声的稳健训练,为了提高神经网络抑制噪声的能力,应采用理想样本数据和含有不同程度噪声的样本数据同时对网络进行训练。
设置网络的性能函数和主要训练参数:网络训练目标误差为0.1,训练步数为5000;显示训练结果的间隔步数为50。图3是某次训练的训练误差变化曲线,由图3可知,该次训练中,当网络训练到520步时,网络性能达标,即目标误差达到0.1,训练停止,此时网络的权值和阈值调节到了最佳状态。分别用同一说话人的含有不同程度噪声的训练样本对网络进行训练,每次训练网络都有很好的收敛性。
图3 训练误差变化曲线
对训练好的网络进行仿真识别,将测试语音段输入,即可得出结果。表1是网络经过多次训练识别,对3说话人3位输出,8说话人8位输出,8说话人3输出说话人进行识别的仿真结果。
表1 Matlab识别仿真结果
说话人数输出层神经元个数识别率
3说话人399.75%
8说话人895%
8说话人385%
4.结论
(1)MFCC特征提取和BP神经网络相结合,是可以实现说话人识别的。
(2)降低训练样本维数的措施,对训练样本进行主元分析,可以有效地降低训练样本的维数。
(3)随着说话人数量的增多,识别效果有一定的下降。识别人数相同,输出层神经元个数也影响识别效果。
(4)由于说话人的语音样本不充足和样本录制时噪音干扰,对识别效果有一定影响。
参考文献:
徐波.语音识别技术与应用的发展趋势[J].中国计算机协会通讯,2008,2:54-57.
张军英.说话人识别的现代方法与技术[M].西安:西北大学出版社,1994.
[3]杨行峻,迟惠生,等.语音信号数字处理[M].电子工业出版社,1995.
[4]黄中伟,杨磊,徐明,冯杉杉.普通话语音识别中的基本音素分析[J].深圳大学学报,2006,24(4).

copyright 2003-2024 Copyright©2020 Powered by 网络信息技术有限公司 备案号: 粤2017400971号