上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人
1 引言
语音识别在理想环境中具有更高的识别率和稳定性。由于在现实场景中受不同噪声的影响,总是很难获得大量有用的训练数据。因此,研究重点应放在特征提取模型分析或语音识别模型的构建上,本文解决了特征提取中的不匹配问题。
近年来,我们已经研究了许多技术来解决噪声语音识别场景不匹配的问题。线性预测倒谱系数(LPCC)和 Mel 频率中心系数(MFCC)广泛用于特征提取[1],它们从不同的角度来描述语音特征。Khaled Daqrouq 提出了基于DWT和LPCC相结合的WTLPC方法,实验结果表明,基于小波变换或小波包变换的LPCC 适用于特征提取,基于小波包变换的方法具有更好的性能[2]。但是,语音信号具有混沌特性,语音识别率没有明显提高。
为了解决这个问题,我们提出了基于小波包分解的自适应Volterra模型来提取特征。通过混沌理论可知,混沌系统对噪声信号的无序具有一定的免疫能力。传统的Volterra模型一般是二阶截断的,低阶滤波器用于估计语音信号,其预测效果不准确。通过小波包将语音信号分解为若干低阶子带信号,然后使用滤波器近似估计语音信号,获得更高精度。