基于DSP嵌入式说话人识别系统的设计

作者：时间：2012-03-21 来源：网络收藏

本文引用地址：//m.amcfsurvey.com/article/257627.htm

2．1 语音信号的端点检测

语音信号的端点检测目的是去除语音信号中的噪声段。端点检测从很大程度上影响到识别率。常用方法有短时能量法，短时过零率法和双门限法等。本系统选用双门限法，实验表明，效果优于前两种方法。在双门限方法端点检测中，阈值的选择尤为关键，该系统的语音采样频率设为8 kHz，语音分帧为每帧80个点。经过多次实验，这里短时能量低阈值通过式(3)的动态方式得到，高阈值设为低阈值的5倍。而过零率的阈值选取应充分考虑到噪声的影响，通过大量实验发现系统中噪声的过零率一般不超过5，所以对过零率的阈值选取为25，取得了很好的效果，准确率达到95％以上。

ITU=0．03(amp_max-amp_min)+amp_min (3)

在端点检测过程中有时会遇到突发性的干扰噪声，这种噪声持续时间很短，一般小于5 ms。为了消除这种干扰，这里用检测后的起止长度判断它是不是语音。如果所检测到的语音长度足够的短，则可以把它当成是噪声。

2．2 特征参数的提取

语音信号的特征提取是说话人身份识别的难点。能否用相对简单的方法提取出一种最能体现说话人个性信息的特征将成为以后研究的方向。该系统中用的是能体现人耳听觉特性的Mel倒谱系数(MFCC)。

MFCC着眼于人耳的听觉机理，依据听觉的结果来分析语音的频谱，获得了很好的识别率和很好的噪声鲁棒性，它利用了听觉系统的临界效应，描述人耳对感知的非线性特性。在DSP硬件资源配置中，MFCC在识别性能和DSP内部空间占用方面也取得了很好的平衡。在该系统中使用16个滤波器(M=16)构成的滤波器组。图4所示是MFCC的提取过程。