DSP嵌入式说话人识别系统的设计与实现

作者：时间：2009-12-28 来源：网络收藏

1．6说话人身份识别的结果显示
说话人的身份显示通过LED的组合显示确定。在DSK上有4只LED灯，将每个LED灯看成是一位二进制数。则4个LED灯最大可表示16个人的身份。该系统取前10个组合来表示所识别的说话人的身份。
1．7 自举的实现
以上程序都是通过PC机与DSP组合实现，要想使系统在DSP上单独完成，还必须实现自举。该系统采用ROM方式自举。在自举实现过程中，程序的烧写可以通过CCS自带的FLASHBorn工具实现。在烧写过程中应正确的分配FLAH ROM的空间。FLASHROM空间总体分为程序存储区和数据存储区，经计算，程序代码段大小为0x162C0，故在FLASH ROM中划分127 KB的空间供程序代码使用，空间中未使用的部分供程序扩展使用。数据存储区划分的大小为64 KB的空间，每个说话者模型参数占用空间为4．2 KB左右，最多可存放15个说话人GMM模型参数。该系统训练者数目为10个，占用空间为42 KB左右。剩余的空间可用来扩展训练人数，也可用于后期系统的改进。如可以利用语音提示来显示说话人身份，而提示语音的数据可以存放于此区域。具体的存储的安排如表1所示。

本文引用地址：//m.amcfsurvey.com/article/152184.htm

2 系统的算法与软件设计
说话人识别系统的实现方案如图3所示。

输入的模拟语音先通过预处理，包括预滤波、采样、量化、加窗、端点检测、预加重等。语音经过预处理后进行特征提取。在训练阶段，对提取的特征进行相应的处理后就可以获得参考模型。识别阶段，语音通过同样的通道获得特征参数，生成测试摸型，之后将测试摸型与参考摸型进行匹配，从而根据判决逻辑获得判决结果。
2．1 语音信号的端点检测
语音信号的端点检测目的是去除语音信号中的噪声段。端点检测从很大程度上影响到识别率。常用方法有短时能量法，短时过零率法和双门限法等。本系统选用双门限法，实验表明，效果优于前两种方法。在双门限方法端点检测中，阈值的选择尤为关键，该系统的语音采样频率设为8 kHz，语音分帧为每帧80个点。经过多次实验，这里短时能量低阈值通过式(3)的动态方式得到，高阈值设为低阈值的5倍。而过零率的阈值选取应充分考虑到噪声的影响，通过大量实验发现系统中噪声的过零率一般不超过5，所以对过零率的阈值选取为25，取得了很好的效果，准确率达到95％以上。
ITU=0．03(amp_max-amp_min)+amp_min (3)
在端点检测过程中有时会遇到突发性的干扰噪声，这种噪声持续时间很短，一般小于5 ms。为了消除这种干扰，这里用检测后的起止长度判断它是不是语音。如果所检测到的语音长度足够的短，则可以把它当成是噪声。
2．2 特征参数的提取
语音信号的特征提取是说话人身份识别的难点。能否用相对简单的方法提取出一种最能体现说话人个性信息的特征将成为以后研究的方向。该系统中用的是能体现人耳听觉特性的Mel倒谱系数(MFCC)。

linux操作系统文章专题:linux操作系统详解（linux不再难懂）

新闻中心

DSP嵌入式说话人识别系统的设计与实现

评论

相关推荐

技术专区