新闻中心

EEPW首页>嵌入式系统>设计应用> 基于DSP嵌入式说话人识别系统的设计

基于DSP嵌入式说话人识别系统的设计

作者: 时间:2012-03-21 来源:网络 收藏

本文引用地址://m.amcfsurvey.com/article/257627.htm

2.1 语音信号的端点检测

语音信号的端点检测目的是去除语音信号中的噪声段。端点检测从很大程度上影响到识别率。常用方法有短时能量法,短时过零率法和双门限法等。本系统选用双门限法,实验表明,效果优于前两种方法。在双门限方法端点检测中,阈值的选择尤为关键,该系统的语音采样频率设为8 kHz,语音分帧为每帧80个点。经过多次实验,这里短时能量低阈值通过式(3)的动态方式得到,高阈值设为低阈值的5倍。而过零率的阈值选取应充分考虑到噪声的影响,通过大量实验发现系统中噪声的过零率一般不超过5,所以对过零率的阈值选取为25,取得了很好的效果,准确率达到95%以上。

ITU=0.03(amp_max-amp_min)+amp_min (3)

在端点检测过程中有时会遇到突发性的干扰噪声,这种噪声持续时间很短,一般小于5 ms。为了消除这种干扰,这里用检测后的起止长度判断它是不是语音。如果所检测到的语音长度足够的短,则可以把它当成是噪声。

2.2 特征参数的提取

语音信号的特征提取是说话人身份识别的难点。能否用相对简单的方法提取出一种最能体现说话人个性信息的特征将成为以后研究的方向。该系统中用的是能体现人耳听觉特性的Mel倒谱系数(MFCC)。

MFCC着眼于人耳的听觉机理,依据听觉的结果来分析语音的频谱,获得了很好的识别率和很好的噪声鲁棒性,它利用了听觉系统的临界效应,描述人耳对感知的非线性特性。在硬件资源配置中,MFCC在识别性能和内部空间占用方面也取得了很好的平衡。在该系统中使用16个滤波器(M=16)构成的滤波器组。图4所示是MFCC的提取过程。

2.3 识别方法选择与实现

基于该系统对速度、识别效率、存储空间的要求,这里的识别方法选为高斯混合模型。高斯混合模型(GMM)可以看成是状态数为1的连续分布隐马可夫模型CDHMM。一个M阶混合高斯模型的概率密度函数是由M个高斯概率密度函数加权求和得到,所示如下:



式中:X是一个D维随机向量;bi(Xi)是子分布,i=1,2,…,M是子分布;ωi是混合权重,i=1,2,…,M。对GMM模型参数的估计方法该系统采用最大似然估计。对于一组长度为T的训练矢量序列X={X1,X2,…,XT},GMM的似然度可表示为:



由于式(5)是参数λ的非线性函数,很难直接求出其最大值。因此,该系统采用EM算法估计参数λ。

linux操作系统文章专题:linux操作系统详解(linux不再难懂)


评论


相关推荐

技术专区

关闭