基于DTW的编码域说话人识别研究

作者：时间：2010-10-14 来源：网络收藏

本文引用地址：//m.amcfsurvey.com/article/166450.htm

3 实验结果与性能分析及结论
　为测试上述识别性能，对其进行了固定文本的说话人识别试验。试验中，采用电话信道863语料库30个说话人共300个录音文件,文件格式为16 bit线性PCM。为了模拟VoIP中语音压缩帧，使用G.729声码器对原始语音文件进行压缩。使用每个说话人的一个文件训练成为模板。测试语音长度为10 s～60 s以5 s为间隔的共11个测试时间标准。这样，模板库中有30个模板，测试语音有270个，使用微机配置是：CPU Pentium 2.0 GHz，内存512 MB。
　在实验中，M和N取64，通过各模版间的匹配，确定了判决门限为0.3时，识别效果最佳。
　为了对比DTW算法的识别性能，采用在传统说话人识别中广泛使用的GMM模型作为对比实验，其中GMM模型使用与DTW算法相同的编码流特征。
图4给出基于DTW识别方法与GMM模型(混元数64)识别G.729编码方案863语料库的文本相关说话人的误识率对比图。横坐标代表的测试语音的时长，纵坐标代表识别误识率。由实验结果可知在文本相关的说话人识别中，基于DTW算法的识别率在绝大多数情况下高于GMM模型，且随着测试语音的增长，优势更明显。

　为比较特征提取的时间性能和总的时间性能，实验条件如下：
(1)选择的50个说话人的语音只进行特征提取，测试语音长度总和在25 min左右；
(2)对测试语音分别进行解码识别和编码流的识别，模板数为10个；
(3)微机配置为：CPU Pentium 2.0 GHz,内存512 MB。
表1为特征提取时间比较结果，表2为说话人识别时间比较结果。

　由实验结果可以看出，在编码比特流中进行特征提取时间和识别的(上接第121页)时间都远小于解码重建后的语音特征提取时间和识别时间，满足实时说话人识别的需要。
在文本相关的说话人识别中，对比使用同样G.729压缩码流特征的GMM模型， DTW方法的识别率和处理效率均高于GMM模型，能够实时应用于VoIP网络监管中。
参考文献
[1] 石如亮.编码域说话人识别技术研究[D].郑州：解放军信息工程大学，2007.
[2] PETRACCA M, SERVETTI A, DEMARTIN J C. Performance analysis of compressed-domain automatic speaker recognition as a function of speech coding technique and bit rate [A]. In: International Conference on Multimedia and Expo (ICME) [C]. Toronto,Canada, 2006:1393-1396.
[3] 石如亮，李弼程，张连海，等. 基于编码比特流的说话人识别[J].信息工程大学学报，2007，8(3): 323-326.
[4] 王炳锡，屈丹，彭煊.实用语音识别基础[M].北京：国防工业出版社，2004: 264-286.
[5] 李邵梅，刘力雄，陈鸿昶.实时说话人辨别系统中改进的DTW算法[J].计算机工程，2008，34(4):218-219.
[6] DUNN R B, QUATIERI T F, REYNOLDS D A. et al. Speaker recognition from coded speech in matched and mismatched conditions [A]. In: Proc. Speaker Recognition Workshop’01 [C]. Grete, Greece, 2001:115-120.
[7] AGGARWAL C C, OLSHEFSKI D, SAHA D et al. CSR: Speaker recognition from compressed VoIP packet stream [A]. In: International Conference on Multimedia and Expo (ICME) [C]. Amsterdam, Holand, 2005: 970-973.

新闻中心

基于DTW的编码域说话人识别研究

评论

相关推荐

技术专区