国内外语音识别技术发展现状探讨

作者：时间：2016-10-13 来源：电子发烧友

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

　　这一时期，语音识别研究进一步走向深入，其显著特征是HMM模型和人工神经元网络(ANN)在语音识别中的成功应用。HMM模型的广泛应用应归功于AT&TBell实验室Rabiner等科学家的努力，他们把原本艰涩的HMM纯数学模型工程化，从而为更多研究者了解和认识，从而使统计方法成为了语音识别技术的主流。

本文引用地址：//m.amcfsurvey.com/article/201610/311278.htm

　　统计方法将研究者的视线从微观转向宏观，不再刻意追求语音特征的细化，而是更多地从整体平均(统计)的角度来建立最佳的语音识别系统。在声学模型方面，以Markov链为基础的语音序列建模方法HMM(隐式Markov链)比较有效地解决了语音信号短时稳定、长时时变的特性，并且能根据一些基本建模单元构造成连续语音的句子模型，达到了比较高的建模精度和建模灵活性。在语言层面上，通过统计真实大规模语料的词之间同现概率即N元统计模型来区分识别带来的模糊音和同音词。另外，人工神经网络方法、基于文法规则的语言处理机制等也在语音识别中得到了应用。

　　20世纪90年代前期，许多著名的大公司如IBM、苹果、AT&T和NTT都对语音识别系统的实用化研究投以巨资。语音识别技术有一个很好的评估机制，那就是识别的准确率，而这项指标在20世纪90年代中后期实验室研究中得到了不断的提高。比较有代表性的系统有：IBM公司推出的ViaVoice和DragonSystem公司的NaturallySpeaking，Nuance公司的NuanceVoicePlatform语音平台，Microsoft的Whisper，Sun的VoiceTone等。

　　其中IBM公司于1997年开发出汉语ViaVoice语音识别系统，次年又开发出可以识别上海话、广东话和四川话等地方口音的语音识别系统ViaVoice‘98。它带有一个32，000词的基本词汇表，可以扩展到65，000词，还包括办公常用词条，具有“纠错机制”，其平均识别率可以达到95%。该系统对新闻语音识别具有较高的精度，是目前具有代表性的汉语连续语音识别系统。

　　四：语音识别技术发展现状-国内研究

　　我国语音识别研究工作起步于五十年代，但近年来发展很快。研究水平也从实验室逐步走向实用。从1987年开始执行国家863计划后，国家863智能计算机专家组为语音识别技术研究专门立项，每两年滚动一次。我国语音识别技术的研究水平已经基本上与国外同步，在汉语语音识别技术上还有自己的特点与优势，并达到国际先进水平。中科院自动化所、声学所、清华大学、北京大学、哈尔滨工业大学、上海交通大学、中国科技大学、北京邮电大学、华中科技大学等科研机构都有实验室进行过语音识别方面的研究，其中具有代表性的研究单位为清华大学电子工程系与中科院自动化研究所模式识别国家重点实验室。

　　清华大学电子工程系语音技术与专用芯片设计课题组，研发的非特定人汉语数码串连续语音识别系统的识别精度，达到94.8%(不定长数字串)和96.8%(定长数字串)。在有5%的拒识率情况下，系统识别率可以达到96.9%(不定长数字串)和98.7%(定长数字串)，这是目前国际最好的识别结果之一，其性能已经接近实用水平。研发的5000词邮包校核非特定人连续语音识别系统的识别率达到98.73%，前三选识别率达99.96%;并且可以识别普通话与四川话两种语言，达到实用要求。

　　中科院自动化所及其所属模式科技(Pattek)公司2002年发布了他们共同推出的面向不同计算平台和应用的“天语”中文语音系列产品——PattekASR，结束了中文语音识别产品自1998年以来一直由国外公司垄断的历史。

　　五：语音识别技术发展现状-当前亟待解决的问题

　　语音识别系统的性能受到许多因素的影响，包括不同说话人的发音方式、说话方式、环境噪音、传输信道衰落等等。

　　具体要解决的问题有四点：

　　①增强系统的鲁棒性，也就是说如果条件状况变得与训练时很不相同，系统的性能下降不能是突变的。

　　②增加系统的适应能力，系统要能稳定连续的适应条件的变化，因为说话人存在着年龄、性别、口音、语速、语音强度、发音习惯等方面的差异。所以，系统应该有能力排除掉这些差异。达到对语音的稳定识别。

　　③寻求更好的语言模型，系统应该在语言模型中得到尽可能多的约束，从而解决由于词汇量增长所带来的影响。

　　④进行动力学建模，语音识别系统提前假定片段和单词是相互独立的，但实际上词汇和音素的线索要求对反映了发声器官运动模型特点的整合。所以，应该进行动力学建模，从而将这些信息整合到语音识别系统中去。

　　六：语音识别技术发展现状-语音识别系统的最新发展

　　语音识别技术发展到今天，特别是中小词汇量非特定人语音识别系统识别精度已经大于98%，对特定人语音识别系统的识别精度就更高。这些技术已经能够满足通常应用的要求。由于大规模集成电路技术的发展，这些复杂的语音识别系统已经完全可以制成专用芯片，大量生产。在西方经济发达国家，大量的语音识别产品已经进入市场和服务领域。一些用户交换机、电话机、手机已经包含了语音识别拨号功能、语音记事本、语音智能玩具等产品，同时也包括语音识别与语音合成功能。人们可以通过电话网络用语音识别口语对话系统查询有关的机票、旅游、银行信息。调查统计表明，多达85%以上的人对语音识别的信息查询服务系统的性能表示满意。可以预测，在近5年内，语音识别系统的应用将更加广泛，各种各样的语音识别系统产品将不断出现在市场上。语音识别技术在人工邮件分拣中的作用也日益显现，发展前景诱人。一些发达国家的邮政部门已经使用了这一系统，语音识别技术逐渐成为邮件分拣的新技术。它可以克服手工分拣单纯依靠分拣员记忆力的不足，解决人员成本过高的问题，提高邮件处理的效率和效益。就教育领域来讲，语音识别技术的最直接的应用就是帮助用户更好地练习语言技巧。

　　语音识别技术的另一个发展分支就是电话语音识别技术的发展，贝尔实验室是这方面的先驱，电话语音识别技术将能够实现电话查询、自动接线以及一些专门业务如旅游信息等的操作。银行应用了语音理解技术的声讯查询系统后，可不分昼夜地为客户提供二十四小时的电话银行理财服务。而证券业方面，若是采用电话语音识别声讯系统的话，用户想查询行情便可以直接讲出股票名称或代码，而系统确认用户的要求后，会自动读出最新的股票价，这将大大方便用户。目前在114查号台还有大量的人工服务，如果采用语音技术，就可让计算机自动接听用户的需要，然后回放查询的电话号码，从而节约了人力资源。

新闻中心

国内外语音识别技术发展现状探讨

评论

相关推荐

技术专区