人工智能助力科大讯飞语音转写技术新突破

作者：时间：2016-02-05 来源：电子产品世界

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

　　近年来，随着“人工智能”逐渐成为新时代科技发展的方向，整个语音行业也迅速成长。其中，尤以听写技术发展最为迅速，目前已广泛在语音输入、语音搜索、语音助手等产品中得到应用并日臻成熟。

本文引用地址：//m.amcfsurvey.com/article/201602/286780.htm

　　但语音技术并不因此止步，听写技术解决的是人机对话问题，更多适用于朗读式风格说话这类很工整的语音，专为识别而生。而现实的场景却复杂得多——会议、采访、演讲、交谈等自然场景下的语音第一目的并非为了转写，因此不仅在质量上有先天缺陷，而且是不注重发音、语速、环境等影响因素的随意性非工整语音，对机器的敏感度是极大的挑战。这就需要在音频的转写技术方面有所突破，就主流技术趋势而言，解决会话风格和录音质量两个问题就成为技术突破的核心要求。

　　国内语音产业龙头科大讯飞在语音领域深耕多年，而日前科大讯飞年度发布会上亮相的最新成果恰恰包括语音转写方面的技术突破，让人喜出望外。

　　两大技术双剑合璧突围人人对话

　　解决人人对话转写问题的难点在于其场景的复杂性与影响因素的多样性，不仅需要海量的人人交谈数据，更核心的是需要在海量数据基础上进行建模。为突破这一技术难点，经过潜心研究，讯飞独家推出两大技术——篇章级处理技术和口语风格处理技术。

科大讯飞通过声学模型建模技术和语言模型建模技术的创新提高了通用场景的识别率，在此基础上利用篇章级处理技术(包括AM自适应、LM自适应、领域LM、语义LM等)，使杂乱无章的数据变得有迹可循。值得一提的是，在提高通用识别率方面，讯飞掌握了近一两年才成功应用于语音识别中的最新的双向RNN技术和当下比较火的CTC建模技术，使得识别率比DNN技术和双向RNN技术分别相对提升了25%和10%。目前，说话人自适应技术已申请专利。

　　针对人人对话场景中出现的口语词、犹豫词、重复等情况，通过口语风格处理技术，让机器自动学习重复、会跳弧，解决口语场景下的识别问题。

　　混响技术新突破成就高品质识别

　　混响降噪一直是语音转写的一大难点。对于为了听感而录制的有损失的语音，讯飞综合利用DNN加混响技术和DNN去混响技术，解决远场录音的混响问题。所谓加混响，即在近场的清晰数据基础上加上混响，仿造混响数据，形成远场语音，再对机器进行混合训练，使模型的鲁棒性更好。降噪的方式类似。

　　而如何从源头上解决混响和降噪似乎才是问题的关键，讯飞独辟蹊径，将技术创新与专为转写而设计的硬件设备结合来解决这一问题。在智能录音设备上加上多麦克阵列，利用阵列解混响技术去混响。再与单麦克解混响技术结合，进一步提高远场环境下的识别率。目前，运用单麦克解混响技术识别率可达到90%以上。

　　文本摘要技术崭露头角

　　解决了人人对话场景的转写问题，人工智能大潮下，语音技术的下一步必然是继续在更智能的方向朝前迈进——文本摘要技术成为可预见的迫切需求。摘要本质上是一种高层的语义理解，不仅国内尚属空白，国际范围内也鲜有成果。讯飞目前正在做的是先对文本进行预处理，包括异常检测、标点预测、内容顺滑等，过滤掉识别错误、重复词、预期词，再通过Encoder-Decoder框架解决自动摘要问题，现已获得专利，有望在明年投入使用。

　　技术的进步终将落脚于功能和产品，从而服务人们的工作生活。目前，语音转写技术的最新发展成果已应用于科大讯飞旗下的音频转文字服务平台——讯飞听见(www.iflyrec.com/)、手机APP录音宝、讯飞听见录音笔等产品上，涵盖了多种终端，成为人工智能发展的重要推力。同时，随着移动互联网、智能硬件浪潮的到来，科大讯飞整合了各技术领域多年的研究成果，构建了全球首个智能人机交互平台——“讯飞开放平台”：将以语音交互为核心的人工智能技术开放给业界开发者。未来，通过科大讯飞的技术开放，将有更多类似“讯飞听见”的人工智能落地化产品能够快速实现。

新闻中心

人工智能助力科大讯飞语音转写技术新突破

评论

相关推荐

技术专区