新闻中心

EEPW首页>消费电子>设计应用> GMM-HMM语音识别原理详解

GMM-HMM语音识别原理详解

作者：时间：2017-10-25 来源：网络收藏

　　本文简明讲述GMM-HMM在语音识别上的原理，建模和测试过程。

本文引用地址：//m.amcfsurvey.com/article/201710/368485.htm

　　1. 什么是Hidden Markov Model？

　　HMM要解决的三个问题：

　　1） Likelihood

　　2） Decoding

　　3） Training

　　2. GMM是什么？怎样用GMM求某一音素（phoneme）的概率？

　　3. GMM+HMM大法解决语音识别

　　3.1 识别

　　3.2 训练

　　3.2.1 Training the params of GMM

　　3.2.2 Training the params of HMM

　　====================================================================

　1. 什么是Hidden Markov Model？

　　ANS：一个有隐节点（unobservable）和可见节点（visible）的马尔科夫过程（见详解）。

　　隐节点表示状态，可见节点表示我们听到的语音或者看到的时序信号。

　　最开始时，我们指定这个HMM的结构，训练HMM模型时：给定n个时序信号y1...yT（训练样本），用MLE（typically implemented in EM）估计参数：

　　1. N个状态的初始概率

　　2. 状态转移概率a

　　3. 输出概率b

　　--------------

　　在语音处理中，一个word由若干phoneme（音素）组成；

　　每个HMM对应于一个word或者音素（phoneme）

　　一个word表示成若干states，每个state表示为一个音素

　　用HMM需要解决3个问题：

　　1） Likelihood：一个HMM生成一串observation序列x的概率 the Forward algorithm>

　　其中，αt（sj）表示HMM在时刻t处于状态j，且observation = {x1，。。.，xt}的概率

，

　　aij是状态i到状态j的转移概率，

　　bj（xt）表示在状态j的时候生成xt的概率，

　　2）Decoding：给定一串observation序列x，找出最可能从属的HMM状态序列 the Viterbi algorithm>

　　在实际计算中会做剪枝，不是计算每个可能state序列的probability，而是用Viterbi approximation：

　　从时刻1：t，只记录转移概率最大的state和概率。

　　记Vt（si）为从时刻t-1的所有状态转移到时刻t时状态为j的最大概率：

　　记为：从时刻t-1的哪个状态转移到时刻t时状态为j的概率最大；

　　进行Viterbi approximation过程如下：

　　然后根据记录的最可能转移状态序列进行回溯：

　　3）Training：给定一个observation序列x，训练出HMM参数λ = {aij， bij} the EM （Forward-Backward） algorithm

　　这部分我们放到“3. GMM+HMM大法解决语音识别”中和GMM的training一起讲

　　---------------------------------------------------------------------
GMM是什么？#e#

　2. GMM是什么？怎样用GMM求某一音素（phoneme）的概率？

　　2.1 简单理解混合高斯模型就是几个高斯的叠加...e.g. k=3

　　fig2. GMM illustration and the probability of x

　　2.2 GMM for state sequence

　　每个state有一个GMM，包含k个高斯模型参数。如”hi“（k=3）：

　　PS：sil表示silence（静音）

　　fig3. use GMM to estimate the probability of a state sequence given observation {o1， o2， o3}

　　其中，每个GMM有一些参数，就是我们要train的输出概率参数

　　fig4. parameters of a GMM

　　怎么求呢？和KMeans类似，如果已知每个点x^n属于某每类 j 的概率p（j|x^n），则可以估计其参数：

　　其中

　　只要已知了这些参数，我们就可以在predict（识别）时在给定input sequence的情况下，计算出一串状态转移的概率。如上图要计算的state sequence 1->2->2概率：

　　fig5. probability of S1->S2->S3 given o1->o2->o3

　　---------------------------------------------------------------------
GMM+HMM大法解决语音识别#e#

3. GMM+HMM大法解决语音识别

　　我们获得observation是语音waveform，以下是一个词识别全过程：

　　1）将waveform切成等长frames，对每个frame提取特征（e.g. MFCC），

　　2）对每个frame的特征跑GMM，得到每个frame（o_i）属于每个状态的概率b_state（o_i）

　　fig6. complete process from speech frames to a state sequence

　　3）根据每个单词的HMM状态转移概率a计算每个状态sequence生成该frame的概率; 哪个词的HMM 序列跑出来概率最大，就判断这段语音属于该词

　　宏观图：

　　fig7. Speech recognition， a big framework

　　好了，上面说了怎么做识别。那么我们怎样训练这个模型以得到每个GMM的参数和HMM的转移概率什么的呢？

　　①Training the params of GMM

　　GMM参数：高斯分布参数：

　　从上面fig4下面的公式我们已经可以看出来想求参数必须要知道P（j|x），即，x属于第j个高斯的概率。怎么求捏？

　　fig8. bayesian formula of P（ j | x ）

　　根据上图 P（j | x），我们需要求P（x|j）和P（j）去估计P（j|x）。

　　这里由于P（x|j）和P（j）都不知道，需要用EM算法迭代估计以最大化P（x） = P（x1）*p（x2）*.。.*P（xn）：

　　A. 初始化（可以用kmeans）得到P（j）

　　B. 迭代

　　E（estimate）-step：根据当前参数（means， variances， mixing parameters）估计P（j|x）

　　M（maximization）-step：根据当前P（j|x）计算GMM参数（根据fig4 下面的公式：）

其中

　　②Training the params of HMM

　　前面已经有了GMM的training过程。在这一步，我们的目标是：从observation序列中估计HMM参数λ；

　　假设状态->observation服从单核高斯概率分布：

　　则λ由两部分组成：

　　HMM训练过程：迭代

　　E（estimate）-step：给定observation序列，估计时刻t处于状态sj的概率

　　M（maximization）-step：根据重新估计HMM参数aij.

　　其中，

　　E-step：给定observation序列，估计时刻t处于状态sj的概率

　　为了估计，定义： t时刻处于状态sj的话，t时刻未来observation的概率。即

　　这个可以递归计算：β_t（si）=从状态 si 转移到其他状态 sj 的概率aij * 状态 i 下观测到x_{t+1}的概率bi（x_{t+1}） * t时刻处于状态sj的话{t+1}后observation概率β_{t+1}（sj）

　　即：

　　定义刚才的为state occupation probability，表示给定observation序列，时刻t处于状态sj的概率P（S（t）=sj | X，λ）。根据贝叶斯公式p（A|B，C） = P（A，B|C）/P（B|C），有：

　　由于分子p（A，B|C）为

　　其中，αt（sj）表示HMM在时刻t处于状态j，且observation = {x1，。。.，xt}的概率；

： t时刻处于状态sj的话，t时刻未来observation的概率；

　　且

　　finally，带入的定义式有：

　　好，终于搞定！对应上面的E-step目标，只要给定了observation和当前HMM参数 λ，我们就可以估计了对吧（*^__^*）

　　M-step：根据重新估计HMM参数λ：

　　对于λ中高斯参数部分，和GMM的M-step是一样一样的（只不过这里写成向量形式）：

　　对于λ中的状态转移概率aij，定义C（Si->Sj）为从状态Si转到Sj的次数，有

　　实际计算时，定义每一时刻的转移概率为时刻t从si->sj的概率：

　　那么就有：

　　把HMM的EM迭代过程和要求的参数写专业点，就是这样的：

关键词：语音识别生物识别

评论

相关推荐

电容、光学、超声波、手机指纹识别技术你了解吗

消费电子生物识别指纹智能手机 | 2023-04-20

指纹芯片FCD4A14的原理及应用

资源下载爱特梅尔公司指纹芯片 FCD4A14 生物识别指纹传感器 | 2007-02-16

美光高性能内存与存储，推动 AI 丰富残障人士生活体验

网络与存储语音识别生成式AI 机器学习内存 | 2023-12-07

Nuance语音识别技术

设计方案语音识别 Nuance 消费电子 | 2015-02-03

JavaScript语音识别库-Julius

视频 JavaScript 语音识别 Julius | 2015-07-07

4 调用 Google 语音识别

视频 Android Wear 图灵机器人 Google 语音识别 | 2015-07-07

语音模组重启及声音输出异常浅析

消费电子 202106 智能家居语音识别可靠性 | 2021-07-12

大联大品佳集团推出基于MediaTek产品的亚马逊智能物联网语音识别方案

物联网与传感器大联大品佳 MediaTek 亚马逊语音识别 | 2022-09-08

便携设备中集成“一直听”的语音触发方案

nakey | 2016-03-09

语音识别在遥控系统中的应用设计

资源下载语音识别 DTW FED FRED 学习型遥控器 | 2007-04-19

赛昉科技重磅发布全球首款基于RISC-V人工智能视觉处理平台 ——惊鸿7100

惊鸿7100 RISC-V指令集深度学习图像处理语音识别机器视觉 | 2020-10-10

物联网生物识别技术在工作场所中发挥更大作用

物联网生物识别 | 2020-08-10

基于STM32智能家居系统的设计与实现

设计方案 STM32 语音识别服务器智能家居 | 2015-03-21

生物签名认证为生物识别市场带来新机遇

liujt_ic | 2003-04-09

孤立词语音识别系统的DSP实现

设计方案孤立词 DSP 语音识别 | 2015-03-28

基于DTW模型的语音识别

资源下载 DTW模型语音识别 MATLAB | 2007-04-19

基于Infineon SoC蓝牙CYW20835之智能遥控器方案

物联网与传感器英飞凌蓝牙 BT 遥控器红外信号传感器语音识别 2.4g 语音遥控 cyw20835 | 2023-08-02

PB与CanvasBio合作针对笔记本电脑的生物识别方案

物联网与传感器 PB CanvasBio 笔记本电脑生物识别 | 2022-12-22

生物识别技术原理解析

dolphin | 2014-06-12

微软197亿美元完成对Nuance的收购目标不止在于语音识别市场

微软 Nuance 收购语音识别 | 2022-03-10

本科毕业设计：一种基于发育思想的语音识别系统实现

资源下载语音识别人工智能自主式机器发育思想自组织映射网络简单反馈神经网络 | 2007-04-19

谈谈当前：离线语音识别与在线语音识别的优缺点

白岭 | 2020-02-18

语音识别及其定点DSP实现

设计方案语音识别 DSP C语言 | 2015-03-28

利用MEMS麦克风阵列定位并识别音频或语音信源的技术方案

设计方案 ARM处理器 MEMS STM32F4 语音识别 | 2015-03-23

生物识别迎百亿市场规模 “身体密码”或为安全钥匙

崔建巧 | 2016-10-27

多模融合、加速集成,生物识别智能门禁市场发展扩容

物联网与传感器生物识别智能门禁 | 2023-08-07

电视机智能声控选合系统设计与实现

资源下载语音识别彩电遥控智能声控选台 | 2007-02-16

技术专区

关闭