基于ATMEGAl28的语音识别系统设计

作者：时间：2013-09-13 来源：网络收藏

3 软件系统设计

软件设计主要有两部分，分别为移植LD3320官方代码和编写语音识别应用程序。

3．1 移植LD3320源代码

LD3320源代码是基于51单片机实现的，SPI部分采用的是软件模拟方式，但在播放MP3数据时会有停顿现象，原因是51单片机主频较低，导致SPI速率很慢，不能及时更新MP3数据。移植到ATMEGA128需要修改底层寄存器读写函数、中断函数等。底层驱动在Reg_RW．c文件中，首先在Reg_RW．h使用HARD_PARA_PORT宏定义，以支持硬件SPI。然后在Reg_RW．c文件中找到HARD_PARA_PORT对应条件宏的代码段，保留AVR的SPI接口代码。

3．2 应用程序实现

在代码中预先设定几个单词：“你好”，“播放音乐”，“打开”。当用户说“播放音乐”时，MCU控制LD3320播放一段音乐，如果是其他词语，则在串口中打印识别结果，然后再次转换到语音识别状态。

3．2．1 MP3播放代码

LD3320支持MP3数据播放，播放声音的操作顺序为：

通用初始化→MP3播放用初始化→调节播放音量→开始播放。

将MP3数据顺序放入数据寄存器，芯片播放完一定数量的数据时会发出中断请求，在中断函数中连续送入声音数据，直到声音数据结束。MP3播放函数实现代码如下：

由于MCU容量限制，选取测试的MP3文件不能太大。首先在计算机上将MP3文件的二进制数据转为标准C数组格式文件，然后将该文件加入工程中。源代码中MP3文件存储在外扩的SPI FLASH中，工程中需要注释和移除全部相关代码。MP3数据读取函数是LD_ReloadMp3Data()，只需将读取的SPI FLASH数据部分改成以数组数据读取的方式即可。

3．2．2 语音识别程序

LD3320语音识别芯片完成的操作顺序为：通用初始化→ASR初始化→添加关键词→开启语音识别。在源代码中的RunASR()函数已经实现了上面的过程，直接调用即可开启语音识别功能。

RunASR()函数代码如下：

用户说完话后，LD3320通过打分的方式，将关键词列表中特征最相似的一个作为输出。然后LD3320会产生一个中断信号，此时MCU跳入中断函数读取C5寄存器的值，该值即为识别结果，得到结果后，用户可以根据数值来实现一些功能，比如读取到1，说明是“播放音乐”，那么可以调用前面的PlaySound()函数来播放音乐。

语音识别控制的关键点在于语音识别的准确率。表1给出了测试结果，当然也可以在识别列表中加入更多的关键词来做测试。通过测试结果可以看出，LD3320的识别率在95％上，能够满足用户需求。

4 结语

本文讨论了基于AVR单片机的语音识别系统设计的可行性，并给出了设计方案。通过多次测试结果表明，本系统具有电路运行稳定，语音识别率高，成本低等优点。同时借助于LD3320的MP3播放功能，该系统具有一定的交互性和娱乐性。移植性方面，系统通过简单的修改，可以很方便地将LD3320驱动程序移植到各种嵌入式系统中。随着人们对人工智能功能的需求，语音识别技术将越来越受到人们的关注，相信不久的将来，语音识别将会拥有更广阔的应用。

新闻中心

基于ATMEGAl28的语音识别系统设计

评论

相关推荐

技术专区