工业控制 | 能源技术 | 汽车电子 | 通信网络 | 安防监控 | 智能电网 | 移动手持 | 无线技术 | 家用电器 | 数字广播 | 消费电子 | 应用软件 | 其他方案

数字音频基础

作者:dolphin 时间:2012-10-31

1.1 模拟音频和数字音频
  声音是机械振动。振动越强,声音越大,话筒把机械振动转换成电信号,模拟音频技术中以模拟电压的幅度表示声音强弱。
  模拟声音在时间上是连续的,而数字音频是一个数据序列,在时间上是断续的。数字音频是通过采样和量化,把模拟量表示的音频信号转换成由许多二进制数1和0组成的数字音频信号。
计算机内的基本数制是二进制,为此我们也要把声音数据写成计算机的数据格式,这称之为编码音频数字化
  计算机内的音频必须是数字形式的,因此必须把模拟音频信号转换成有限个数字表示的离散序列,即实现音频数字化。在这一处理技术中,涉及到音频的抽样、量化和编码。
1.2 数字音频的采样和量化
采样:音频实际上是连续信号,或称连续时间函数x(t)。用计算机处理这些信号时,必须先对连   续信号采样,即按一定的时间间隔(T)取值, 得到x(nT)(n为整数)。T称采样周期,1/T称   为采样频率。称x(nT)为离散信号。
采样定理:设连续信号x(t)的频谱为x(f),以采样间隔T采样得到离散信号x(nT),如果满足:
  当|f|≥fc时,fc是截止频率
  T≤ 1/2fc 或fc≤ 1/2T
  则可以由离散信号x(nT)完全确定连续信号x(t)。当采样频率等于1/(2T)时,即 fN=1/2T,称fN为耐魁斯特频率。
  常用的音频采样率有:8kHz、11.025kHz、22.05kHz、16kHz、37.8kHz、44.1kHz、48kHz。
量化:为了把抽样序列x(nT)存入计算机,必须将样值量化成一个有限个幅度值的集合x(nT)。通常,用二进制数字表示量化后的样值是方便的。用B位二进制码字可以表示2B个不同的量化电平。存储数字音频信号的比特率为:
   I=B·fs(比特/秒)
   fs是抽样率(抽样/秒)
   B是每个样值的比特数(比特/采样)
量化采样的过程如下:先将整个幅度划分成为有限个小幅度(量化阶距)的集合,把落入某个阶距  内的样值归为一类,并赋予相同的量化值。如果量化值是均匀分布的,我们称之为均匀量化  。设△为量化阶距,量化器的最大范围是Xmax,则:
  ?=2Xmax / 2
  对于小于(i+1/2)△,而大于(i-1/2)△的样值,均规定为相同的量化值i△。
1.3 数字音频的文件格式
数字音频的文件格式
文件扩展名  说明. PCM   PCM数据序列
·VOC Creative公司的波形音频文件格式。
·WAV Microsoft公司的波形音频文件格式。
·SND NeXT计算机的波形音频文件格式。
·AIF Apple计算机的波形音频文件格式。
·MID MIDI文件格式。
·RMI Microsoft公司的MIDI文件格式。它可以包括图片、标记和文本。
1.4 音频信号的特点
音频信号处理的特点如下:
(1). 音频信号是时间依赖的连续媒体。
(2). 即理想的合成声音应是立体声。
(3). 对语音信号的处理,要抽取语意等其它信息,如可能会涉及到语言学、社会学、声学等。
从人与计算机交互的角度来看音频信号相应的处理如下:
(1). 人与计算机通信(计算机接收音频信号)。包括 音频获取;语音识别与理解。
(2). 计算机与人通信(计算机输出音频)。 音频合成; 声音定位:音频/视频同步。
(3). 人—计算机—人通信
人通过网络,与处于异地的人进行语音通信,需要的音频处理包括:语音采集、音频编码/解码、音频传输等。这里音频编/解码技术是信道利用率的关键。
2 音频卡的工作原理
2.1 音频卡的功能和分类
音频卡的主要功能是:音频的录制与播放、编辑与合成、MIDI接口、文语转换、CD-ROM接口及游戏接口等。录制与播放编辑与合成
MIDI接口和音乐合成文语转换与语音识别
2.2 音频卡的工作原理
开发生产音频卡的公司很多,其中最有影响的公司是新加坡创新科技有限公司(Creative Labs.Inc.)开发的系列产品SoundBlaster系列音频卡,它是集语音与音乐于一体的多煤体音频卡,它不但具有优良稳定的硬件特性,而且还有丰富的软件。
3 音频编码基础和标准
3.1 音频编码基础
  从信息保持的角度讲,只有当信源本身具有冗余度,才能对其进行压缩。根据统计分析结果,语音信号存在着多种冗余度,其最主要部分可以分别从时域和频域来考虑。另外由于语音主  要是给人听的,所以考虑了人的听觉机理,也能对语音信号实行压缩。
时域信息的冗余度
 1. 幅度的非均匀分布
 2. 样本间的相关
 3. 周期之间的相关
 4. 基音之间的相关
 5. 静音系数
 6. 长时自相关函数
频域信息的冗余度
 1. 非均匀的长时功率谱密度
 2. 语音特有的短时功率谱密度
人的听觉感知机理
 1. 人的听觉具有掩蔽效应
 2. 人耳对不同频段的声音敏感度不同
 3. 人耳对语音信号的相位变化不敏感
音频编码的分类如下:
 基于音频数据的统计特性进行编码,其典型技术是波形编码。
 基于音频的声学参数,进行参数编码,可进一步降低数据率。其目标是使重建音频保持原音频的特性。
 基于人的听觉特性进行编码:从人的听觉系统出发,利用掩蔽效应,设计心理声学模型,从而实现更高效率的数字音频的压缩。
3.2 音频编码标准
当前编码技术发展的一个重要的方向就是综合现有的编码技术,制定全球的统一标准,使信息管理系统具有普遍的互操作性并确保了未来的兼容性。国际上,对于语音信号压缩编码的审议在CCITT下设的第十五研究组进行,相应的建议为G系列,多由ITU发表。
音频编码算法和标准
1.G.711
2.G.721
3.G.722
4.G.728
5. MPEG中的音频编码
6.AC-3编码和解码
G.722建议的带宽音频压缩仍采用波形编码技术,因为要保证既能适用于话音,又能用于其他方式的音频,只能考虑波形编码。G.722编码采用了高低两个子带内的ADPCM方案,高低子带的划分以4KHz为界。然后再对每个子带内采用类似G.721建议的ADPCM编码,因此G.722建议的技术方案可以简写为SB-ADPCM(子带-自适应差分脉冲码调制)。



评论

技术专区