简单的声音数据ADPCM压缩方法-电子发烧友网

| 聚丰开发方案开发设计及PCBA批量交付|

▼▼▼

前两天有朋友发邮件给我，他有2~3k大小的图像，想用AVR的单片机进行压缩处理，看我有什么建议。

《删繁就简-单片机入门到精通》（我写的~(#^.^#)）一书中有一章节的内容和数据压缩有关，我在网上也发布了相关的测试源代码，这些代码可以用做参考。

我们常使用的JPG图片是一种效率较高的压缩方法，在图像细节没有明显失真的情况下可以达到10倍的压缩率，不过这个10倍是针对尺寸比较大的图像，对于小尺寸图像并不适用。原因是通用的压缩方法，都需要包含一个头信息，头信息会占用一定空间，这样对于小尺寸图像虽然图像数据能有比较好的压缩率，但加上头信息最后得到的全部数据缩小的比率就有限。

越是压缩率高的方法，其算法自然也越复杂，像这位朋友用的是AVR单片机，处理复杂算法的能力有限，几年前我们用51的单片机测试过160*120大小的图像，压缩成JPG需要3~4秒的时间，完全不能满足应用需求。（压缩会比解压缩更费时间）

除了图像，声音数据也常常需要进行压缩处理，不过声音的压缩处理方法和图像会有所不同，大多是提取声音数据的规律，用数学模型来模拟人喉咙发声，这种方法压缩率高，但需要非常复杂的运算，也不适合低速的单片机用程序实现。

但有一种简单的声音压缩方法例外，这种方法完全是基于被压缩的数据分布特性，认为声音数据是在0幅度上下正态分布，幅度越大的值出现的几率越小，而且采样所得的数据通常是平滑相连，出现上一点幅度为正最大而下一点幅度为负最小的可能性几乎为零，两点间的变化差异大都局限于一定范围之内，于是将声音数据处理相邻两点的变化值，从而起到压缩效果，这样处理的算法也比较简单。

这里给大家介绍一种简单的ADPCM处理方法，是我以前在网上收集的。用这种方法实际上也可以用来处理前面图像数据压缩的问题，只是需要先将图像数据预处理为RGB或YUV分量，然后进行压缩处理。

IMA-ADPCM 算法

-------------------------------------------------------

IMA-ADPCM (ADPCM Adaptive Differential Pulse Code Modulation), 是一种针对 16bit (或者更高?) 声音波形数据的一种有损压缩算法, 它将声音流中每次采样的 16bit 数据以 4bit 存储, 所以压缩比 1:4. 而压缩/解压缩算法非常的简单, 所以是一种低空间消耗,高质量声音获得的好途径. 著名的 WestWood 在它的许多游戏里都使用了这个技术, DUNE II, C&C, RA 等等, 保存声音的数据文件后缀名为 .AUD 的大多用 IMA-ADPCM 压缩. (不过 WestWood 的游戏数据文件大多经过打包, 这些小文件统统放进了一个 .MIX 文件包中, 关于解开 .MIX 文件包, 见http://www.geocities.com/SiliconValley/8682)

ADPCM 主要是针对连续的波形数据的, 保存的是波形的变化情况, 以达到描述整个波形的目的. 本文并不想详细介绍 ADPCM 算法原理, 那些是数学知识,有高等数学基础的朋友可以自己研究, 云风数学马马虎虎, 这里也讲不清楚, 但是它的编码和解码的过程却很简洁, 列在后面, 相信大家能够看明白.

先给不熟悉声音信号的储存的朋友补一课, 不想看就跳过吧 ^_^: 一般游戏中用到的声音有两种不同性质的, 一是波形数据, 是经过事先声音采样录制下来的, 采样时一般按每秒 8千到 4 万次的频率(8Khz ~44.4Khz)记录每次采样时的声音强度, 在播放时, 再以同一频率, 按样本声音的强弱变化触发扬声器, 声音就被重现了, 如果你将采样数据流标在坐标纸上,就会发现是一条波形曲线, 如果采样时将声音信号强弱分为 256 级, 就是我们说的 8bit 采样, 如果分为 65536 级, 就是 16bit 采样了; 另一是 MIDI 类的, 它是将各种乐器的声学性质都事先记录下来, 而数据流中仍旧是按一定频率记录, 但不是每秒数千上万次了, 大约只有几 Hz 到几十 Hz, 将几种乐器按某一音频和强度触发描述下来, 经过声卡合成为波形信号就可以播放了.

8bit 采样的声音人耳是可以接受的, 比如 Win95 启动的音乐, 而 16bit 采样的声音可以算是高音质了, 现代游戏中也多采用它. (将声音强度分的更细没有太多的意义, 通常都是提高采样频率来近一步提高音质) ADPCM 算法却可以将每次采样得到的 16bit 数据压缩到 4bit ;-) 需要注意的是, 如果要压缩/接压缩立体声信号, 请注意采样时, 声音信号是放在一起的, 需要将两个声道分别处理. OK, 下面列出了其中的奥妙, 请细细品味:

----------------------------------------------------------------

IMA-ADPCM 压缩过程

首先我们认为声音信号都是从零开始的,那么需要初始化两个变量

int index="0",prev_sample:=0;

下面的循环将依次处理声音数据流, 注意其中的 getnextsample() 应该得到一个 16bit 的采样数据, 而 outputdata() 可以将计算出来的数据保存起来,程序中用到的 step_table[], index_adjust[] 附在后面:
int index="0",prev_sample:=0;

while (还有数据要处理) {
cur_sample=getnextsample(); // 得到当前的采样数据
delta="cur"_sample-prev_sample; // 计算出和上一个的增量
if (delta<0) delta="-delta",sb=8;
else sb="0"; // sb 保存的是符号位

code = 4*delta / step_table[index]; // 根据 steptable[] 得到一个 0~7 的值
if (code>7) code="7"; // 它描述了声音强度的变化量

index+=index_adjust[code]; // 根据声音强度调整下次取 steptable 的序号
if (index<0) index="0"; // 便于下次得到更精确的变化量的描述
else if (index>88) index="88";

prev_sample=cur_sample;

outputode(code|sb); // 加上符号位保存起来
}

---------------------------------------------------------

IMA-ADPCM 解压缩过程

接压缩实际是压缩的一个逆过程, 同样其中的 getnextcode() 应该得到一个编码, 而 outputsample() 可以将解码出来的声音信号保存起来. 这段代码同样使用了同一个的 setp_table[] 和 index_adjust() 附在后面:

int index="0",cur_sample:=0;

while (还有数据要处理) {
code="getnextcode"(); // 得到下一个数据

if ((code & 8) != 0) sb="1" else sb="0";
code&=7; // 将 code 分离为数据和符号

delta=(step_table[index]*code) /4 + step_table[index] / 8;
// 后面加的一项是为了减少误差

if (sb==1) delta="-delta";

cur_Sample+=delta; // 计算出当前的波形数据
if (cur_sample>32767) cur_sample=32767;
else if (cur_sample<-32768) cur_sample:=-32768;

output_sample(cur_sample);

index+=index_adjust[code];
if (index<0) index="0";
if (index>88) index="88";
}

---------------------------------------------------------

附表

int index_adjust[8] = {-1,-1,-1,-1,2,4,6,8};

int step_table[89] = { 7, 8, 9, 10, 11, 12, 13, 14, 16, 17, 19, 21, 23, 25, 28, 31, 34, 37, 41, 45, 50, 55, 60, 66, 73, 80, 88, 97, 107, 118, 130, 143, 157, 173, 190, 209, 230, 253, 279, 307, 337, 371, 408, 449, 494, 544, 598, 658, 724, 796, 876, 963, 1060, 1166, 1282, 1411, 1552, 1707, 1878, 2066, 2272, 2499, 2749, 3024, 3327, 3660, 4026, 4428, 4871, 5358, 5894, 6484, 7132, 7845, 8630, 9493, 10442, 11487, 12635, 13899, 15289, 16818, 18500, 20350, 22385, 24623, 27086, 29794, 32767 };

---------------------------------------------------------
关于 WestWood 的 .AUD 文件,结构比较简单, 这里顺带提一下, 有兴趣可以自己写处理 AUD 文件的程序 ;-) 其 8bit 的声音压缩算法尚不知晓, 但用的最广泛的 16bit 声音正是用 IMA-ADPCM 压缩, 每个 AUD 文件都有一个文件头, 结构如下:

struct {
unsigned short int samplespersec; // 频率
long int size; // 除掉文件头的大小
long int outsize; // 输出数据大小 (通常是 4 倍)
unsigned char flags; // 位 0 描述是否立体声, 位 1 描述是否 16 bit
unsigned char type; // 1=WW 压缩, 99=IMA ADPCM
}

AUD 文件的声音信号是按块存放的, 每块大约 512 字节, 没一块都有一个块头结构:

struct {
unsigned short int size; // 压缩过的数据大小
unsigned short int outsize; // 输出数据大小 (通常是 4 倍)
long int id; // 永远是 0x0000DEAF
}

---------------------------------------------------------
本文参考了 Vladan Bato 写的 AUD 文件格式描述. 可以去他的网页http://www.geocities.com/SiliconValley/8682找到原文和他写的 AUD,WAV 转换程序.另外, Allegro 的爱好者可能想自己加入 AUD 的支持(Allegro 3.1 新增 Plug-In 支持, 增加新文件类型很方便), 不妨看看http://www.alphalink.com.au/~tjaden, 这里有完成了的 AUD 支持库.
---------------------------------------------------------

聚丰开发网址：http://www.elecfans.com/kf/

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

方案开发

方案开发

+关注

关注
0

文章
18

浏览量
2647
电子开发者

电子开发者

+关注

关注
0

文章
2

浏览量
3636

嵌入式操作教程_数字信号处理_音频编解码：3-6 AAC音频解码实验

音轨、支持多达15个低频音轨、具有多种语言的兼容能力、还有多达15个内嵌数据流。 (5)AAC支持更宽的声音频率范围，最高可达到96kHz，最低可达8KHz，远宽于MP3的16KHz-48kHz的范围

发表于 04-11 09:22

高性能无损数据压缩FPGA IP，LZO无损数据压缩IP

LZOAccel-C是一个无损数据压缩引擎的FPGA硬件实现，兼容LZO 2.10标准。 Core接收未压缩的输入数据块，产生压缩后的数据

发表于 01-25 13:39 •212次阅读

高性能无损<b class='flag-5'>数据压缩</b>FPGA IP，LZO无损<b class='flag-5'>数据压缩</b>IP

线束端子压缩比的定义及计算方法

端子压接面积的压缩比根据行业可以分为三3类，第1是汽车类，第2是家电类，第3是电子类。汽车类的标准最为严格，压缩比需要控制在80%至90%，即端子所有铜线的面积如果以1来表示，压接后的面积必须在0.8到0.9之间。

发表于 11-28 09:33 •2475次阅读

线束端子<b class='flag-5'>压缩</b>比的定义及计算<b class='flag-5'>方法</b>

MCU通过安全装载修改压缩数据有噪音的原因？

MCU通过安全装载修改压缩数据,有噪音,压缩数据来自SigmaStudio, 但装入 EQ时没有噪音。原因为何 ?

发表于 11-28 06:18

增益压缩的意义及矢网实操测量方法

放大器的1dB压缩点是当实际输出功率与理想输出功率相差1dB时，将输入输出功率进行简单计算，即可得到增益和压缩特性。理想情况下，图1.1中(输出功率vs输入功率)对输入功率都是线性的

发表于 10-29 10:39 •389次阅读

增益<b class='flag-5'>压缩</b>的意义及矢网实操测量<b class='flag-5'>方法</b>

PCB走线镀锡：用这种方法，既简单又漂亮！

发表于 10-17 15:10 •1684次阅读

PCB走线镀锡：用这种<b class='flag-5'>方法</b>，既<b class='flag-5'>简单</b>又漂亮！

如何用Java播放声音

声音API播放一个音频文件。播放声音的Java APIs 一般来说， javax.sound 包中的Java Sound APIs提供了两种播放音频的方法。在这两种方法之间，在如何

发表于 10-09 10:56 •1792次阅读

Linux中常用的压缩和解压缩命令介绍

在Linux中，压缩和解压缩文件是常见的操作。有时候，我们需要将大文件压缩成较小的文件，以便于传输和存储。同时，我们也需要解压缩文件来获得原始数据

发表于 07-31 11:50 •1807次阅读

transformer模型详解：Transformer 模型的压缩方法

剪枝在高稀疏率时往往不可避免地删除表达神经元，这将导致模型性能严重降低。低秩近似则旨在压缩表达神经元，它对于压缩神经元中的相干部分十分有效，其本质就是提取神经元共享相干子空间的公共基，该方法在 Transformer 结构上也遇

发表于 07-17 10:50 •1344次阅读

从原始音频数据中检测火花声音

电子发烧友网站提供《从原始音频数据中检测火花声音.zip》资料免费下载

发表于 07-03 11:45 •1次下载

关于1dB增益压缩点的基本测试方法分享

今天要给大家分享的是关于1dB增益压缩点的基本测试方法，众所周知，现代矢量网络分析仪往往具有功率扫描的功能，可以非常方便地测出1dB增益压缩点。不过今天介绍的是基于频谱仪的手动测试方法

发表于 06-13 15:41 •2959次阅读

基于QAT硬件压缩加速器和ZFS文件系统实现

压缩作为一种有效降低SSD数据写入量的方法由于受到CPU压缩/解压效率不高的影响，在某些情况下吞吐量甚至低于非压缩IO系统。

发表于 06-09 10:02 •908次阅读

数据无损压缩

在数据存储和传输系统中，增加冗余数据可提高数据的可靠性，而消除或减少冗余数据可降低对存储容量和传输带宽的要求。本章的核心内容是介绍几种消除或减少冗余

发表于 06-05 17:34 •0次下载

LG电视没有声音的原因及解决方法

LG电视没有声音可能是多种原因导致的，以下是一些常见的原因和解决方法。　　1. 音量未开启或太低：首先，确认电视的音量是否被关闭或设置得太低，如果是，按下遥控器的音量加号按钮来增加音量。如果发现音量已经很高，但仍没有声音

发表于 06-03 10:31 •1.1w次阅读

在语音芯片行业中，常用的压缩技术主要分为这几类

在语音芯片行业中，常用的压缩技术有以下几类： 1. ADPCM压缩技术：ADPCM（自适应差分脉冲编码）是一种相对简单的

发表于 06-01 16:25 •421次阅读