0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

压缩语音以跨电话系统传输所需的模数转换

科技观察员 来源:allaboutcircuits 作者: Sneha HL 2022-05-07 17:13 次阅读

本文介绍了压扩主题——跨电话系统的人类语音的数字化、传输和转换。

简要背景

电话系统自发明以来一直处于高需求状态,并且已经从公共交换电话网络 (PSTN) 发展为现代无线数字移动系统。基于模数转换的脉冲编码调制 (PCM) 系统已经使用了六年。应该注意的是,无论使用哪种编码,所有电话系统都是通过利用人类语音和听觉机制背后的基本事实来工作的。

人类言语和听觉机制

语音是人类之间的自然交流机制。单词由不同的音素、幅度不同的单个声音组成,安静的音素比响亮的音素出现的频率更高。一般来说,人类产生的语音信号的频率范围为 70Hz~400Hz,而人类听觉的频率范围为20Hz~20kHz。我们的听力具有选择性,对300 Hz 至 10 kHz范围内产生的声音提供最高灵敏度。

这些以实验为依据的事实得出的结论是,当在 0.3 到 3.4 kHz 范围内记录语音信号时,听者很容易理解说话者所传达的信息

poYBAGJ2OEaAEKvYAAC3M0S64IA612.jpg

图 1. “语音香蕉”显示了音素及其在识别所需的各种幅度下的频率。图片由Clear Value Hearing提供。

当听力能力以分贝等级表示时,它的范围从 0 dB SPL(听力阈值)到 130 dB SPL(疼痛阈值)。

较低幅度和较高幅度之间的 比率很大。在一般意义上,较低幅度的声音被认为是耳语,而较高幅度的声音被认为是喊叫。然而,即使是正常的会话语音也有相当大的幅度变化,因为它是由不同的音素组成的。此外,可以看出,更安静的音素比响亮的音素携带更多的信息并且具有更多的熵。

无压扩的基于 PCM 的电话系统

电话系统最初是作为模拟系统出现的,现在已经变成了数字系统。因此,无论我们说什么都需要数字化然后传输——因此实际的模拟语音信号需要在接收端进行恢复。任何模拟信号到其数字形式的转换都包括三个重要阶段:采样、量化和编码。

语音信号的采样

采样是一个过程,通过该过程,我们可以将在所有时刻定义的原始信号转换为仅在特定时刻定义的离散信号。

我们如何决定在哪些点定义信号?

我们首先考虑一个基本但非常重要的事实,即我们不仅对从发送方传输信号感兴趣,而且对在接收方恢复信号感兴趣。

与该过程相关的定理是著名的奈奎斯特定理,该定理指出,只有在至少以其中包含的最高频率两倍的速率对其进行采样时,才能忠实地恢复传输信号。

因此,如果最高频率是f,那么我们需要对信号进行采样的频率应该大于或等于 2 f。反过来,这意味着我们需要在距离小于或等于 1/2 f的时刻定义我们的信号 (由于频率和时间彼此成反比)。

从上一节的讨论中,我们知道我们对电话交谈的兴趣跨越了 0.3 到 3.4 kHz 的频率范围。并且任何成功的信号传输都需要存在保护频带,因此整个范围变为0 到 4 kHz。因此,在我们的例子中,8 kHz (= 2 x 4 KHz) 的采样率是一个不错的选择。

这表明,在采样之后,我们的语音信号沿时间轴离散化,其中相邻样本之间的间距将为 18KHz=125微秒18KHz=125微秒。

语音信号的量化与编码

请注意,采样仅对时间轴上的信号进行数字化(参见图 2 所示的典型示例,其中红色正弦信号通过采样转换为蓝色离散值信号)。然而,为了使语音信号在本质上完全数字化,我们需要沿其幅度轴对其进行离散化,这被视为量化。

pYYBAGJ2OEiAUPKIAAC5eMoTw_E272.jpg

图 2.正弦波采样

现在,我们的下一个问题将与采样的情况非常相似——我们如何决定何时沿其幅度轴定义我们的信号?换句话说,我们定义信号幅度的点之间的间距应该是多少(这在技术上称为步长)?

即使在这种情况下,我们也需要选择步长,记住我们需要在接收端有最小的失真信号。这么想,让我们假设我们选择一个非常小的步长来量化低幅度信号(正弦波在值 +1 和 -1 之间变化,在图 3a 中以粉红色显示)。较小的步长意味着我们将沿其幅度轴以非常接近的间隔定义我们的信号(图 3a),因此定义我们的信号所需的步数将非常大,这需要大量的比特来对其进行编码,这需要很大的带宽。

poYBAGJ2OEiAHq6ZAABdiNrMLqQ950.jpg

图 3. (a) 小步长 (b) 大步长的低幅度正弦波量化

考虑到带宽,让我们假设我们使用太少的步骤来定义我们的信号。较少的步数意味着我们沿其幅度轴定义信号的点之间的间距较大。这使我们能够非常粗略地定义我们的信号(图 3b),当我们在接收端重构信号时,这会导致问题,因为在量化过程中会丢失很多存在的信息。

接下来,我们分析在大振幅信号的情况下改变步长的影响。这在目前的情况下很重要,因为我们从关于人类言语和听力机制部分的讨论中知道,我们感兴趣的信号(言语)包含广泛的幅度。

图 4 使用与图 3 相同的步长来检查量化的效果,当幅度增加四倍时(图 4 中的原始正弦波的峰峰值幅度在 +4 到 -4 之间变化)。在这里,图 4a 再次强调了这样一个事实,即当我们需要复制原始信号时,较小的步长总是更好。

pYYBAGJ2OEmAIOJTAABmBCOjxAw896.jpg

图 4. (a) 小步长 (b) 大步长的大振幅正弦波量化

另一个需要注意的重点是,图 4b 中的量化信号不像图 3b 中所示的量化信号那样失真。也就是说,当信号幅度较高时,使用大步长的量化仍然会产生可接受的结果。这意味着当涉及到大幅度信号时,被证明对于低幅度信号“非常大”的步长并不是“那么大”。换句话说,可以说信号的幅度越高,量化它的步长就越大,而不会产生太大的失真。

压扩:简介

每个研究人员都相信,任何系统,无论多么好,都可以以某种方式进行改进。然而,为了找出最有效(或更好)的方法,必须仔细审查目前采用的概念和方法,并且必须从不同的角度进行审查。

为了在我们的案例中实现这一点,让我们回顾文章的路径,同时思考两个重要点。

首先,请回想一下,就其中包含的信息而言,人类语言不是各向同性的。语音中较安静的音素比大声的音素出现得更频繁并且包含更多的信息。其次,请注意,与较低幅度的信号相比,对于较高幅度的信号,选择用于量化信号的步长可以更大(而不影响其质量)。

如果是这样,为什么我们不能使用较小的步长量化低幅度的语音信号,而对幅度较大的语音信号使用较大的步长呢?可以办到。事实上,这种使用非均匀电平量化语音信号的技术被称为“压缩扩展”,是压缩和扩展的组合。

压缩扩展是使用不等量化级别对信号进行编码的过程。在该技术中,大量的小电平用于对低幅度信号进行编码,而较高幅度的信号使用少量的大电平进行编码。这意味着通过使用压扩,我们可以用更少的电平量化我们的语音信号,同时保持所需的保真度。此外,级别数越少意味着要编码的比特越少,这意味着带宽要求降低。

结论

本文介绍了与人类语音相关的概念及其在基于 PCM 的电话系统中的特征。我希望您已经获得了关于压扩及其在电信领域的重要性的肤浅知识。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • PCM
    PCM
    +关注

    关注

    1

    文章

    186

    浏览量

    52674
  • 模数转换
    +关注

    关注

    1

    文章

    205

    浏览量

    36094
收藏 人收藏

    评论

    相关推荐

    基于G.729压缩语音流隐蔽通信系统设计方案

    本文先深入研究G.729语音压缩算法,统计压缩比特流不重要位,提出了一种基于G.729压缩语音流隐蔽通信
    发表于 11-05 09:40 2054次阅读
    基于G.729<b class='flag-5'>压缩</b><b class='flag-5'>语音</b>流隐蔽通信<b class='flag-5'>系统</b>设计方案

    语音压缩,存储与回放工程设计方案

    转换器从MIC输入口实时采集语音信号,进行压缩后存储到DSP的片内和片外RAM存储器中,存储时间不小于10秒。(3)存储器存满之后,使用DSP进行实时解压缩,并从SPEAKER输出口进
    发表于 12-09 15:37

    基于TMS320C6201的视频图像语音传输系统设计

    的。  图像语音压缩传输系统有二种基本的实现方法:一种是基于微机实现,图像语音处理系统通过PC
    发表于 07-11 06:32

    基于模拟语音处理技术的电话遥控系统应用

    近年来,数码语音处理技术领域已逐渐发展成为两大阵营——传统的数字语音技术和新型的模拟语音技术。前者是将语音信号经模数
    发表于 07-11 06:48

    Nios II语音加密传输系统有什么作用?

    由于缺乏保密措施,使得电话窃听事件不断发生,严重威胁着个人隐私、军事商业秘密甚至地区或国家的信息安全。因此,语音压缩和数据加密为基础的语音
    发表于 11-01 07:42

    AD9223模数转换器在FSK信号传输中的应用

    介绍了模数转换器AD9223的性能、结构和引脚功能,给出了AD9223在FSK信号传输中的应用电路,同时给出了该系统模数转换芯片的选择方法
    发表于 04-25 14:54 43次下载

    基于UDP协议的语音传输系统设计及实现

    摘 要:文中讨论了基于UDP协议的语音传输系统的设计及实现。比较详细的阐述了语音信息的录制和播放、发送接收、压缩和解
    发表于 07-02 21:51 44次下载

    常用电话语音压缩扩展集成电路

    常用电话语音压缩扩展集成电路
    发表于 06-30 19:20 1345次阅读

    电话自动外呼系统,自动语音以通知软件,电话自动催费系统

    自动语音通知系统电话自动外呼软件,电话自动催费系统主要功能: 0755-82971230-8003阮小姐
    发表于 09-18 10:52 1167次阅读

    语音压缩技术,语音压缩技术是什么意思

    语音压缩技术,语音压缩技术是什么意思 语音压缩技术指的是对原始数字音频信号流运用适当的数字信号
    发表于 03-06 11:11 2077次阅读

    一种语音压缩处理通用DSP系统的设计与实现

    提出了一种基于 TMS320VC549定点 DSP微处理器芯片的语音信号压缩 /解压缩处理系统。 该系统采用 TLC320AD50C
    发表于 01-19 15:51 25次下载

    MSP430 的语音与音频压缩/解压缩技术

    关键词:技术 , 压缩 , 音频 , 语音 本应用报告将介绍 IMA 自适应差分脉冲代码调制 (ADPCM) 的压缩/解压缩算法,讨论在 MSP430 上使用 ADPCM 库的相关步骤
    发表于 03-06 17:52 716次阅读

    如何使用UDP协议设计及实现语音传输系统的方法详细说明

     文中讨论了基于UDP协议的语音传输系统的设计及实现。比较详细的阐述了语音信息的录制和播放、发送接收、压缩和解
    发表于 11-20 17:13 15次下载
    如何使用UDP协议设计及实现<b class='flag-5'>语音</b><b class='flag-5'>传输</b><b class='flag-5'>系统</b>的方法详细说明

    基于DSP技术模数兼容的多通道数字电话设计

    给出了一种基于 DSP 技术模数兼容的多通道数字电话系统设计方案。设计中采用了 DSP,低比特率语音压缩编解码,信道复用,FLASH MEM
    发表于 03-19 11:32 10次下载
    基于DSP技术<b class='flag-5'>模数</b>兼容的多通道数字<b class='flag-5'>电话</b>设计

    语音芯片有损压缩技术的种类有哪些

    由于语音数据量庞大,对语音数据进行有效压缩是很必要的,能够使我们在有限的ROM空间里录入更多的语音内容。而语音
    的头像 发表于 12-09 11:36 963次阅读