0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于云的语音识别增长推动嵌入式语音技术

星星科技指导员 来源:嵌入式计算设计 作者:Todd Mozer 2022-08-11 14:42 次阅读

当今语音技术领域的许多最大玩家也是手机操作系统 (OS) 市场的重量级人物。微软是第一个组建语音团队的软件/移动操作系统巨头。在 1990 年代初期,比尔·盖茨宣扬了语音用户界面 (VUI) 的好处,并预测它们将在计算机上的人机交互中发挥作用。谷歌在 21 世纪初建立了一支由语音技术专家组成的精英团队,并通过其 Android 版本刺激了移动行业向语音界面和语音控制方向发展。苹果一直是用户体验的王者,直到最近,由于准确性方面的挑战,苹果一直避免推动语音技术。然而,随着收购 Siri(语音礼宾服务)并将该公司的技术整合到 iPhone 4S 中,

由于多种原因,语音技术对移动行业变得至关重要,主要是因为说话比打字更容易,而且手机的外形设计是围绕说话而不是打字而构建的。此外,由于移动搜索的巨大收入潜力,移动操作系统提供商看到了将语音识别添加到他们的技术组合中的价值。

为什么是嵌入式?

VUI 的大部分繁重工作都是在云中执行的。这就是大型操作系统厂商的大部分投资都花在了那里。云提供了一个具有几乎无限 MIPS 和内存的环境——这是高级语音搜索处理的两个基本要素。随着基于云的语音技术使用的增长,嵌入式领域似乎也出现了类似的趋势。

嵌入式语音是唯一能够在无法访问云时启用语音控制和输入的解决方案——这是增加用户体验的必要功能。嵌入式语音还能够消耗更少的 MIPS 和内存,从而提高设备电池电量的效率。

客户端/云语音使用的最佳方案需要在客户端上进行语音激活,并在云上解密文本和含义的繁重工作。这可以实现设备始终开启并始终收听的场景,因此无需按下客户端上的按钮即可发出和执行语音命令。这种“不需要手或眼睛”的范例在汽车中为了安全目的而在家里为了方便起见特别有用。

例如,在最近推出的 Galaxy SII Android 手机中,三星的 Voice Talk 使用 Sensory 的 TrulyHandsfree 语音控制,一种嵌入式语音技术,通过“Hey Galaxy”来激活手机。这句话调用了基于云的 Vlingo 识别服务,该服务允许用户在不接触手机的情况下发出命令和输入文本。

语音识别可以在低至 10 MIPS 和数万字节内存的设备上实现。Sensory 的语音芯片系列包括基于 8 位微控制器RISC 单芯片和利用小型嵌入式 DSP 的自然语言处理器。一般来说,在语音识别中投入的 MIPS 和内存越多,产品的功能(响应时间越快、词汇量越大、语法越复杂)就越多。

无论什么平台实现任务,语音识别的一般方法都是相似的。多年来,隐马尔可夫建模和神经网络等统计方法一直是语音识别的主要方法。从客户端迁移到云端允许部署统计语言建模和更复杂的技术。

VUI 阶段

要创建真正免提、免眼的用户体验,必须解决几个技术阶段。

第 1 阶段:语音激活

这实质上是在替换按钮按下。识别器需要始终处于开启状态,准备好调用第 2 阶段投入运行,并且能够在非常嘈杂的情况下激活。第一阶段的另一个关键标准是非常快的响应时间。鉴于超过几百毫秒的延迟可能会导致用户在识别器收听之前对阶段 2 说话而导致准确性问题,因此语音激活的响应时间必须与按钮的响应时间相同,这几乎是瞬时的。 简单的命令和控制功能可以通过 Stage 1 识别系统或更复杂的 Stage 2 系统嵌入客户端,该系统可以是嵌入式的或基于云的。

第 2 阶段:语音识别和转录

更耗电且功能更强大的 Stage 2 识别器将所说的内容翻译成文本。如果目的是短信或语音拨号,则该过程可以在这里停止。如果用户想要回答问题或访问数据,系统将进入第 3 阶段。由于第 1 阶段识别器可以在高噪声下做出响应,它可以降低汽车收音机或家庭 AV 的音量以协助第 2 阶段识别。

第三阶段:意图和意义

这可能是这个过程中最大的挑战。文本翻译准确,但它是什么意思?例如,互联网搜索所需的查询是什么?今天的“智能”可能会尝试修改搜索以更好地适应它认为用户想要的内容。然而,计算机在识别意图方面非常糟糕。Apple 的 Siri 智能助手是在国防部资助的 CALO 项目下开发的,涉及 300 多名研究人员,它可能是当今智能解释的最佳示例。

第四阶段:数据搜索和查询

根据查询的不同,搜索数据并找到正确的结果可能很简单,也可能很复杂。地图数据和方向可能是可靠的,因为语法很好理解,地图搜索的目标很明确。随着谷歌和其他搜索提供商在数据搜索功能上投入大量资金和时间,这一阶段将继续改善。

第 5 阶段:语音响应

对查询的语音响应是显示响应的一个很好的替代方案,这可能会导致驾驶员将视线从道路上移开或在家中造成不便。当今最先进的文本到语音系统具有高度可理解性,并且比以前的自动语音系统听起来更自然。

为什么嵌入式识别器在第 1 阶段替换按钮需要这么长时间?

语音识别传统上需要按钮激活而不是语音激活。造成这种情况的主要原因是按钮虽然让人分心,但即使在嘈杂的环境中也是可靠且反应灵敏的。这些类型的环境,例如汽车或繁忙的家,对于语音识别器来说可能具有挑战性。一个声控词必须在汽车(车窗关闭、收音机打开和道路噪音)或家中(婴儿哭泣、音乐或电视打开、电器运行)中产生响应,而无需用户为它工作。 因此,直到最近,语音技术只有在用户处于安静环境中且麦克风靠近嘴巴时才可靠。

对快速响应时间的要求使这一挑战进一步复杂化。语音识别器通常需要数百毫秒才能确定用户是否在开始处理语音之前完成了谈话。识别系统可以接受这个时间延迟以产生答案或回复给消费者。然而,在第 1 阶段,激活的响应在第 2 阶段调用另一个更复杂的识别器,消费者不会接受持续时间比按下按钮时间长得多的延迟。延迟越长,在第 2 阶段发生识别失败的可能性就越大,因为用户可能在第 2 阶段识别器准备好收听之前开始说话。

嵌入式语音技术的最新进展,例如 Sensory 的 TrulyHandsfree 语音界面,无需触摸设备即可提供真正的 VUI。这些技术消除了嘈杂环境中固有的问题以及较长的响应时间,使语音激活变得可行、准确和方便。

消费电子产品中语音的未来

许多年前,电视观众不得不起身走到他们的单位更换频道。遥控器的到来让这一切都结束了,今天没有人会买没有遥控器的电视。尽管如此,我们仍然起身走到我们的大多数计算设备前使用它们。随着语音识别的改进,这将不再是必要的。

带有语音触发功能的免提设备的迅速兴起将发展成为智能设备,这些设备可以聆听我们所说的话并决定何时适合从客户端转到云端。他们还将决定何时以及如何做出回应,有可能演变成坐在后台倾听一切并决定何时提供帮助的助手。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • dsp
    dsp
    +关注

    关注

    544

    文章

    7673

    浏览量

    344244
  • 嵌入式
    +关注

    关注

    4977

    文章

    18255

    浏览量

    287965
  • Android
    +关注

    关注

    12

    文章

    3848

    浏览量

    125605
收藏 人收藏

    评论

    相关推荐

    恩智浦发布新一代智能语音技术组合的语音识别引擎

    恩智浦发布新一代智能语音技术组合的语音识别引擎。本文将探讨开发人员在嵌入式语音控制设计中面临的挑
    的头像 发表于 01-26 09:15 240次阅读
    恩智浦发布新一代智能<b class='flag-5'>语音</b><b class='flag-5'>技术</b>组合的<b class='flag-5'>语音</b><b class='flag-5'>识别</b>引擎

    离线语音识别与在线语音识别有什么不一样?

    离线语音识别与在线语音识别有什么不一样? 离线语音识别和在线
    的头像 发表于 12-12 14:36 604次阅读

    语音数据集:推动AI语音技术的核心力量

    一、引言 随着人工智能的快速发展,语音技术作为人机交互的重要手段,正发挥着越来越重要的作用。而语音数据集则是推动AI语音
    的头像 发表于 12-12 11:32 284次阅读

    离线语音识别及控制是怎样的技术

    进行处理。  离线语音识别能够在设备上实现实时的语音识别响应,具有响应速度快、隐私保护好、稳定可靠等优势。它广泛应用于移动设备、智能音箱、嵌入式
    发表于 11-24 17:41

    离线语音识别和控制的工作原理及应用

    引言   离线语音识别是指在没有网络连接的情况下,通过在本地设备上进行语音信号处理和识别,实现语音命令的转化和执行。随着智能设备的普及,离
    发表于 11-07 18:01

    ADSP-BF531在嵌入式语音识别系统中的应用

    电子发烧友网站提供《ADSP-BF531在嵌入式语音识别系统中的应用.pdf》资料免费下载
    发表于 10-23 10:45 2次下载
    ADSP-BF531在<b class='flag-5'>嵌入式</b><b class='flag-5'>语音</b><b class='flag-5'>识别</b>系统中的应用

    语音识别技术的应用及优化

    一、引言 语音识别技术是一种能够让计算机“听懂”人类语言的技术。随着科技的不断发展,语音识别
    的头像 发表于 10-10 17:26 974次阅读

    语音识别技术的挑战与机遇

    一、引言 语音识别技术是一种将人类语言转化为计算机可理解数据的技术。随着科技的不断发展,语音识别
    的头像 发表于 10-10 17:10 561次阅读

    语音识别技术:原理、应用与未来

    一、引言 语音识别技术是一种让计算机理解和解析人类语音的方法。这种技术已经存在多年,但随着硬件性能的提升和深度学习算法的发展,
    的头像 发表于 09-19 18:30 1169次阅读

    智能语音开关面板:离线语音模块的魅力与应用

    离线语音模块是基于离线语音识别技术的一种嵌入式模块,其主要功能是在本地进行语音处理,无需连接云端
    的头像 发表于 08-14 14:17 1089次阅读
    智能<b class='flag-5'>语音</b>开关面板:离线<b class='flag-5'>语音</b>模块的魅力与应用

    语音数据标注平台让语音识别技术更精准

    随着人工智能技术的快速发展,语音识别技术越来越普及,成为人们日常生活中不可或缺的一部分。然而,如何保证语音
    的头像 发表于 07-21 16:05 421次阅读

    使用Arduino Nano 33构建嵌入式语音识别应用程序

    电子发烧友网站提供《使用Arduino Nano 33构建嵌入式语音识别应用程序.zip》资料免费下载
    发表于 06-28 14:50 1次下载
    使用Arduino Nano 33构建<b class='flag-5'>嵌入式</b><b class='flag-5'>语音</b><b class='flag-5'>识别</b>应用程序

    语音识别唤醒词的技术与应用

    词是语音识别技术中的重要组成部分,它的作用是检测语音输入并判断是否包含唤醒词,如果包含则执行相应的指令或响应。 语音
    的头像 发表于 06-24 04:02 874次阅读

    语音识别技术的概念及应用前景

    解决的问题,就是使得设备可以用听觉感知周围的世界,用声音和人做最自然的交互,让操控和生活更为便捷。 智能语音的基础在于通过神经网络技术,提升语音识别
    发表于 05-27 09:41