0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于云的语音识别增长推动嵌入式语音技术

星星科技指导员 来源:嵌入式计算设计 作者:Todd Mozer 2022-08-11 14:42 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

当今语音技术领域的许多最大玩家也是手机操作系统 (OS) 市场的重量级人物。微软是第一个组建语音团队的软件/移动操作系统巨头。在 1990 年代初期,比尔·盖茨宣扬了语音用户界面 (VUI) 的好处,并预测它们将在计算机上的人机交互中发挥作用。谷歌在 21 世纪初建立了一支由语音技术专家组成的精英团队,并通过其 Android 版本刺激了移动行业向语音界面和语音控制方向发展。苹果一直是用户体验的王者,直到最近,由于准确性方面的挑战,苹果一直避免推动语音技术。然而,随着收购 Siri(语音礼宾服务)并将该公司的技术整合到 iPhone 4S 中,

由于多种原因,语音技术对移动行业变得至关重要,主要是因为说话比打字更容易,而且手机的外形设计是围绕说话而不是打字而构建的。此外,由于移动搜索的巨大收入潜力,移动操作系统提供商看到了将语音识别添加到他们的技术组合中的价值。

为什么是嵌入式?

VUI 的大部分繁重工作都是在云中执行的。这就是大型操作系统厂商的大部分投资都花在了那里。云提供了一个具有几乎无限 MIPS 和内存的环境——这是高级语音搜索处理的两个基本要素。随着基于云的语音技术使用的增长,嵌入式领域似乎也出现了类似的趋势。

嵌入式语音是唯一能够在无法访问云时启用语音控制和输入的解决方案——这是增加用户体验的必要功能。嵌入式语音还能够消耗更少的 MIPS 和内存,从而提高设备电池电量的效率。

客户端/云语音使用的最佳方案需要在客户端上进行语音激活,并在云上解密文本和含义的繁重工作。这可以实现设备始终开启并始终收听的场景,因此无需按下客户端上的按钮即可发出和执行语音命令。这种“不需要手或眼睛”的范例在汽车中为了安全目的而在家里为了方便起见特别有用。

例如,在最近推出的 Galaxy SII Android 手机中,三星的 Voice Talk 使用 Sensory 的 TrulyHandsfree 语音控制,一种嵌入式语音技术,通过“Hey Galaxy”来激活手机。这句话调用了基于云的 Vlingo 识别服务,该服务允许用户在不接触手机的情况下发出命令和输入文本。

语音识别可以在低至 10 MIPS 和数万字节内存的设备上实现。Sensory 的语音芯片系列包括基于 8 位微控制器RISC 单芯片和利用小型嵌入式 DSP 的自然语言处理器。一般来说,在语音识别中投入的 MIPS 和内存越多,产品的功能(响应时间越快、词汇量越大、语法越复杂)就越多。

无论什么平台实现任务,语音识别的一般方法都是相似的。多年来,隐马尔可夫建模和神经网络等统计方法一直是语音识别的主要方法。从客户端迁移到云端允许部署统计语言建模和更复杂的技术。

VUI 阶段

要创建真正免提、免眼的用户体验,必须解决几个技术阶段。

第 1 阶段:语音激活

这实质上是在替换按钮按下。识别器需要始终处于开启状态,准备好调用第 2 阶段投入运行,并且能够在非常嘈杂的情况下激活。第一阶段的另一个关键标准是非常快的响应时间。鉴于超过几百毫秒的延迟可能会导致用户在识别器收听之前对阶段 2 说话而导致准确性问题,因此语音激活的响应时间必须与按钮的响应时间相同,这几乎是瞬时的。 简单的命令和控制功能可以通过 Stage 1 识别系统或更复杂的 Stage 2 系统嵌入客户端,该系统可以是嵌入式的或基于云的。

第 2 阶段:语音识别和转录

更耗电且功能更强大的 Stage 2 识别器将所说的内容翻译成文本。如果目的是短信或语音拨号,则该过程可以在这里停止。如果用户想要回答问题或访问数据,系统将进入第 3 阶段。由于第 1 阶段识别器可以在高噪声下做出响应,它可以降低汽车收音机或家庭 AV 的音量以协助第 2 阶段识别。

第三阶段:意图和意义

这可能是这个过程中最大的挑战。文本翻译准确,但它是什么意思?例如,互联网搜索所需的查询是什么?今天的“智能”可能会尝试修改搜索以更好地适应它认为用户想要的内容。然而,计算机在识别意图方面非常糟糕。Apple 的 Siri 智能助手是在国防部资助的 CALO 项目下开发的,涉及 300 多名研究人员,它可能是当今智能解释的最佳示例。

第四阶段:数据搜索和查询

根据查询的不同,搜索数据并找到正确的结果可能很简单,也可能很复杂。地图数据和方向可能是可靠的,因为语法很好理解,地图搜索的目标很明确。随着谷歌和其他搜索提供商在数据搜索功能上投入大量资金和时间,这一阶段将继续改善。

第 5 阶段:语音响应

对查询的语音响应是显示响应的一个很好的替代方案,这可能会导致驾驶员将视线从道路上移开或在家中造成不便。当今最先进的文本到语音系统具有高度可理解性,并且比以前的自动语音系统听起来更自然。

为什么嵌入式识别器在第 1 阶段替换按钮需要这么长时间?

语音识别传统上需要按钮激活而不是语音激活。造成这种情况的主要原因是按钮虽然让人分心,但即使在嘈杂的环境中也是可靠且反应灵敏的。这些类型的环境,例如汽车或繁忙的家,对于语音识别器来说可能具有挑战性。一个声控词必须在汽车(车窗关闭、收音机打开和道路噪音)或家中(婴儿哭泣、音乐或电视打开、电器运行)中产生响应,而无需用户为它工作。 因此,直到最近,语音技术只有在用户处于安静环境中且麦克风靠近嘴巴时才可靠。

对快速响应时间的要求使这一挑战进一步复杂化。语音识别器通常需要数百毫秒才能确定用户是否在开始处理语音之前完成了谈话。识别系统可以接受这个时间延迟以产生答案或回复给消费者。然而,在第 1 阶段,激活的响应在第 2 阶段调用另一个更复杂的识别器,消费者不会接受持续时间比按下按钮时间长得多的延迟。延迟越长,在第 2 阶段发生识别失败的可能性就越大,因为用户可能在第 2 阶段识别器准备好收听之前开始说话。

嵌入式语音技术的最新进展,例如 Sensory 的 TrulyHandsfree 语音界面,无需触摸设备即可提供真正的 VUI。这些技术消除了嘈杂环境中固有的问题以及较长的响应时间,使语音激活变得可行、准确和方便。

消费电子产品中语音的未来

许多年前,电视观众不得不起身走到他们的单位更换频道。遥控器的到来让这一切都结束了,今天没有人会买没有遥控器的电视。尽管如此,我们仍然起身走到我们的大多数计算设备前使用它们。随着语音识别的改进,这将不再是必要的。

带有语音触发功能的免提设备的迅速兴起将发展成为智能设备,这些设备可以聆听我们所说的话并决定何时适合从客户端转到云端。他们还将决定何时以及如何做出回应,有可能演变成坐在后台倾听一切并决定何时提供帮助的助手。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • dsp
    dsp
    +关注

    关注

    561

    文章

    8275

    浏览量

    368265
  • 嵌入式
    +关注

    关注

    5209

    文章

    20657

    浏览量

    337046
  • Android
    +关注

    关注

    12

    文章

    4035

    浏览量

    134494
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    语音识别ic芯片分类工作原理,语音识别芯片分类

    语音识别IC芯片,通俗讲就是能让机器“听懂”人话的专用集成电路。与传统的语音播放芯片不同,语音识别芯片最大优势在于具备
    的头像 发表于 04-24 15:14 88次阅读
    <b class='flag-5'>语音</b><b class='flag-5'>识别</b>ic芯片分类工作原理,<b class='flag-5'>语音</b><b class='flag-5'>识别</b>芯片分类

    485AI语音识别模块:多路语音控制,实现安防设备语音联动

    485AI语音识别模块凭借工业级的RS485总线通信与离线/在线AI语音识别能力,应用场景非常广泛,粗略划分可覆盖超10大领域、数十种细分场景,核心集中在工业自动化、智能楼宇、智慧农业
    的头像 发表于 04-22 15:17 93次阅读

    思泽远科技语音芯片指南:在嵌入式产品中 融入语音播报

    随着嵌入式技术的不断发展,在产品中加入语音播报功能已成为提升用户体验的重要手段。然而,面对市面上琳琅满目的语音方案,工程师们往往感到无从下手。本文将从实际工程角度出发,结合思泽远科技的
    的头像 发表于 04-14 09:17 420次阅读
    思泽远科技<b class='flag-5'>语音</b>芯片指南:在<b class='flag-5'>嵌入式</b>产品中 融入<b class='flag-5'>语音</b>播报

    语音识别芯片介绍,语音识别芯片工作原理解析

    在智能交互不断深入的今天,语音识别芯片正成为众多设备实现语音控制与AI对话的关键部件。语音芯片广义上涵盖语音播放、录音及
    的头像 发表于 04-01 16:26 214次阅读

    语音识别IC分类,语音识别芯片的工作原理

    语音识别芯片,也叫语音识别集成电路,是一种集声音存储、播放、录音及语音识别功能于一体的专用芯片。
    的头像 发表于 01-14 15:22 409次阅读
    <b class='flag-5'>语音</b><b class='flag-5'>识别</b>IC分类,<b class='flag-5'>语音</b><b class='flag-5'>识别</b>芯片的工作原理

    国产32位MCU语音识别方案

    在智能家居、工业控制及便携设备领域,语音交互正成为人机界面的重要发展方向。针对离线语音识别需求,基于国产32位MCU的解决方案日益成熟,其中以CH32V307等为代表的32位MCU芯片,凭借高集成度与专用优化,为
    的头像 发表于 12-04 15:11 686次阅读

    语音识别芯片有哪些(语音识别芯片AT680系列)

    在人工智能技术飞速发展的今天,语音识别芯片作为人机交互的重要桥梁,正逐渐成为各类智能设备不可或缺的核心部件。与传统的语音芯片不同,语音
    的头像 发表于 11-14 17:11 1542次阅读

    什么是离线语音识别芯片(离线语音识别芯片有哪些优点)

    离线语音识别芯片,是一种集成了语音信号采集、前端处理和本地识别功能的专用集成电路,无须联网也可以进行语音控制。它内设先进的数字信号处理模块及
    的头像 发表于 10-31 15:27 674次阅读

    如何选择合适的语音识别芯片型号

    语音识别芯片(又称语音识别IC)是现代智能设备的核心组件,与传统语音芯片相比,其最大特点是能够主动识别
    的头像 发表于 10-30 16:32 745次阅读

    基于开源鸿蒙的语音识别语音合成应用开发样例

    本期内容由AI Model SIG提供,介绍了在开源鸿蒙中,利用sherpa_onnx开源三方库进行ASR语音识别与TTS语音合成应用开发的流程。
    的头像 发表于 08-25 14:26 4445次阅读
    基于开源鸿蒙的<b class='flag-5'>语音</b><b class='flag-5'>识别</b>及<b class='flag-5'>语音</b>合成应用开发样例

    2025嵌入式行业现状如何?

    2025嵌入式行业现状如何? 一、市场规模与增长趋势1.1 全球市场概况总体规模:2025年全球嵌入式系统市场规模预计突破1.2万亿美元,相当于每天诞生3个“光谷”级产业集群。 驱动因素:物联网
    发表于 08-25 11:34

    瑞芯微RK3576语音识别算法

    1.语音识别简介语音识别技术,也被称为自动语音识别
    的头像 发表于 08-15 15:13 2438次阅读
    瑞芯微RK3576<b class='flag-5'>语音</b><b class='flag-5'>识别</b>算法

    语音识别---大家怎么看呢?

    语音识别是一门交叉学科。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,
    发表于 08-09 10:54

    语音识别芯片选型有哪些技术参数要注意

    语音识别芯片的使用场景越来越多涉及的范围也越来越广!那么语音芯片的选型就很重要了,选型不对直接影响产品的使用体验,下面小编从不同的维度来给大家介绍语音
    的头像 发表于 06-23 17:31 1066次阅读
    <b class='flag-5'>语音</b><b class='flag-5'>识别</b>芯片选型有哪些<b class='flag-5'>技术</b>参数要注意

    【米尔-RK3562开发板试用评测】RK3562J开发板-语音识别功能测试(一)

    主要开发语言(系统已预装或手动安装) ​​模型框架​​ 采用 ​​Vosk​​ 离线语音识别框架 优势:支持嵌入式场景,资源占用低 ​​模型文件准备
    发表于 05-17 21:29