0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

行动端及云端的语音辨识的成长推动嵌入式语音技术

星星科技指导员 来源:嵌入式计算设计 作者:Todd Mozer 2022-10-26 15:17 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

如今,语音技术领域的许多最大参与者也是手机操作系统(OS)市场的重量级人物。微软是第一个建立语音团队的软件/移动操作系统巨头。在1990年代早期,比尔·盖茨(Bill Gates)宣扬语音用户界面(VUI)的好处,并预测它们将在计算机上的人类界面中发挥作用。谷歌在21世纪初通过建立一支由语音技术专家组成的精英团队而变得咄咄逼人,并通过其Android版本刺激了移动行业向语音界面和语音控制的方向发展。苹果一直是用户体验之王,直到最近,由于准确性方面的挑战,苹果才避免推动语音技术。然而,随着Siri(一种语音礼宾服务)的收购以及该公司的技术融入iPhone 4S,苹果可能会通过语音迎来新一代的自然语言用户体验。

由于各种原因,语音技术对移动行业至关重要,主要是因为它比打字更容易说话,而且因为手机的外形尺寸是围绕说话而不是打字而构建的。此外,随着移动搜索的巨大收入潜力,移动操作系统提供商看到了在其技术组合中添加语音识别的价值。

为什么要嵌入?

VUI 的大部分繁重工作都是在云中完成的。这就是大型操作系统参与者的大部分投资去向的地方。云提供了一个具有几乎无限的MIPS和内存的环境 - 这是高级语音搜索处理的两个基本要素。随着基于云的语音技术使用的增长,嵌入式领域似乎也出现了类似的趋势。

嵌入式语音是在无法访问云时启用语音控制和输入的唯一解决方案,这是增加用户体验的必要功能。嵌入式语音还具有消耗更少MIPS和内存的能力,从而提高了设备电池电量的效率。

客户端/云语音使用的最佳方案需要在客户端上激活语音,并在云上繁重地破译文本和含义。这可以实现设备始终打开并始终侦听的方案,因此可以给出并执行语音命令,而无需按客户端上的按钮。这种“无需手或眼睛”的范例在汽车中特别有用,出于安全目的和在家中的便利性。

例如,在最近推出的Galaxy SII Android手机中,三星的语音通话利用Sension的TrueHandsfree语音控制(一种嵌入式语音技术)来激活带有“嘿银河”字样的手机。这个短语调用了Vlingo基于云的识别服务,该服务允许用户在不触摸手机的情况下发出命令和输入文本。

语音识别可以在具有低至10 MIPS和数万字节内存的设备上实现。Sensory的语音芯片系列包括基于8位微控制器RISC单芯片和利用小型嵌入式DSP的自然语言处理器。通常,在语音识别中投入的MIPS和内存越多,产品可以具有的功能就越多(更快的响应时间,更大的词汇量和更复杂的语法)。

无论哪个平台执行任务,语音识别的一般方法都是相似的。多年来,隐马尔可夫建模和神经网络等统计方法一直是语音识别的主要方法。从客户端迁移到云允许部署统计语言建模和更复杂的技术。

维伊关卡

要创建真正免提、免眼的用户体验,必须解决几个技术阶段。

第 1 阶段:语音激活

这实质上是取代按钮按下。识别器需要始终处于打开状态,准备好将阶段 2 调用到运行状态,并且能够在非常嘈杂的情况下激活。第一阶段的另一个关键标准是非常快的响应时间。鉴于超过几百毫秒的延迟可能会产生由用户在识别器侦听之前与阶段 2 交谈而导致的准确性问题,因此语音激活的响应时间必须与按钮的响应时间相同,这几乎是瞬时的。简单的命令和控制功能可以通过 Stage 1 识别系统或更复杂的 Stage 2 系统嵌入到客户端中,该系统可以嵌入或基于云的。

第 2 阶段:语音识别和转录

更耗电且功能更强大的 Stage 2 识别器可将所讲的内容转换为文本。如果目的是短信或语音拨号,则该过程可以在此处停止。如果用户希望回答问题或访问数据,系统将进入第 3 阶段。由于 Stage 1 识别器可以响应高噪声,因此它可以降低汽车收音机或家用 AV 中的音量,以协助阶段 2 识别。

第 3 阶段:意图和意义

这可能是这一过程中最大的挑战。文本翻译准确,但它是什么意思?例如,互联网搜索所需的查询是什么?今天的“智能”可能会尝试修改搜索,以更好地满足用户的需求。然而,计算机在弄清楚意图方面非常糟糕。苹果的Siri智能助手是在国防部资助的CALO项目下开发的,该项目涉及300多名研究人员,可能是当今智能诠释的最佳典范。

第 4 阶段:数据搜索和查询

根据查询的不同,搜索数据并找到正确的结果可能很简单,也可能很复杂。映射数据和方向可能是可靠的,因为语法很容易理解,并具有地图搜索的明确目标。随着谷歌和其他搜索提供商在数据搜索功能上投入大量资金和时间,这一阶段将继续改善。

第 5 阶段:语音响应

对查询的语音响应是显示响应的一个很好的替代方法,这可能会导致驾驶员将视线从道路上移开或给家中带来不便。当今最先进的文本到语音转换系统具有高度的可理解性,并且已经发展到比以前的自动语音系统听起来更自然。

为什么嵌入式识别器在第 1 阶段替换按钮需要这么长时间?

语音识别传统上需要按钮激活而不是语音激活。其主要原因是按钮虽然分散了注意力,但即使在嘈杂的环境中也是可靠且响应迅速的。这些类型的环境(如汽车或繁忙的家庭)对语音识别器来说可能具有挑战性。声控词必须在汽车(车窗关闭、收音机打开和道路噪音)或家中(婴儿哭泣、音乐或电视打开以及电器运行)中创建响应,而无需用户为其工作。因此,直到最近,只有当用户处于安静的环境中,麦克风靠近嘴巴时,语音技术才是可靠的。

快速响应时间的要求使这一挑战进一步复杂化。语音识别器通常需要数百毫秒才能确定用户在开始处理语音之前是否完成了通话。这种时间延迟可能是可以接受的,从识别系统产生答案或回复给消费者。但是,在第 1 阶段,激活的响应是在阶段 2 中调用另一个更复杂的识别器,并且使用者不会接受持续时间远远超过按下按钮所花费的时间的延迟。延迟时间越长,阶段 2 发生识别失败的可能性就越大,因为用户可能会在阶段 2 识别器准备好收听之前开始说话。

嵌入式语音技术的最新进展,如Sensory的真无握语音接口,无需触摸设备即可提供真正的VUI。这些技术消除了嘈杂环境中固有的问题以及较长的响应时间,使语音激活可行,准确且更方便。

消费电子产品中语音的未来

许多年前,电视观众不得不站起来走到他们的单位来改变频道。遥控器的到来结束了这一切,今天没有人会买没有遥控器的电视。尽管如此,我们仍然站起来,走到我们的大多数计算设备使用它们。随着语音识别的改进,这将不再是必需的。

带有语音触发器的免提设备的快速使用将发展成为智能设备,这些设备可以倾听我们所说的内容,并决定何时适合从客户端转到云端。他们还将决定何时以及如何回应,可能会演变成坐在后台倾听一切并决定何时提供帮助的助手。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 嵌入式
    +关注

    关注

    5209

    文章

    20629

    浏览量

    336808
  • Android
    +关注

    关注

    12

    文章

    4035

    浏览量

    134452
  • 计算机
    +关注

    关注

    19

    文章

    7837

    浏览量

    93447
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    嵌入式人工智能课程(华清远见)

    嵌入式 AI 编译器优化:华清远见课程,解锁极致侧性能 随着人工智能从云端全面向边缘侧和终端侧下沉,“万物智联”的时代已经悄然到来。然而,在这股浪潮背后,隐藏着一个巨大的技术鸿沟:
    发表于 04-16 18:47

    思泽远科技语音芯片指南:在嵌入式产品中 融入语音播报

    随着嵌入式技术的不断发展,在产品中加入语音播报功能已成为提升用户体验的重要手段。然而,面对市面上琳琅满目的语音方案,工程师们往往感到无从下手。本文将从实际工程角度出发,结合思泽远科技的
    的头像 发表于 04-14 09:17 401次阅读
    思泽远科技<b class='flag-5'>语音</b>芯片指南:在<b class='flag-5'>嵌入式</b>产品中 融入<b class='flag-5'>语音</b>播报

    Edge AI 语音交互与MCP外设控制实践 | 技术集结

    响应的自然语音交互能力,开发者无需精通复杂的人工智能算法,即可快速在嵌入式硬件上构建具备对话和控制功能的智能产品。本文将手把手带你学习如何在Edgi-Talk平台
    的头像 发表于 03-16 11:58 5338次阅读
    Edge AI <b class='flag-5'>语音</b>交互与MCP外设控制实践 | <b class='flag-5'>技术</b>集结

    XMOS推出专为嵌入式语音交互功能开发提供的全新线上选型指南

    中国北京,2026年2月——生成系统级芯片(GenSoC)领先开发者及音视频媒体处理AI技术提供商XMOS正式发布其语音方案选型指南,该款高效易用的网上音频交互解决方案开发平台以互动
    的头像 发表于 02-25 09:48 479次阅读
    XMOS推出专为<b class='flag-5'>嵌入式</b><b class='flag-5'>语音</b>交互功能开发提供的全新线上选型指南

    侧大模型上车:从“语音助手”到“车内 AI 智能体”的跃迁革命

    2025年,智能汽车的座舱不再只是“语音助手”的舞台,而是一个搭载生成AI和大语言模型(LLM)的智能体。从云端示范到车内落地,这一跨越不仅改变了人机交互的边界,更重构了汽车作为“第三
    的头像 发表于 01-13 09:10 689次阅读

    国产32位MCU语音识别方案

    在智能家居、工业控制及便携设备领域,语音交互正成为人机界面的重要发展方向。针对离线语音识别需求,基于国产32位MCU的解决方案日益成熟,其中以CH32V307等为代表的32位MCU芯片,凭借高集成度与专用优化,为嵌入式设备提供了
    的头像 发表于 12-04 15:11 679次阅读

    什么是离线语音识别芯片(离线语音识别芯片有哪些优点)

    离线语音识别芯片,是一种集成了语音信号采集、前端处理和本地识别功能的专用集成电路,无须联网也可以进行语音控制。它内设先进的数字信号处理模块及人工智能语音算法,无须依赖
    的头像 发表于 10-31 15:27 662次阅读

    语音交互数据 精准赋能语音大模型进阶

    语音大模型从“能识别”向“懂语境”跨越的关键阶段,高质量场景化语音数据已成为制约技术突破的核心瓶颈。传统语音识别数据集采用孤立标注,在语音
    的头像 发表于 09-11 17:17 834次阅读

    广和通发布自研语音识别大模型FiboASR

    7月,全球领先的无线通信模组及AI解决方案提供商广和通,发布其自主研发的语音识别大模型FiboASR。该模型专为侧设备上面临的面对面实时对话及多人会议场景深度优化,在低延迟语音交互、实时语音
    的头像 发表于 08-04 11:43 1747次阅读

    云协同解锁智能硬件新体验,启明云端正式登陆阿里云云市场

    2025年7月,阿里云战略产品伙伴——“启明云端”正式登陆阿里云云市场平台消费电子专区。启明云端作为国内领先的AI智能体硬件方案专家,在嵌入式系统、语音交互硬件及
    的头像 发表于 07-09 18:03 1497次阅读
    <b class='flag-5'>端</b>云协同解锁智能硬件新体验,启明<b class='flag-5'>云端</b>正式登陆阿里云云市场

    语音助手只能聊天?启明云端AI语音交互方案偷偷修炼了音乐才艺!

    语音助手只能聊天?太out了!”语音交互的新乐章已经奏响!启明云端基于乐鑫科技芯片的AI语音方案正式解锁音乐技能树,只需一句指令,智能设备即刻变身专属点唱机。只要版权到位,想听什么?
    的头像 发表于 06-27 18:03 1016次阅读
    <b class='flag-5'>语音</b>助手只能聊天?启明<b class='flag-5'>云端</b>AI<b class='flag-5'>语音</b>交互方案偷偷修炼了音乐才艺!

    明远智睿SSD2351开发板:语音机器人领域的变革力量

    通过网络连接云端服务器进行快速检索和分析,然后利用语音合成技术将答案以自然流畅的语音反馈给用户。同时,借助开发板的网络连接功能,语音机器人还
    发表于 05-28 11:36

    【米尔-RK3562开发板试用评测】RK3562J开发板-语音识别功能测试(一)

    主要开发语言(系统已预装或手动安装) ​​模型框架​​ 采用 ​​Vosk​​ 离线语音识别框架 优势:支持嵌入式场景,资源占用低 ​​模型文件准备
    发表于 05-17 21:29

    飞凌嵌入式2025嵌入式及边缘AI技术论坛圆满结束

    飞凌嵌入式「2025嵌入式及边缘AI技术论坛」在深圳深铁皇冠假日酒店盛大举行,此次活动邀请到了200余位嵌入式技术领域的
    的头像 发表于 04-28 13:57 4329次阅读
    飞凌<b class='flag-5'>嵌入式</b>2025<b class='flag-5'>嵌入式</b>及边缘AI<b class='flag-5'>技术</b>论坛圆满结束

    飞凌嵌入式2025嵌入式及边缘AI技术论坛圆满结束

    4月22日下午,备受瞩目的飞凌嵌入式「2025嵌入式及边缘AI技术论坛」在深圳深铁皇冠假日酒店盛大举行,此次活动邀请到了200余位嵌入式技术
    的头像 发表于 04-27 11:55 950次阅读
    飞凌<b class='flag-5'>嵌入式</b>2025<b class='flag-5'>嵌入式</b>及边缘AI<b class='flag-5'>技术</b>论坛圆满结束