0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

有关设计对语音用户界面的一些挑战和最佳做法

星星科技指导员 来源:嵌入式计算设计 作者:Jeff LeBlanc 2022-12-02 11:47 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

语音交互是21世纪最具颠覆性的技术之一。每天都有越来越多的设备通过语音用户界面(VUI)组件进入市场。虽然语音支持设备的许多技术挑战已经得到解决,但让最终用户满意地使用设备的体验仍然是一个悬而未决的问题。本文介绍了有关设计对用户有效、自然且引人入胜的 VUI 的一些挑战和最佳做法,包括设计置信度阈值、适应插入、使用 n 最佳列表,以及如何在实际对话中与用户交谈(而不是在用户处)。

虽然语音用户界面(VUI)自1968年以来一直处于公众心态的边缘,当时HAL和Dave Bowman存在分歧,但直到Tony Stark在2008年开始与J.A.R.V.I.S.开玩笑,有用的语音控制“智能家居”的概念才开始成为焦点。

这款大获成功的Amazon Echo设备于2014年发布,将最新的语音识别技术与强大的基于云的计算相结合,提供几乎可与电影中描绘的相媲美的家庭体验。打开灯或音响系统从未如此简单。

从那以后,谷歌、苹果和其他科技公司加入了这场争斗,并相互绊倒,为您的家庭、工作场所和汽车提供最佳的交互式语音体验。

这项技术已经有很长一段时间了。贝尔实验室和IBM早在1950年代就致力于语音系统。但是,直到 1990 年代后期,Dragon‘s NaturalSpeak 软件才获得了足够的吸引力,将语音识别带入了消费者的集体意识。虽然在当时是革命性的,但NaturalPeaks需要最终用户进行相当多的“培训”才能达到90%的准确率,这使得语音识别作为一种人机交互形式可行。因此,这项技术并不像它可能的那样自然。

多年来,开发人员、设计师和技术人员一直在努力工作,试图“解决语音问题”。然而,我们在识别准确率方面只增加了5%。

那么,为什么设计更准确、更像人类的语音界面如此困难呢?

在设计VUI时,必须解决两个关键方面。首先是确保界面能够将声音识别为人类语音。这被称为自动语音识别 (ASR),是语音转文本软件引擎的核心。ASR 可以在现代消费类硬件上以合理的处理速度执行。但是,ASR 通常在云中完成。像Amazon Echo这样的设备只做足够的本地处理来找到它们的“唤醒词”,而其余的工作则由远程计算资源完成。所以,是的,Alexa正在听你说的一切。但她只在乎你说她的名字。

语音体验的第二个也是更困难的方面是确保设备在识别语音后知道如何处理语音。自然语言理解(NLU)结合了包括语言学,认知科学和人工智能在内的各种学科,多年来一直挑战着计算机科学家。尽管一些专家认为ASR是开发VUI的“困难部分”,但我不同意。多年来,我们一直保持稳定在95%左右的准确率 - 可与人与人之间的交流相媲美。是的,即使是人与人之间的交流也不是100%准确的。想想你在和另一个人说话时说多少次“嗯?”或“什么?”。然而,这些对话很容易理解。

作为UX设计师,我们面临的挑战是弄清楚如何创建卓越的交互式语音体验,尽可能接近模仿人与人之间的体验。

这称为自然用户界面或 NUI。让简单的命令正常工作很简单 - 主要是从话语中提取正确的关键字。例如,让您的智能家居正确响应“打开餐厅灯”并不太复杂。它只涉及创建一个界面,该界面可以识别所需的操作(“打开”)以及执行该操作的内容(“餐厅灯”)。

但仍然存在挑战。由于我们的语音识别准确度略低于 100%,因此设备可能无法理解你的确切话语。也许语音助手听到你说“打开餐厅的灯”。虽然人类可以轻松地从餐厅跳到餐厅,但在计算机的二进制世界中并非如此。“用餐”不等于“用餐”,因此您的语音助手无法理解您在问什么。你最终会感到沮丧,在黑暗中进食。

幸运的是,我们可以围绕这一点进行设计。解决方案在于超越简单的话语和命令,让我们的用户参与对话。

在我们的例子中,智能家居理解你的意图——你想打开餐厅的灯——但它没有得到足够的信息来执行任务。因此,我们对VUI进行编程,以执行人与人交互中的典型操作:要求澄清。我们的智能家居可以回应“对不起,我没有完全理解。你想打开什么?

这种互动建立在置信度的概念之上——你的智能家居有多确定它真的理解了你的要求?如果智能家居非常确定它理解你的请求 - 比如说超过75%的准确率 - 它可以执行它。如果只是有点确定,设备可以要求澄清。通过利用置信度和参与对话,您可以澄清您的请求,而无需从唤醒词重新启动整个命令交互。

N-最佳名单

下一个设计技术建立在这种对话方法的基础上,试图根据先前对话的预期响应来预测你可能会说什么。您的智能家居听到“用餐”而不是“用餐”并非不合理。甚至是其他听起来相似的词,如“潜水”。

通过将这些险些失误收集到称为N-best列表中的东西中,您的智能家居可以捕获可能的可能性。现在,您家的VUI可以要求您确认列表中的单词,或者继续执行该命令。让你的家回答说:“我想你让我打开餐厅的灯。是吗?“表明你的家足够聪明,(很可能)弄清楚你说了什么,但又足够礼貌地仔细检查,以防万一它不能100%完全理解这个要求。

流程图

流程图允许VUI设计人员绘制出在简单交互中发现的可能分支。继续关于餐厅灯光的对话,为了确保流畅、自然的对话,VUI 设计师必须考虑您可能的反应。您可以用简单的“是”来回答有关开灯的澄清请求。在这种情况下,智能家居应该打开灯。

但是,如果你听人与人对话的录音,它们通常不会那么干涸。如果你回答“是”而不是“是”怎么办?或者“没错”或“让它这样”或任何数量的肯定?如果你的回答是否定的怎么办?不。不。呃。你的智能房子知道该怎么做吗?

这种情况正是为什么检查列表而不是简单的关键字匹配至关重要的原因。这是实现最自然交互的最佳方式。

驳船

人与人交流的另一个值得一提的方面是中断。有时我们是不礼貌的——我们不会等谈话中的对方说完才开始说话。其他时候,打断是及时推进对话的唯一方法。在这两种情况下,中断的能力使对话更加自然。

下面是一个示例。您进入了挡泥板弯曲机并致电您的保险公司提出索赔。在公司的自动电话系统上收听一长串选项时,只要听到“按 3 到达理赔部门”,您就会打断。你急切地点击“3”键,不要费心去听列表的其余部分。

这种闯入和中断对话的能力是VUI设计人员需要结合的东西,以便创建类似人类的语音交互。(如果你的服务员正在阅读沙拉酱清单,而你说“停下,我想要那个,油醋汁”,而他继续列出沙拉酱,事情会变得有点尴尬。亚马逊Echo在支持闯入方面做得很好,让用户随时说“Alexa,取消”。

外卖

设计一个引人注目的、听起来像人类的语音助手当然是可能的。例如,谷歌的新Duplex电话机器人配备了大多数人常见的会话抽搐,包括贯穿整个对话的“ahs”和“ums”。有些人甚至对人工智能和人类语音之间的界限变得越来越模糊表示担忧。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语音识别
    +关注

    关注

    39

    文章

    1803

    浏览量

    115548
  • 语音交互
    +关注

    关注

    3

    文章

    339

    浏览量

    29062
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    瑞萨电子高级语音用户界面解决方案

    语音用户界面(VUI)正在彻底改变我们与技术交互的方式,实现免提、无缝的通信。通过整合先进语音命令识别功能,再加上语音反欺骗和说话人识别功能
    的头像 发表于 08-27 09:41 498次阅读
    瑞萨电子高级<b class='flag-5'>语音</b><b class='flag-5'>用户</b><b class='flag-5'>界面</b>解决方案

    分享---简单快速实现烘烤设备UI界面的方法

    是800x480 编写简单脚本,在屏幕上运行一些控制逻辑 注意:HMT070DTA-D直接LUA脚本,一些简单的控制逻辑,我直接通过屏幕支持lua脚本,让屏幕自己控制了。 通过SGTools自带的仿真功能,查看效果
    发表于 08-26 11:58

    颗TTS语音芯给产品增加智能语音播报能力

    颗TTS语音芯片给产品增加智能语音播报能力 传统语音播报芯片可以设置一些固定的语音片段或者内容
    的头像 发表于 08-14 16:33 453次阅读

    语音识别---大家怎么看呢?

    语音识别是门交叉学科。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等
    发表于 08-09 10:54

    微小泄漏零容忍:结束线连接器气密性检测的挑战与对策

    我们在使用结束线连接器气密检测的时候会遇到很多问题,那在气密检测中遇到这些挑战,我们该如何去解决呢,下面是一些挑战和解决对策:
    的头像 发表于 06-04 14:17 364次阅读
    微小泄漏零容忍:结束线连接器气密性检测的<b class='flag-5'>挑战</b>与对策

    使用基于GaN的OBC应对电动汽车EMI传导发射挑战

    本期,为大家带来的是《使用基于 GaN 的 OBC 应对电动汽车 EMI 传导发射挑战》,将深入回顾 CISPR 32 对 OBC 的 EMI 要求,同时详细探讨可靠数据测量的最佳做法、GaN 对 EMI 频谱的影响,以及解决传
    的头像 发表于 05-24 15:46 4232次阅读
    使用基于GaN的OBC应对电动汽车EMI传导发射<b class='flag-5'>挑战</b>

    Debian和Ubuntu哪个好一些

    兼容性对比Debian和Ubuntu哪个好一些,并为您揭示如何通过RAKsmart服务器释放Linux系统的最大潜能。
    的头像 发表于 05-07 10:58 851次阅读

    如何添加一些网络上的库到mpy固件的说明或手册教程?

    于如何添加一些网络上的库到mpy固件的说明或手册教程? 问题2: 关于mpy的image库在哪里能了解学习内部代码,只了解一些python,想知道怎么从c转换成mpy能调用的,自己写的c也能转成py调用
    发表于 04-29 08:16

    明远智睿SSD2351核心板在语音对讲与HMI领域的创新应用

    提升了用户与设备之间的交互效率。 在一些高端智能设备的HMI设计中,还会涉及到3D图形渲染、动画效果展示等功能。SSD2351核心板支持浮点运算的特性,使其在处理这些复杂图形运算时表现出色。例如在智能车载中
    发表于 04-16 10:46

    树莓派在自动化控制项目中的一些潜在应用

    自动化控制项目中的一些潜在应用。之前,我们已经为Arduino平台探讨了相同的话题。我们确定Arduino是个出色的教育工具,但由于一些限制,它无法在工业环境中完全
    的头像 发表于 03-25 09:45 473次阅读
    树莓派在自动化控制项目中的<b class='flag-5'>一些</b>潜在应用

    AN-202: IC放大器用户指南:去耦、接地及其他一些要点

    电子发烧友网站提供《AN-202: IC放大器用户指南:去耦、接地及其他一些要点.pdf》资料免费下载
    发表于 01-13 15:16 3次下载
    AN-202: IC放大器<b class='flag-5'>用户</b>指南:去耦、接地及其他<b class='flag-5'>一些</b>要点

    AN29-关于DC-DC转换器的一些想法

    电子发烧友网站提供《AN29-关于DC-DC转换器的一些想法.pdf》资料免费下载
    发表于 01-08 13:57 0次下载
    AN29-关于DC-DC转换器的<b class='flag-5'>一些</b>想法

    HarmonyOS NEXT 应用开发练习:AI智能语音播报

    、DEMO思路 在这个HarmonyOS NEXT原生应用DEMO中,我们将使用ArkTS开发语言创建个简单的AI智能语音播报应用。 该应用能够接收用户输入的文本,并使用TTS
    发表于 01-06 15:33

    使用DAC37J84时,遇到了一些问题求解答

    您好,我在使用DAC37J84时,遇到了一些问题,需要您的支持;具体情况如下: 我使用1片DAC37J84与Xilinx的XC7V485T FPGA进行通信,具体设置参数如下: DAC37J84
    发表于 01-06 06:36

    SOLIDWORKS 2025直观的用户界面

    在工程设计领域,SOLIDWORKS作为三维CAD软件的佼佼者,直致力于通过技术创新提升用户体验。随着SOLIDWORKS 2025版本的发布,其在界面设计上的直观性与易用性再次成为行业关注的焦点
    的头像 发表于 12-12 17:22 1091次阅读