0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

有关设计对语音用户界面的一些挑战和最佳做法

星星科技指导员 来源:嵌入式计算设计 作者:Jeff LeBlanc 2022-12-02 11:47 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

语音交互是21世纪最具颠覆性的技术之一。每天都有越来越多的设备通过语音用户界面(VUI)组件进入市场。虽然语音支持设备的许多技术挑战已经得到解决,但让最终用户满意地使用设备的体验仍然是一个悬而未决的问题。本文介绍了有关设计对用户有效、自然且引人入胜的 VUI 的一些挑战和最佳做法,包括设计置信度阈值、适应插入、使用 n 最佳列表,以及如何在实际对话中与用户交谈(而不是在用户处)。

虽然语音用户界面(VUI)自1968年以来一直处于公众心态的边缘,当时HAL和Dave Bowman存在分歧,但直到Tony Stark在2008年开始与J.A.R.V.I.S.开玩笑,有用的语音控制“智能家居”的概念才开始成为焦点。

这款大获成功的Amazon Echo设备于2014年发布,将最新的语音识别技术与强大的基于云的计算相结合,提供几乎可与电影中描绘的相媲美的家庭体验。打开灯或音响系统从未如此简单。

从那以后,谷歌、苹果和其他科技公司加入了这场争斗,并相互绊倒,为您的家庭、工作场所和汽车提供最佳的交互式语音体验。

这项技术已经有很长一段时间了。贝尔实验室和IBM早在1950年代就致力于语音系统。但是,直到 1990 年代后期,Dragon‘s NaturalSpeak 软件才获得了足够的吸引力,将语音识别带入了消费者的集体意识。虽然在当时是革命性的,但NaturalPeaks需要最终用户进行相当多的“培训”才能达到90%的准确率,这使得语音识别作为一种人机交互形式可行。因此,这项技术并不像它可能的那样自然。

多年来,开发人员、设计师和技术人员一直在努力工作,试图“解决语音问题”。然而,我们在识别准确率方面只增加了5%。

那么,为什么设计更准确、更像人类的语音界面如此困难呢?

在设计VUI时,必须解决两个关键方面。首先是确保界面能够将声音识别为人类语音。这被称为自动语音识别 (ASR),是语音转文本软件引擎的核心。ASR 可以在现代消费类硬件上以合理的处理速度执行。但是,ASR 通常在云中完成。像Amazon Echo这样的设备只做足够的本地处理来找到它们的“唤醒词”,而其余的工作则由远程计算资源完成。所以,是的,Alexa正在听你说的一切。但她只在乎你说她的名字。

语音体验的第二个也是更困难的方面是确保设备在识别语音后知道如何处理语音。自然语言理解(NLU)结合了包括语言学,认知科学和人工智能在内的各种学科,多年来一直挑战着计算机科学家。尽管一些专家认为ASR是开发VUI的“困难部分”,但我不同意。多年来,我们一直保持稳定在95%左右的准确率 - 可与人与人之间的交流相媲美。是的,即使是人与人之间的交流也不是100%准确的。想想你在和另一个人说话时说多少次“嗯?”或“什么?”。然而,这些对话很容易理解。

作为UX设计师,我们面临的挑战是弄清楚如何创建卓越的交互式语音体验,尽可能接近模仿人与人之间的体验。

这称为自然用户界面或 NUI。让简单的命令正常工作很简单 - 主要是从话语中提取正确的关键字。例如,让您的智能家居正确响应“打开餐厅灯”并不太复杂。它只涉及创建一个界面,该界面可以识别所需的操作(“打开”)以及执行该操作的内容(“餐厅灯”)。

但仍然存在挑战。由于我们的语音识别准确度略低于 100%,因此设备可能无法理解你的确切话语。也许语音助手听到你说“打开餐厅的灯”。虽然人类可以轻松地从餐厅跳到餐厅,但在计算机的二进制世界中并非如此。“用餐”不等于“用餐”,因此您的语音助手无法理解您在问什么。你最终会感到沮丧,在黑暗中进食。

幸运的是,我们可以围绕这一点进行设计。解决方案在于超越简单的话语和命令,让我们的用户参与对话。

在我们的例子中,智能家居理解你的意图——你想打开餐厅的灯——但它没有得到足够的信息来执行任务。因此,我们对VUI进行编程,以执行人与人交互中的典型操作:要求澄清。我们的智能家居可以回应“对不起,我没有完全理解。你想打开什么?

这种互动建立在置信度的概念之上——你的智能家居有多确定它真的理解了你的要求?如果智能家居非常确定它理解你的请求 - 比如说超过75%的准确率 - 它可以执行它。如果只是有点确定,设备可以要求澄清。通过利用置信度和参与对话,您可以澄清您的请求,而无需从唤醒词重新启动整个命令交互。

N-最佳名单

下一个设计技术建立在这种对话方法的基础上,试图根据先前对话的预期响应来预测你可能会说什么。您的智能家居听到“用餐”而不是“用餐”并非不合理。甚至是其他听起来相似的词,如“潜水”。

通过将这些险些失误收集到称为N-best列表中的东西中,您的智能家居可以捕获可能的可能性。现在,您家的VUI可以要求您确认列表中的单词,或者继续执行该命令。让你的家回答说:“我想你让我打开餐厅的灯。是吗?“表明你的家足够聪明,(很可能)弄清楚你说了什么,但又足够礼貌地仔细检查,以防万一它不能100%完全理解这个要求。

流程图

流程图允许VUI设计人员绘制出在简单交互中发现的可能分支。继续关于餐厅灯光的对话,为了确保流畅、自然的对话,VUI 设计师必须考虑您可能的反应。您可以用简单的“是”来回答有关开灯的澄清请求。在这种情况下,智能家居应该打开灯。

但是,如果你听人与人对话的录音,它们通常不会那么干涸。如果你回答“是”而不是“是”怎么办?或者“没错”或“让它这样”或任何数量的肯定?如果你的回答是否定的怎么办?不。不。呃。你的智能房子知道该怎么做吗?

这种情况正是为什么检查列表而不是简单的关键字匹配至关重要的原因。这是实现最自然交互的最佳方式。

驳船

人与人交流的另一个值得一提的方面是中断。有时我们是不礼貌的——我们不会等谈话中的对方说完才开始说话。其他时候,打断是及时推进对话的唯一方法。在这两种情况下,中断的能力使对话更加自然。

下面是一个示例。您进入了挡泥板弯曲机并致电您的保险公司提出索赔。在公司的自动电话系统上收听一长串选项时,只要听到“按 3 到达理赔部门”,您就会打断。你急切地点击“3”键,不要费心去听列表的其余部分。

这种闯入和中断对话的能力是VUI设计人员需要结合的东西,以便创建类似人类的语音交互。(如果你的服务员正在阅读沙拉酱清单,而你说“停下,我想要那个,油醋汁”,而他继续列出沙拉酱,事情会变得有点尴尬。亚马逊Echo在支持闯入方面做得很好,让用户随时说“Alexa,取消”。

外卖

设计一个引人注目的、听起来像人类的语音助手当然是可能的。例如,谷歌的新Duplex电话机器人配备了大多数人常见的会话抽搐,包括贯穿整个对话的“ahs”和“ums”。有些人甚至对人工智能和人类语音之间的界限变得越来越模糊表示担忧。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语音识别
    +关注

    关注

    39

    文章

    1825

    浏览量

    116236
  • 语音交互
    +关注

    关注

    3

    文章

    355

    浏览量

    29213
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    半导体PN结界面的基本特性

    是构成半导体器件和集成电路的最基本元素pn结界面也是半导体集成电路制造中最重要的界面。本节将讨论 Pn结的基本特性。
    的头像 发表于 04-24 10:58 203次阅读
    半导体PN结<b class='flag-5'>界面的</b>基本特性

    可以将恩智浦PEX硬件与VDI环境相结合吗?

    安全隔离设备的任何最佳做法。 到目前为止,我已经尝试将一些设备固定到专用的 PCIe 通道并进行基本的 GPU 直通测试,但结果好坏参半。在我深入探讨之前,我想问下: 这里有人将恩智
    发表于 04-22 06:41

    如何使用 powerquad 加速器中的一些功能以及 CMSIS 原始实现中的一些功能?

    )。 如何使用 powerquad 加速器中的一些功能以及 CMSIS 原始实现中的一些功能。 Example: I do not want to call arm_mat_trans_q15 powerquad
    发表于 04-03 06:37

    基于Arm平台的端到端int8 Conformer模型部署

    在边缘侧运行高质量的语音与音频模型颇具挑战,需满足时延、内存、功耗和模型大小等多方面的严苛约束。不同于云端部署,边缘侧系统通常离线运行,需兼顾用户隐私与可预测的实时性能。这些落地场景涵
    的头像 发表于 02-24 10:23 437次阅读
    基于Arm平台的端到端int8 Conformer模型部署

    C语言中一些令人震惊的结构介绍

    C语言同意一些令人震惊的结构,下面的结构是合法的吗,如果是它做些什么? int a = 5, b = 7, c; c = a+++b; 考察点: 这个问题将作为这个测验的个愉快的结尾
    发表于 12-23 08:15

    瑞萨电子高级语音用户界面解决方案

    语音用户界面(VUI)正在彻底改变我们与技术交互的方式,实现免提、无缝的通信。通过整合先进语音命令识别功能,再加上语音反欺骗和说话人识别功能
    的头像 发表于 08-27 09:41 931次阅读
    瑞萨电子高级<b class='flag-5'>语音</b><b class='flag-5'>用户</b><b class='flag-5'>界面</b>解决方案

    分享---简单快速实现烘烤设备UI界面的方法

    是800x480 编写简单脚本,在屏幕上运行一些控制逻辑 注意:HMT070DTA-D直接LUA脚本,一些简单的控制逻辑,我直接通过屏幕支持lua脚本,让屏幕自己控制了。 通过SGTools自带的仿真功能,查看效果
    发表于 08-26 11:58

    颗TTS语音芯给产品增加智能语音播报能力

    颗TTS语音芯片给产品增加智能语音播报能力 传统语音播报芯片可以设置一些固定的语音片段或者内容
    的头像 发表于 08-14 16:33 869次阅读

    语音识别---大家怎么看呢?

    语音识别是门交叉学科。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。人们预计,未来10年内,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等
    发表于 08-09 10:54

    A-59P 多功能语音处理模组:性能卓越,便捷易用​

    使用普通 USB 设备样实现语音输入输出功能,无需复杂的驱动安装过程。不仅如此,通过 USB 接口还可方便地对 A-59P 进行固件升级,确保其始终保持最佳性能状态,为用户带来便捷
    发表于 07-26 10:53

    关于芯片设计的一些基本知识

    芯片的设计理念众所周知,芯片拥有极为复杂的结构。以英伟达的B200芯片为例,在巴掌大的面积上,塞入了2080亿个晶体管。里面的布局,堪称个异次元空间级的迷宫。英伟达B200芯片如此复杂的架构
    的头像 发表于 06-11 12:16 1511次阅读
    关于芯片设计的<b class='flag-5'>一些</b>基本知识

    微小泄漏零容忍:结束线连接器气密性检测的挑战与对策

    我们在使用结束线连接器气密检测的时候会遇到很多问题,那在气密检测中遇到这些挑战,我们该如何去解决呢,下面是一些挑战和解决对策:
    的头像 发表于 06-04 14:17 583次阅读
    微小泄漏零容忍:结束线连接器气密性检测的<b class='flag-5'>挑战</b>与对策

    使用基于GaN的OBC应对电动汽车EMI传导发射挑战

    本期,为大家带来的是《使用基于 GaN 的 OBC 应对电动汽车 EMI 传导发射挑战》,将深入回顾 CISPR 32 对 OBC 的 EMI 要求,同时详细探讨可靠数据测量的最佳做法、GaN 对 EMI 频谱的影响,以及解决传
    的头像 发表于 05-24 15:46 4808次阅读
    使用基于GaN的OBC应对电动汽车EMI传导发射<b class='flag-5'>挑战</b>

    Debian和Ubuntu哪个好一些

    兼容性对比Debian和Ubuntu哪个好一些,并为您揭示如何通过RAKsmart服务器释放Linux系统的最大潜能。
    的头像 发表于 05-07 10:58 1412次阅读

    如何添加一些网络上的库到mpy固件的说明或手册教程?

    于如何添加一些网络上的库到mpy固件的说明或手册教程? 问题2: 关于mpy的image库在哪里能了解学习内部代码,只了解一些python,想知道怎么从c转换成mpy能调用的,自己写的c也能转成py调用
    发表于 04-29 08:16