0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

有关设计对语音用户界面的一些挑战和最佳做法

星星科技指导员 来源:嵌入式计算设计 作者:Jeff LeBlanc 2022-12-02 11:47 次阅读

语音交互是21世纪最具颠覆性的技术之一。每天都有越来越多的设备通过语音用户界面(VUI)组件进入市场。虽然语音支持设备的许多技术挑战已经得到解决,但让最终用户满意地使用设备的体验仍然是一个悬而未决的问题。本文介绍了有关设计对用户有效、自然且引人入胜的 VUI 的一些挑战和最佳做法,包括设计置信度阈值、适应插入、使用 n 最佳列表,以及如何在实际对话中与用户交谈(而不是在用户处)。

虽然语音用户界面(VUI)自1968年以来一直处于公众心态的边缘,当时HAL和Dave Bowman存在分歧,但直到Tony Stark在2008年开始与J.A.R.V.I.S.开玩笑,有用的语音控制“智能家居”的概念才开始成为焦点。

这款大获成功的Amazon Echo设备于2014年发布,将最新语音识别技术与强大的基于云的计算相结合,提供几乎可与电影中描绘的相媲美的家庭体验。打开灯或音响系统从未如此简单。

从那以后,谷歌、苹果和其他科技公司加入了这场争斗,并相互绊倒,为您的家庭、工作场所和汽车提供最佳的交互式语音体验。

这项技术已经有很长一段时间了。贝尔实验室和IBM早在1950年代就致力于语音系统。但是,直到 1990 年代后期,Dragon‘s NaturalSpeak 软件才获得了足够的吸引力,将语音识别带入了消费者的集体意识。虽然在当时是革命性的,但NaturalPeaks需要最终用户进行相当多的“培训”才能达到90%的准确率,这使得语音识别作为一种人机交互形式可行。因此,这项技术并不像它可能的那样自然。

多年来,开发人员、设计师和技术人员一直在努力工作,试图“解决语音问题”。然而,我们在识别准确率方面只增加了5%。

那么,为什么设计更准确、更像人类的语音界面如此困难呢?

在设计VUI时,必须解决两个关键方面。首先是确保界面能够将声音识别为人类语音。这被称为自动语音识别 (ASR),是语音转文本软件引擎的核心。ASR 可以在现代消费类硬件上以合理的处理速度执行。但是,ASR 通常在云中完成。像Amazon Echo这样的设备只做足够的本地处理来找到它们的“唤醒词”,而其余的工作则由远程计算资源完成。所以,是的,Alexa正在听你说的一切。但她只在乎你说她的名字。

语音体验的第二个也是更困难的方面是确保设备在识别语音后知道如何处理语音。自然语言理解(NLU)结合了包括语言学,认知科学和人工智能在内的各种学科,多年来一直挑战着计算机科学家。尽管一些专家认为ASR是开发VUI的“困难部分”,但我不同意。多年来,我们一直保持稳定在95%左右的准确率 - 可与人与人之间的交流相媲美。是的,即使是人与人之间的交流也不是100%准确的。想想你在和另一个人说话时说多少次“嗯?”或“什么?”。然而,这些对话很容易理解。

作为UX设计师,我们面临的挑战是弄清楚如何创建卓越的交互式语音体验,尽可能接近模仿人与人之间的体验。

这称为自然用户界面或 NUI。让简单的命令正常工作很简单 - 主要是从话语中提取正确的关键字。例如,让您的智能家居正确响应“打开餐厅灯”并不太复杂。它只涉及创建一个界面,该界面可以识别所需的操作(“打开”)以及执行该操作的内容(“餐厅灯”)。

但仍然存在挑战。由于我们的语音识别准确度略低于 100%,因此设备可能无法理解你的确切话语。也许语音助手听到你说“打开餐厅的灯”。虽然人类可以轻松地从餐厅跳到餐厅,但在计算机的二进制世界中并非如此。“用餐”不等于“用餐”,因此您的语音助手无法理解您在问什么。你最终会感到沮丧,在黑暗中进食。

幸运的是,我们可以围绕这一点进行设计。解决方案在于超越简单的话语和命令,让我们的用户参与对话。

在我们的例子中,智能家居理解你的意图——你想打开餐厅的灯——但它没有得到足够的信息来执行任务。因此,我们对VUI进行编程,以执行人与人交互中的典型操作:要求澄清。我们的智能家居可以回应“对不起,我没有完全理解。你想打开什么?

这种互动建立在置信度的概念之上——你的智能家居有多确定它真的理解了你的要求?如果智能家居非常确定它理解你的请求 - 比如说超过75%的准确率 - 它可以执行它。如果只是有点确定,设备可以要求澄清。通过利用置信度和参与对话,您可以澄清您的请求,而无需从唤醒词重新启动整个命令交互。

N-最佳名单

下一个设计技术建立在这种对话方法的基础上,试图根据先前对话的预期响应来预测你可能会说什么。您的智能家居听到“用餐”而不是“用餐”并非不合理。甚至是其他听起来相似的词,如“潜水”。

通过将这些险些失误收集到称为N-best列表中的东西中,您的智能家居可以捕获可能的可能性。现在,您家的VUI可以要求您确认列表中的单词,或者继续执行该命令。让你的家回答说:“我想你让我打开餐厅的灯。是吗?“表明你的家足够聪明,(很可能)弄清楚你说了什么,但又足够礼貌地仔细检查,以防万一它不能100%完全理解这个要求。

流程图

流程图允许VUI设计人员绘制出在简单交互中发现的可能分支。继续关于餐厅灯光的对话,为了确保流畅、自然的对话,VUI 设计师必须考虑您可能的反应。您可以用简单的“是”来回答有关开灯的澄清请求。在这种情况下,智能家居应该打开灯。

但是,如果你听人与人对话的录音,它们通常不会那么干涸。如果你回答“是”而不是“是”怎么办?或者“没错”或“让它这样”或任何数量的肯定?如果你的回答是否定的怎么办?不。不。呃。你的智能房子知道该怎么做吗?

这种情况正是为什么检查列表而不是简单的关键字匹配至关重要的原因。这是实现最自然交互的最佳方式。

驳船

人与人交流的另一个值得一提的方面是中断。有时我们是不礼貌的——我们不会等谈话中的对方说完才开始说话。其他时候,打断是及时推进对话的唯一方法。在这两种情况下,中断的能力使对话更加自然。

下面是一个示例。您进入了挡泥板弯曲机并致电您的保险公司提出索赔。在公司的自动电话系统上收听一长串选项时,只要听到“按 3 到达理赔部门”,您就会打断。你急切地点击“3”键,不要费心去听列表的其余部分。

这种闯入和中断对话的能力是VUI设计人员需要结合的东西,以便创建类似人类的语音交互。(如果你的服务员正在阅读沙拉酱清单,而你说“停下,我想要那个,油醋汁”,而他继续列出沙拉酱,事情会变得有点尴尬。亚马逊Echo在支持闯入方面做得很好,让用户随时说“Alexa,取消”。

外卖

设计一个引人注目的、听起来像人类的语音助手当然是可能的。例如,谷歌的新Duplex电话机器人配备了大多数人常见的会话抽搐,包括贯穿整个对话的“ahs”和“ums”。有些人甚至对人工智能和人类语音之间的界限变得越来越模糊表示担忧。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语音识别
    +关注

    关注

    37

    文章

    1635

    浏览量

    111838
  • 语音交互
    +关注

    关注

    3

    文章

    272

    浏览量

    27823
收藏 人收藏

    评论

    相关推荐

    一些有关通信电路的资料?

    有关嵌入式之间DSP、ARM、FPGA三者之间和这三款芯片和外部电路之间通信的一些资料,比如说芯片之间的并行通信和芯片和外部电路之间的串行通信,MODBUS、DP、CAN等,一些一些
    发表于 03-03 18:53

    汽车网络安全-挑战和实践指南

    汽车网络安全-挑战和实践指南
    的头像 发表于 02-19 16:37 196次阅读
    汽车网络安全-<b class='flag-5'>挑战和</b>实践指南

    有关通信协议时一些问题?

    工业上应用到许多种协议,按通信同时刻发送的数据位数分为串行通信和并行通信,首先我见并行通信多在芯片之间进行通信,而串行通信则在外部设备和芯片之间进行的一些通信,对于常见的串行通信,比如
    发表于 01-14 00:58

    如何在资源有限的 MCU 上实现语音用户界面

    系统,并且出于隐私问题,人们对持续的云连接越来越不舒服。 然而,强大且安全的语音用户界面 (VUI) 通常需要强大的硬件和复杂的软件来进行语音识别。任何不足都可能导致性能不佳和
    的头像 发表于 01-01 14:11 244次阅读
    如何在资源有限的 MCU 上实现<b class='flag-5'>语音</b><b class='flag-5'>用户</b><b class='flag-5'>界面</b>

    HDI 布线的挑战和技巧

    HDI 布线的挑战和技巧
    的头像 发表于 12-07 14:48 227次阅读

    DC/DC转换器功率降额规范中的挑战和替代方法

    DC/DC转换器功率降额规范中的挑战和替代方法
    的头像 发表于 11-23 09:08 254次阅读
    DC/DC转换器功率降额规范中的<b class='flag-5'>挑战和</b>替代方法

    语音识别技术:进展、挑战和未来

    语音识别技术是一种人机交互的核心技术,它赋予机器“听懂”人类语言的能力。这项技术从早期的符号识别和模板匹配方法,发展到现在的深度学习模型,经历了一个漫长而又富有成果的过程。本文将详细探讨语音识别技术的最新进展、面临的挑战以及未来
    的头像 发表于 09-24 09:48 552次阅读

    语音识别技术的挑战与机遇

    一、引言 随着科技的快速发展,语音识别技术成为了人机交互的重要方式。然而,尽管语音识别技术在某些领域已经取得了显著的进步,但在实际应用中仍然存在许多挑战和机遇。本文将探讨语音识别技术的
    的头像 发表于 09-20 16:17 327次阅读

    SAN结构弹性和管理最佳做法用户指南

    电子发烧友网站提供《SAN结构弹性和管理最佳做法用户指南.pdf》资料免费下载
    发表于 09-01 14:48 0次下载
    SAN结构弹性和管理<b class='flag-5'>最佳</b><b class='flag-5'>做法</b><b class='flag-5'>用户</b>指南

    iPhone 8 Plus透明屏有哪些挑战和限制?

    iPhone 8 Plus透明屏是一种新颖的屏幕技术,可以给用户带来全新的视觉体验。它可以用于增强用户的视觉感受、提高手机的功能和保护用户的隐私。然而,透明屏也存在一些
    的头像 发表于 08-01 09:47 235次阅读
    iPhone 8 Plus透明屏有哪些<b class='flag-5'>挑战和</b>限制?

    人脸识别技术的挑战和未来发展

    人脸识别技术在实现过程中面临着一些挑战和问题。 首先,人脸识别技术需要具备高准确率和识别速度,以提高安全性和效率。然而,在实际应用中,受到多种因素的影响,如光照、角度、面部表情等,人脸识别技术
    的头像 发表于 06-28 18:07 511次阅读

    语音识别唤醒词的挑战与未来发展

    尽管语音识别唤醒词技术已经被广泛应用于各个领域,但仍然面临着一些挑战和问题。 首先,语音识别唤醒词技术需要面对噪声和干扰,例如背景噪音、说话人语速、口音等。这些因素可能会影响唤醒词的识
    的头像 发表于 06-24 04:09 474次阅读

    情感语音识别技术的挑战和未来发展

    情感语音识别技术在实现过程中面临着一些挑战和问题。 首先,情感语音识别技术需要处理自然语言理解和语音识别等复杂的问题,如何提高技术的准确率和
    的头像 发表于 06-24 03:41 360次阅读

    TTS语音合成技术的挑战和未来发展

    TTS语音合成技术在实现过程中面临着一些挑战和问题。 首先,TTS语音合成技术需要处理自然语言理解和语音识别等复杂的问题,如何提高技术的准确
    的头像 发表于 06-24 03:18 642次阅读

    人脸面部表情识别技术的挑战和未来发展

    人脸面部表情识别技术虽然取得了一定的成就,但仍然面临着一些挑战和问题。 首先,光照、姿态和表情等因素都会影响到面部表情的识别准确率,需要进行更加深入的研究和处理;其次,对于某些复杂的情感,如惊讶
    的头像 发表于 06-06 16:53 435次阅读