关于有屏设备的语音交互体验实验研究-电子发烧友网

第二届百度AI 开发者大会在北京举行，百度AI交互设计院在首次举办的AI设计分论坛上，分享了《AI时代的人因工程》主题演讲，他们认为：在AI时代，全新的设计将会重构我们身边的工具、生产力、生活甚至心理学。AI时代的人因工程，是关于人的能力、行为、限制的特点，也关于人的社会、文化、心理，是真正以人类为中心的系统工程。他们还将脑电、肌电和眼动等生理测量方法引入了人因工程研究中，将研究方法进行创新迭代，不断助力百度的AI产品进行“重构”。百度开发者大会刚刚结束，百度AI交互设计院又随即推出了最新的研究报告《多维对话——走向视听融合的语音交互新体验研究》，进一步用扎实的研究彰显了他们在AI交互设计领域的专业实力。

过去四十年，人与机器的交互方式在不断进化，几乎每十年就会有一次重大革新。来到人工智能时代，生活中越来越多的设备开始支持语音交互，语音交互逐渐成为人们传达意图和与设备交流的优先选择（Voice First）。与传统交互相比，语音交互解放了双手和双眼，人们可以低成本与设备互动；而且，语音是多维的，除了言语本身的信息，言语中还蕴含着丰富情感，允许人们与设备进行更充分的互动。

语音交互也有局限性。语音交互是非可视化的，容易增加人们的记忆负担，设想语音查询信息的场景，你可能需要集中精力听，如果不留神就容易错过一些内容。鉴于此，正如人工智能专家吴恩达提到的，人与机器交流最高效的方式是语言，而机器与人最高效的交流方式是语言加上视觉，即需要在听觉基础上融入视觉信息弥补语音交互的不足。从语音向视觉延伸，在语音交互中融入可视化信息，已经是业界探索下一代语音交互范式的重要趋势。以智能音箱为例，除了无屏音箱以外，市场上开始出现带屏幕的音箱。

百度人工智能交互设计院本期以有屏智能设备为研究对象，聚焦语音交互反馈和内容输出环节的体验。考虑到屏幕尺寸差异可能对反馈和内容输出体验的影响，研究选择了两种不同屏幕尺寸的设备，分别是智能音箱（7英寸）和智能电视（55英寸）。本期的主要研究问题包括：

1）有屏设备的指令上屏反馈体验，主要指用户输入语音指令后，文本指令上屏的延迟时间以及文本指令在屏幕上呈现的合理时间；

2）有屏设备内容输出的音量干扰体验，主要指用户在特定场景下（如听音乐/看视频），插入其它任务后（如查询百科），不同内容输出时的音量合理设置。

关于有屏设备的语音交互体验实验研究

有屏设备的指令上屏体验研究

与无屏设备相比，显示屏的融入使语音交互过程有更丰富的反馈形式。以语音识别阶段为例，在无屏设备上，用户通常无法直接知道输入指令的识别结果。而有屏设备直接在屏幕上显示指令的识别结果，用户可以方便的查看识别结果的正确或错误情况，例如上屏后的指令"我要听周杰伦的青花瓷"。然而，目前很多设备在指令上屏时存在一定程度的延迟现象，本实验对指令上屏合理的延迟时间和呈现时间进行研究。

1、指令上屏延迟时间实验

由于市场上的有屏设备多数采用实时上屏方式，即用户输入语音指令的同时就开始在屏幕上呈现识别结果，因此，本实验只研究实时上屏。在实验中我们使用实时逐字上屏的方式，并以控制首字上屏延迟时间为主要变量（注：首字上屏延迟时间指从用户开始说到第一个字上屏的时间间隔），我们设置了不同的首字延迟时间，以此获取用户对指令上屏速度的满意度评价（5点量表：1-非常不满意，2-比较不满意，3-一般，4-比较满意，5-非常满意）。在实验中，我们分别提供了3种不同长度的指令。

实验结果表明，首字延迟时间越短，用户的满意度越高，不同屏幕尺寸设备的首字延迟时间满意度略有差异，我们将"4-比较满意"看做用户满意的得分下限，将"3-一般"看做用户可接受的得分下限，不同设备间用户满意和可接受的上屏时间如下：

1）对于有屏音箱，用户满意的首字延迟时间下限在500ms左右，可接受的首字延迟时间下限在1500-1600ms左右；

2）对于智能电视，用户满意的首字延迟时间下限在600-700ms左右，可接受的首字延迟时间下限在1100-1200ms左右；

结合对市场上其它设备的研究发现，部分设备的首字上屏时间明显比用户满意的时间下限长，少数甚至比可接受的下限还要长。关于指令上屏速度，产品仍有改善和优化的空间，即语音识别ASR（Automatic Speech Recognition）技术除了在不断提升识别准确率以外，同时也需要关注识别速度指标的提升。

2、指令上屏呈现时间实验

除了指令上屏时间，我们进一步对指令上屏后合理的呈现时间进行研究，以避免指令呈现时间太短导致用户无法看清，或者呈现时间太长导致整个交互过程拖沓冗余。在实验中，我们以文字呈现时间为主要变量（注：文字呈现时间指文本指令最后一个字上屏后到全部指令消失的时间间隔），获取用户对不同呈现时间的满意度评价。由于语音识别涉及语言模型技术，实际的指令上屏并不是逐字的方式，因此，本部分实验我们也模拟了逐块上屏的方式，以指令"我想看刘德华2010年以前主演的香港电影"为例，"刘德华"被整体识别后才上屏。在实验中，我们也分别提供了3种不同长度的指令。

实验结果表明，存在最优的文字上屏呈现时间，不同屏幕尺寸设备之间，最优的文字上屏呈现时间无显著差异。不同上屏方式间存在差异，逐字上屏和逐块上屏的最优呈现时间分别如下：

1）逐字上屏方式下，最优的指令呈现时间为200-500ms的区间；

2）逐块上屏方式下，最优的指令呈现时间为400-700ms的区间。

关于有屏设备的语音交互体验实验研究

由于逐块上屏方式更接近真实产品的上屏方式，因此建议主要参考400-700ms的呈现时间。需要说明的是，由于实时上屏的方式允许用户在输入语音指令过程中就可以查看已经上屏的文字，这与整体识别后上屏的方式明显不同，因此，如果产品采用的是整体识别后上屏的方式，不建议参考本部分实验的结论。

有屏设备的音量干扰体验研究

有屏设备除了使语音交互有更丰富的反馈以外，屏幕的引入也扩展了设备过去不具备的功能，例如视频内容消费和视频通讯能力等。同时设备的使用也在经历从过去单一任务到多个任务的变化，当看视频时，你可以随时插入任务查找信息，例如看电视剧《扶摇》时查询演员杨幂的信息。本部分实验主要研究用户插入任务后，前景内容和背景内容间的音量干扰体验，如当前景内容正在语音播报信息时，背景视频或音乐的合理音量范围，以避免过高的背景音对用户获取信息产生干扰。

1、音量干扰实验

在实验中，用户被要求分别在看视频和听音乐两种场景下进行信息查询。我们设置了两种初始音量（注：初始音量是用户看视频/听音乐的音量）：60和65分贝，用户查询人物或百科信息后，通过设置不同的背景音量（注：此时前景内容为语音播报信息，背景内容为视频或音乐），获取用户对背景音量的满意度评价。同时结合实验后问卷了解用户对前景和背景信息展示的态度。由于不同设备间音量刻度范围存在差异，实验中对有屏音箱和智能电视的背景音量进行了分别设置。

实验结果发现，无论背景是视频还是音乐，用户都不喜欢背景完全静音（注：下图中"0"代表背景完全静音）。针对有屏音箱和智能电视，当初始音量约为60分贝时，背景音量舒适范围略有差异，具体结果如下：

1）针对有屏音箱，背景视频音量下降至36-53分贝范围，背景音乐音量下降至39-56分贝范围时，用户主观感觉较舒适；

关于有屏设备的语音交互体验实验研究

2）针对智能电视，背景视频音量下降至39-53分贝范围，背景音乐音量下降至36-53分贝范围时，用户主观感觉较舒适。

关于有屏设备的语音交互体验实验研究

实验中我们同时研究了初始音量为65分贝时背景音量的舒适范围，因实验结果与上述趋势基本一致，篇幅所限，暂不一一展开。

此外，结合实验后的问卷调研结果发现，关于背景的播放状态，背景为音乐时用户更倾向继续播放，而背景为视频时有屏音箱端倾向视频暂停的用户更多。主要是由于有屏音箱端背景视频被完全覆盖，因此，用户认为背景视频暂停较好，以避免错过感兴趣的视频内容。

关于有屏设备的语音交互体验实验研究

关于前景内容的播放状态，无论屏幕尺寸差异和背景媒体类型，多数用户希望能够对前景信息进行语音播报，而不仅仅是在屏幕上以文字或图文的形式展示。

关于有屏设备的语音交互体验实验研究

本文针对有屏设备的语音交互体验进行研究，重点探索整合视觉系统后交互反馈和内容输出环节的体验问题。对指令上屏的延迟时间和指令呈现时间给出了我们的研究结果和设计建议，以及不同内容输出时前景和背景的合理音量设置等。

从语音向视觉的延伸，语音交互的边界和外延仍将不断变化。语音交互与传统的交互方式并不是互斥的、非此即彼的关系，未来的人机交互将融入听觉、视觉、触觉、味觉、嗅觉等多模态的交互方式。未来的交互范式必然不是这些交互方式的简单堆砌和罗列，而是在考虑特定场景、人的因素、环境条件等因素后有序的、合理的组合和设计。百度人工智能交互设计院也将会持续的关注多模态交互领域的研究和设计，并不断输出我们的研究成果和观点。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI

AI

+关注

关注
87

文章
26396

浏览量
264004
智能电视

智能电视

+关注

关注
9

文章
1379

浏览量
94668
语音交互

语音交互

+关注

关注
3

文章
271

浏览量
27819
智能音箱

智能音箱

+关注

关注
31

文章
1774

浏览量
78021

原文标题：走向视听融合的语音交互新体验研究

文章出处：【微信号：WW_CGQJS，微信公众号：传感器技术】欢迎添加关注！文章转载请注明出处。

让设备更聪明 |启英泰伦离线自然说，开启智能语音交互新体验！

启英泰伦新推出「离线自然说」——一种轻量级的离线NLP技术。通过该技术，语音芯片可支持数万条离线词条，泛化能力强，几乎可涵盖用户日常所有说话习惯，可以为用户提供更自然、更丰富、更灵活的离线语音交互新体验。

发表于 01-04 11:24 •234次阅读

让<b class='flag-5'>设备</b>更聪明 |启英泰伦离线自然说，开启智能<b class='flag-5'>语音</b><b class='flag-5'>交互</b>新体验！

思必驰语音算法与芯片的完美结合人机交互

工智能人机语音交互解决方案，具有高性能、低功耗等特点。该芯片通过采用软硬融合的方法，使得TH1520具备快速赋予各类设备语音交互的能力，极大

发表于 12-29 11:43 •219次阅读

思必驰<b class='flag-5'>语音</b>算法与芯片的完美结合人机<b class='flag-5'>交互</b>

离线语音识别技术：掌控未来的语音交互

离线语音识别技术的核心优势在于其独立性和实时性。在没有网络连接的情况下，设备依然能够迅速识别用户的语音指令，实现各种功能。这使得语音交互更加

发表于 12-13 11:12 •270次阅读

离线<b class='flag-5'>语音</b>识别技术：掌控未来的<b class='flag-5'>语音</b><b class='flag-5'>交互</b>

情感语音识别技术在人机交互中的应用与展望

一、引言随着人工智能技术的不断发展，人机交互已经渗透到日常生活的方方面面。情感语音识别作为人机交互中的关键技术之一，能够通过分析人类语音中的情感信息实现更加智能化和个性化的人机

发表于 11-22 10:40 •321次阅读

情感语音识别在人机交互中的应用与挑战

一、引言情感语音识别是近年来人工智能领域的研究热点之一，它能够通过分析人类语音中的情感信息实现更加智能化和个性化的人机交互。本文将探讨情感语音

发表于 11-15 15:42 •228次阅读

情感语音识别技术在人机交互中的应用与挑战

一、引言随着人工智能技术的不断发展，人机交互已经成为了研究的热点之一。情感语音识别技术作为人机交互中的重要组成部分，能够通过识别人的语音

发表于 11-09 15:27 •373次阅读

AISpeech 思必驰思必驰语音算法与芯片的完美结合人机交互

TH1520是深聪智能（思必驰旗下的芯片设计企业）根据语音交互市场及算法的需求及发展方向，自主定义开发的 “芯片＋算法” 的人工智能人机语音交互解决方案，具有高性能、低功耗等特点。

发表于 10-18 14:43 •1305次阅读

智能座舱HMI自动化测试之语音交互专项测试

随着人工智能和物联网技术的迅猛发展，智能座舱已经成为现代汽车中的重要组成部分。语音交互作为智能座舱的核心功能之一，正日益受到用户和汽车制造商的关注。车载语音交互具备的独特优势：降低驾驶

发表于 09-04 16:58 •1603次阅读

语音识别唤醒词：让智能设备主动“听”你的声音

语音识别唤醒词是指在语音助理和智能设备中使用的特定词语或短语，用于唤醒设备并启动语音交互。随着智

发表于 08-07 20:21 •1225次阅读

智能座舱的语音交互系统技术应用

从用户发出语音指令到实现与智能设备的交互，其过程并不像其名词描述的那么简单，要实现通过语音来完成人机交互，要解决解决三个关键问题，如何让机器

发表于 07-28 10:17 •340次阅读

扫地机语音提示芯片，智能家居语音交互首选方案，WT588F02B-8S

智能家居已经成为现代家庭不可或缺的一部分，而语音交互技术正是智能家居的核心。在智能家居设备中，扫地机无疑是最受欢迎的产品之一。然而，要实现一个更智能的扫地机，需要一颗语音提示芯片，以提

发表于 07-26 17:38 •546次阅读

拖地机语音播放芯片，低功耗语音交互方案，WT588F02B-8S语音ic

在现代科技的快速发展中，语音交互已成为众多智能设备的重要功能之一。为了满足市场需求，我们推出了一款创新的拖地机语音播放芯片——WT588F02B-8S，该芯片不仅具备低功耗的特性，而且

发表于 07-11 09:13 •319次阅读

语音识别唤醒词-开启智能化的语音交互时代

语音识别唤醒词是指在语音交互系统中使用的特定词语或短语，用于唤醒系统并启动语音识别功能。这项技术的出现为智能化的语音

发表于 07-09 00:53 •927次阅读

GC：具有语音交互能力的机器人

电子发烧友网站提供《GC：具有语音交互能力的机器人.zip》资料免费下载

发表于 07-06 10:02 •0次下载

语音识别技术的概念及应用前景

一种最自然的交互方式，和IOT结合可以解决IOT控制中配网麻烦、需要中心的一些痛点，又可以让设备互联后共同为用户提供服务，实现一个语音入口设备控制全部IOT

发表于 05-27 09:41