浅谈声音人机交互技术-电子发烧友网

如果你同时保留着看电视和听广播这两个习惯——或者，看视频网站的同时会去找些播客节目听听，那么你一定会注意到一个显著的区别：视频节目的丰富程度和制作上的复杂度远高于音频节目。例如，《新闻联播》的片头20多年换了四五次，体现了电视技术的最新进步，但片头音乐一直不变，人们也能接受。电视节目的摄影棚几年就得来一次大翻新，但现在的广播电台依然可以使用十几年前的音频制作系统来播出节目，直播间里的时光仿佛停滞一般。

人类在同一时刻用眼睛可以接收的信息量远高于用耳朵能接收到的，视觉可以判别空间位置、形状和颜色叠加起来的丰富信息，比听觉高了不止一个维度。在看到人说话的时候，我们接收到的不只是话语内容，还包括人的面部特征和表情的细微变动，这都对氛围和情绪有着潜移默化的影响。相应的，听觉接收到的话语内容可以用手语或者字幕替代，但视觉附加的更多信息却难以转化回音频。

历史上，图书和报纸已经给了人们在视觉信息接收方面的训练，人们将排版经验延伸到电影和电视上。尽管留声机和电影技术几乎处于同一时代，但人们却宁愿忍受很多年没有同期声的无声电影时代，宁愿用随便什么音乐放一下做背景了事。可见，人们习惯上对图像比对声音重视得多。

同样，信息时代的到来也毫不例外的优先偏爱图像。90年代电脑同时具备独立的显卡和声卡，技术进步之后，人们对声卡抱着无所谓的态度，却追求独立显卡和屏幕的画质，以至于追求手机摄像头的精度。在交互方面，大家非常注重GUI(图形用户界面)，而对于声音的设计处理一般比较马虎，还停留在很多年前的水平。

随着智能手机带来的趋势，一块巨大的触屏成为人们交互的全部载体，跑在上面的应用也随着一股奇怪的扁平化风潮而变得越来越样式单一，设计师为了与众不同又好用的界面而绞尽脑汁。对于音频而言，它终于迎来了走出冷宫的机会。人机交互的下一波趋势，将很可能在声音——而不是图像——方面迎来突破。

声音不重要，还是人们没发现它的重要？

“在汽车出现之前，人们都以为自己想要一台更快的马车。”这句话大家也许都很熟悉。在iOS 7和微软Metro界面出现之后，一夜之间各种UI设计都趋向于扁平，而流行多年的拟物化设计很快就退潮了。这表明，人们的审美态度是可以因为外界的强力驱动而受到很大的改变的，并不是一成不变。所以对音频交互也是如此：并不是说声音相对于图像而言不重要，而是需求没有得到很好的引导。

声音有什么好处？它是否有足够潜力成为不可替代的载体呢(为什么我们获得的是相反的信号，比如交通广播电台即将被打车软件的抢单声埋葬)？

首先，习惯声音交互可以让我们的感觉器官均衡利用，换句话说就是保护眼睛。长期使用手机，比如在地铁盯着屏幕或者睡觉之前刷屏，会出现很多健康问题，其实不仅限于眼睛，手持阅读介质的姿势不同，全身都可能受影响。

而且，作为必须全神贯注进行的活动，阅读(包括观看视频)需要完全沉浸进去，和外界隔离，引发的心理问题也不容忽视。不管是阅读长文还是碎片化消息，眼睛接受的信息量通常过大，人们接受了过量的信息，以至于形成信息过载而不自觉。

使用声音可以让人们强制减少信息摄入量，并更自如的利用碎片时间。对孩子而言，声音(不使用耳机)也是一种亲切自然的交互方式，有助于让孩子早期就接触电脑，而不用担心用眼，孤独等副作用。

此外，随着我们使用智能设备的“户外场景”增多，就像这个年头智能手表终于迎来了春天一样，为短信息和免提式交互量身定制的声音也会派上更大用场。户外场景其实主要就是开车或者是提着东西走路。在这种情况下，显然眼睛就只是拿来看路才更合适。

一个例子是，交通电台提交路况信息，从原来的短信平台改为用微信公众号发送语音，电台会直接播出上传的语音。这样，司机可以不停车，用蓝牙耳机播报路况，让整个交流过程更像是真正的无线电台一样。

最后，声音可以极大的帮助视障人士走入信息化。如果不是亲身接触，你根本无法想象视觉在如今的交互中占有如何举足轻重的地位。完全不用眼睛的网页浏览，必须忍受读屏软件以飞快到基本听不清的速度给你播报每一个文字和图片信息，而很多图片都没有妥当的文本标签，在没有充分无障碍化的页面，比如淘宝店铺，使用者就会完全陷入迷茫。

在帮助文本信息转语音，方便视障人士方面，腾讯可能是国内公司中尝试时间最长的公司，QQ2010正式支持读屏软件并延续至今，其他应用如QQ音乐也增加了支持。随着语音命令可用范围进一步扩大，电脑之门将会更广阔地对盲人朋友敞开。

让基于声音的人机交互变得更自然

拟人的声音交互现在来到一个艰难的瓶颈期。著名的“恐怖谷理论”认为，当机器人与人类相像超过一定程度的时候，哪怕与人类有一点点的差别，都会显得非常显眼刺目，让整个机器人显得非常僵硬恐怖，让人有面对行尸走肉的感觉。

在厂商跟风推进语音助手成为所有手机、手表的标准配置之后，它正逐步降低人们的心理障碍，培养使用习惯。如上所述，对待机器我们很自然的操作方式是“动手不动口”，对着机器说话会感觉很奇怪。但是调戏Siri或者小娜，已经一定程度上在帮我们克服这种障碍。

这就给语音助手进一步提升智能程度赢得了宝贵的时间。等到一个真正如人类一般智能的声音出现时，人们对于对着电脑倾诉，侃侃而谈，就不会太排斥，电影《Her》当中出现的恋上机器声音的情节，也会获得更多用户的共鸣。

如果一个虚拟的人类声音始终会让人心生抗拒，那最理想的办法是机器直接执行人类短促简单的语音命令。比如说你走到家门说开门，那么就只是把门打开，不会有什么多余的回应说“好的，我这就把门打开”。

另一种可行的办法是让机器用“显然不是普通人类”的声音与人交互，比如现在还有点“单字蹦”的Siri和谷歌娘，或者故意用萌化的声音说“主人回家了喵”，类似这样的方法其实就是在智能不到位的时候用装傻卖萌来补充。既然不像真人，也就没有必要感到不舒服了。

技术进步和概念创新可以互相驱动

当我们站在现在回顾iPhone出现之前的手机市场，我们会发现，现在的应用形态有很多是当年不可想象的。这当中很多更新都基于硬件交互方式的改进，比如多点触摸，GPS、NFC/RFID和各种感应器的协同作用。所以我们有同样的信心认为，只要用心去开发语音的交互功能，就会出现更多我们现在无法想象的新的交互方式。

有时候，当新的交互到来的时候，我们才会惊奇的发现为其铺垫的技术因素已经成熟；而只要出现一个合理的产品，它起到的标志性作用就会引导业界进行自主革新，提升性能和降低成本。

在声音交互方面，Siri就是一个很好的例子。它需要输入和输出技术——语音识别和文字转语音共同配合。而Siri出现的时候，这两种技术都已经到了接近能用的程度——就中文而言，语音播报不再那么“单字蹦”了，而多种第三方语音引擎的识别率更可以在安静环境下达到90%以上，并顺理成章成为众多山寨Siri的选择。它的结果就是厂商跟风推进语音助手成为所有手机、手表的标准配置。

不管是可穿戴设备，还是普通的电脑，是家庭游戏机或客厅的机顶盒，以至于智能家居和汽车，声音交互都是非常有用的。但是截至目前，人们对于它的探索还是非常被动。比如说，只有当智能手表在输入上出现障碍的时候才想到用语音输入，而并非主动的探索用语音作为屏幕显示的替代方案。所以，如果进一步整合现有技术，能够给我们带来一个具有示范作用的应用，就会显著加速业界对声音交互场景的研究。

编辑：jq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

RFID

RFID

+关注

关注
383

文章
5779

浏览量
234514
gps

gps

+关注

关注
22

文章
2743

浏览量
164264
nfc

nfc

+关注

关注
55

文章
1542

浏览量
178736

人机交互的三个阶段人机交互的常用方式

机交互经历的三个阶段：命令行界面交互阶段、图形用户界面交互阶段、自然和谐的人机交互阶段。

发表于 03-13 17:25 •700次阅读

人机交互技术有哪几种人机交互技术的发展趋势

人机交互技术是指人与计算机之间通过各种交互方式进行信息传递、操作和控制的技术。随着科技的进步，人机交互技

发表于 01-22 17:47 •1014次阅读

情感语音识别技术在人机交互中的应用与展望

一、引言随着人工智能技术的不断发展，人机交互已经渗透到日常生活的方方面面。情感语音识别作为人机交互中的关键技术之一，能够通过分析人类语音中的情感信息实现更加智能化和个性化的

发表于 11-22 10:40 •314次阅读

情感语音识别技术在人机交互中的应用与挑战

一、引言随着人工智能技术的不断发展，人机交互已经成为了研究的热点之一。情感语音识别技术作为人机交互中的重要组成部分，能够通过识别人的语音情感，实现更加智能化和个性化的

发表于 11-09 15:27 •360次阅读

什么叫人机交互？人机交互是什么意思？

界面设计：设计人机交互界面的结构、布局、内容和控件，以实现直观、易用性、反馈等要求。界面设计需要兼顾美观性、实用性和易用性，简洁、明了的界面布局可以让用户快速定位需求和完成任务。

发表于 08-26 11:39 •2526次阅读

人机交互的发展历程

人机交互在20世纪60年代初期开始发展，当时计算机还处于高昂的价位，且操作系统的发展还非常有限。最早的人机交互界面是通过命令行交互实现的。当用户输入命令后，计算机会给出相应的响应。这样的交互

发表于 08-26 11:36 •2548次阅读

人机交互的多种可能 人机交互的三种方式

除了视觉界面，触觉界面也是一种重要的人机交互方式。触觉界面使用触摸技术，例如触摸屏、手势识别和数字板等，让用户可以与计算机进行更自然的交互。这种交互方式可以为用户提供更多的控制和个性化

发表于 08-26 11:34 •3647次阅读

面部表情识别技术在人机交互中的应用

面部表情识别技术在人机交互中具有广泛的应用。通过识别和理解用户的面部表情，可以实现更加智能、个性化和自然的人机交互。本文将探讨面部表情识别技术在人机

发表于 08-21 18:01 •407次阅读

人机交互设计原则是什么 人机交互常用的交互方式

人机交互设计原则是指为了提高用户体验和效果，指导设计师在设计用户界面和交互过程中应遵循的一系列原则。以下是一些常见的人机交互设计原则：　　1. 可用性（Usability）：设计应简单、直观易用

发表于 08-16 15:14 •2259次阅读

人机交互的重要接口是什么 人机交互方式有哪五种

　人机交互的重要接口是指人类用户与计算机系统之间进行交互和沟通的方式和工具。以下是几个常见的人机交互接口：　　1. 图形用户界面（GUI）：图形用户界面是通过图形、图像和图标等视觉元素来呈现信息

发表于 08-15 14:16 •5847次阅读

增强现实是人机交互技术吗

增强现实是人机交互技术吗增强现实是一种涵盖多种应用程序和技术的科技，可以改变我们的感知和与现实世界交互的方式。它是将虚拟世界的数字信息与真实世界融合在一起的

发表于 08-12 15:27 •627次阅读

面部表情识别在人机交互中的应用

随着人工智能技术的不断发展，人机交互已经成为了人们生活中不可或缺的一部分。面部表情识别作为人机交互的重要组成部分，有着广泛的应用场景和价值。本文将探讨面部表情识别在人机交互中的应用，包

发表于 08-02 18:03 •613次阅读

人机交互的方式有哪些？

人机交互的方式有多种多样，以下列举出比较常见的方式

发表于 06-08 15:12 •4897次阅读

储能设备的人机交互模块需要符合什么要求？

储能设备的人机交互模块需要符合以下要求

发表于 06-01 10:27 •268次阅读

储能设备的人机交互模块需要符合什么要求？

储能设备的人机交互模块需要符合以下要求

发表于 05-24 09:26 •306次阅读

搜索历史

浅谈声音人机交互技术

评论

人机交互的三个阶段人机交互的常用方式

人机交互技术有哪几种人机交互技术的发展趋势

情感语音识别技术在人机交互中的应用与展望

情感语音识别技术在人机交互中的应用与挑战

什么叫人机交互？人机交互是什么意思？

人机交互的发展历程

人机交互的多种可能人机交互的三种方式

面部表情识别技术在人机交互中的应用

人机交互设计原则是什么人机交互常用的交互方式

人机交互的重要接口是什么人机交互方式有哪五种

增强现实是人机交互技术吗

面部表情识别在人机交互中的应用

人机交互的方式有哪些？

储能设备的人机交互模块需要符合什么要求？

储能设备的人机交互模块需要符合什么要求？

搜索历史

浅谈 声音人机交互技术

评论

浅谈声音人机交互技术