0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

语音交互只是处于自动驾驶的L1级阶段

电子工程师 来源:未知 作者:胡薇 2018-11-05 16:51 次阅读

2017 年可以看做是智能语音交互的元年,在这一年里小爱同学、天猫精灵纷纷上市。2018 年里语音交互的落地突然加速,落地的产品从大公司关注的智能音箱扩展到其它品类,比如电视盒子、闹钟、灯、智能马桶等。那接下来语音交互会如何发展?

▌语音交互的终极目标

语音交互的便利程度正好与人工智能的发展程度成正比,智能程度越高语音交互的等级也就越高,所以其终极形态与人工智能的终极形态类似。

如果抛弃特别夸张的想象来说,那语音交互要能达成《她》或者《黑镜》里描述的样子:

当你输入数据给它后,它能够根据输入数据表现出不同的个性。

在数据的处理上它近乎是全能的,只受个人权限的限制。

如果真的赋予实体,那它可以感知周围环境并作出与人类似但很多方面会更优秀的反应。

今天的智能音箱和未来相对终极的语音交互方式以及设备相比,其差距要远大于 X86 电脑和今天 Pad 的差距。

一旦发展成以上这样的程度,那语音交互就会彻底地打开边界,而不只是我们使用数据的一种方式,甚至会成为生活的必须品。我们不会对 iPhone 产生依恋,但语音交互则会。

回顾下《黑镜》里描述的场景,可以对此有更好的理解:

女主人公的丈夫去世,过于思念自己丈夫的女主人公通过公开的自己丈夫的数据创建了一个有性格的,属于自己的语音交互机器人。这个机器人在绝大多数方面表现和女主丈夫一致。女主使用一段时间后,就升级了这服务,为这语音交互机器人赋予了和自己丈夫一样的形体。

这看着非常科幻,但实际上一旦语音交互达到上述程度,那这类事情几乎一定发生。既然我们能接受很宅并愿意躲在家里,那就一定能接受这样一种非真实、但更完美的电子助手进入心灵的世界。《她》这部电影虽然没拍,但如果有为个性化语音交互系统塑形的服务,主人公也一定会接受。

在这里反倒是互联网限制了我们的想象力,因为互联网更多体现的只是工具的属性,但实际上语音交互系统所涵盖的范围要比互联网大的多。当前之所以能做的还不多,主要是层级还不够。

▌语音交互的L1、L2、L3

我们可以这样定义语音交互的 L1 阶段:

能以极高的准确率,在典型的环境下响应用户的语音输入。极高的准确率最低应该在 90%+。这时承载语音交互的设备主要负责功能性的提示与反馈(灯与屏幕等)。

当前所有与语音相关的公司,事实上都是在达成 L1 的路上。L1 的出口为语音交互习惯彻底树立,人们面对每款设备的时候会首先想到用语音操作,而不是遥控器或者屏幕。

在 L1 阶段语音交互更像是自动化程度、精准程度更高的搜索,但搜索的范围扩大了,不单是局限于已有的数字内容,也扩展到家电、视频通话等正常搜索不会覆盖的领域。

我们可以这样定义 L2 阶段:

能以极高的准确率识别出交互的当事人和环境,然后进行个性化的交互。这时承载语音交互的设备通过摄像头等传感器能够实时感知,进行适当移动,初步拟人。

L2 阶段体现的是个性化,不再是千人一面。如果 L2 得以达成,那《她》所描述的场景是可以实现的。语音交互可以定制出性格,而这种性格很可能确实满足某个人的心理期待。

在 L2 阶段,语音交互会打破工具的边界,尝试走入从来没被搜索等介入的领域,比如排遣寂寞。现在的各种 App 是按照领域来切分的,而在 L2 阶段,所有 App 的边界会被打破,信息的输出是按照人来切分的。也就是说不再有 BAT、头条、美团等,只有张三的语音交互助理,李四的语音交互助理。

我们可以这样定义 L3 阶段:

只要有数据,语音交互系统的能力就可以无边界扩展(包括个性和能力)。交互设备可以进行拟人化输出。

L3 阶段体现的是后端内容扩展的无边界特性,不再是有多少智能就有多少人工,以及拟人化输出。拟人化输出包括移动、说话的语调、风格、姿态等。

如果 L3 阶段得以实现,那《黑镜》描述的场景是可以实现的。只要有一个人充分的数据描述,就可以立刻模拟这个人,然后赋予他一个真实的身体。

在 L3 阶段,语音交互及其载体,将是社会生活、甚至家庭的一部分。

本质上,从 L1 到 L3 体现的是数字化和智能程度不断加深,同时数字和智能又按照人类的理想形态进行物化的过程。这一过程也是完全颠覆基于手机的移动互联网的过程。

▌语音交互发展的核心障碍

整个行业迫切需要彻底解决下面的问题:

解决前端声学适配问题,否则变成每个设备都需要调整,但真正能对其调整的人员很少。

NLP 整合足够全的内容资源,开发出缺省的 Killer App,因为产品公司不可能系统地在产品周期内整合所有内容。

落地方式多样化(包括纯软件、模组的)。语音交互和移动应用的根本不同是需要面对多种多样的设备,所以其自身的落地形态必须是灵活的。

眼下不同产品公司的诉求差别很大,小公司希望的是 turn-key 的方案,有内容的公司希望的是自己做部分 NLP,偏行业的公司希望的是有带硬件可贴牌的产品、但自己开发手机 App,诸如此类。

因为用户需求的复杂性,落地是一个相对长跑且需要保持灵活的过程,不同产品公司需求的内核是一样的,但处理大品牌客户总是需要灵活处理很多细节。这对于创业公司难度不大,但对巨头会形成难以跨越的障碍。

▌未来三年必然会达成的成绩

现在与语音交互相关的公司,核心在做的就是 L1 阶段的事。这个阶段虽然在人工智能的大趋势里面,但本质上智能并没那么关键,关键的是便利以及能输出的内容。这两者会推动树立语音交互这种习惯。

如果要在数量级上进行判断的话,那三年后可以达成的目标是:

每年有 10 亿台支持语音交互的设备售出。

至少故事机、电视机、电视盒子、汽车前后装、白色家电、灯、闹钟等会加入这种特性。手机、Pad、电脑这些大品类上语音交互的能力则会变成标配,但使用频次估计需要更长的时间进行提升。在最初,交互频次会很差(这点在前文已提及),语音交互本身并非一种独立的交互方式,而是同其背后的内容深度绑定,我们很多的应用实际上是针对手机和键盘鼠标操作优化过的。

凡是电子设备都可以用语音来进行交互。

语音交互不会挑设备,同之前的交互相比,它可以更加低廉,理论上只要麦克风并且能联网就足够了。相较于给设备加入键盘鼠标或者屏幕,这个成本要低很多。这点上做出表率的仍然是亚马逊,亚马逊不停地推出新的设备,如微波炉、车载设备等。当然不同设备上语音交互的层次是不同的,有些设备如白色家电,语音交互会限制在一到三轮以内。

在更高一级的视角下,当前的所有努力本质作用就一个:通过便利性树立语音交互的习惯。但是,习惯背后跟随的是用户时间,二者又会为下面的进一步发展提供试验田。只有达成了这一目标,从技术到产品再到用户这一循环才算真正完成了第一次迭代。

▌结语

语音交互看着太简单了,不过是说话而已,所以很容易被误解为,像说话一样的交互就是现在语音交互设备所应该能干的事。其实不是,语音交互的从 L1 到 L3 有可能比自动驾驶从 L1 到 L5 还要漫长。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1776

    文章

    43824

    浏览量

    230584
  • 语音交互
    +关注

    关注

    3

    文章

    272

    浏览量

    27819

原文标题:语音交互只是说话?相比自动驾驶它还在L1级!

文章出处:【微信号:rgznai100,微信公众号:rgznai100】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    未来已来,多传感器融合感知是自动驾驶破局的关键

    的Robotaxi运营。这标志着L4自动驾驶迎来了新的里程碑,朝着商业化落地迈进了一大步。中国的车企也不甘落后:4月7日,广汽埃安与滴滴自动驾驶宣布合资公司——广州安滴科技有限公司获
    发表于 04-11 10:26

    语音数据集在自动驾驶中的应用与挑战

    随着人工智能技术的快速发展,自动驾驶汽车已经成为交通领域的研究热点。语音数据集在自动驾驶中发挥着重要的作用,为驾驶员和乘客提供了更加便捷和安全的交互
    的头像 发表于 12-25 09:48 231次阅读

    LabVIEW开发自动驾驶的双目测距系统

    LabVIEW开发自动驾驶的双目测距系统 随着车辆驾驶技术的不断发展,自动驾驶技术正日益成为现实。从L2别的辅助
    发表于 12-19 18:02

    L1~L5 自动驾驶芯片有何变化?

    随着自动驾驶技术的不断演进,不仅车载芯片的数量在逐步增加,在跨域集中式和中央计算式架构中,大芯片正在成为标配,芯片设计的复杂性急剧升高。
    发表于 11-29 16:57 276次阅读

    自动驾驶“十问十答”

    说起自动驾驶, 大家现在已经不陌生, 但是关于自动驾驶你又了解多少呢? 今天小编总结了关于自动驾驶的 “十问十答” , 带你了解更多 自动驾驶的来龙去脉 。 问题1. 为什么会 出现
    的头像 发表于 11-29 07:40 288次阅读
    <b class='flag-5'>自动驾驶</b>“十问十答”

    农机自动驾驶显示系统组成部分以及配置

    随着科技的发展,传统的农机行业正趋于饱和,新生事物层出不穷,无论是传统农机还是从业者都面临如何转型升级的问题。农机自动驾驶系统就是当下最热的概念之一。身为新时代农机人,作业的提质增效是无论如何也绕
    发表于 10-17 17:52

    L1辅助驾驶到L4自动驾驶的五个示例系统

    下面分别介绍从L1辅助驾驶到L4自动驾驶的五个示例系统。         超低端系统 该系统代表一个示例性感知器配置,包含一个摄像头(1x3-8.3MP)和一个雷达。 其目标SAE等级为L1
    的头像 发表于 10-04 10:57 464次阅读

    自动驾驶l1-l5技术区别 自动驾驶为什么不能用燃油车

    自动驾驶技术按照SAE国际自动驾驶标准分为不同的级别,从L1到L5,每个级别代表了不同程度的自动化能力和人机交互
    的头像 发表于 09-07 16:41 1336次阅读

    汽车自动驾驶现状及挑战

    会议自动驾驶现况自动驾驶技术的发展可以追溯到20世纪60年代,目前总共有六个阶段,从L0级到L5级阶段。L0:无自动化。没有任何
    的头像 发表于 08-19 08:30 519次阅读
    汽车<b class='flag-5'>自动驾驶</b>现状及挑战

    自动驾驶发展依旧处于初步阶段

    让汽车在没有驾驶员控制的情况下,独自实现出行过程。 现阶段自动驾驶技术如火如荼地发展,无论是主车厂,还是互联网企业,抑或是传统制造企业,都希望能在自动驾驶汽车发展初期,市场布局尚未稳定
    的头像 发表于 06-21 18:09 216次阅读

    自动驾驶如何落地 自动驾驶的商业模式与挑战

    依据于自动驾驶系统对汽车的控制程度,SAE将自动驾驶划分成6个等级: L0:无自动驾驶(非自动化),汽车的控制权完全由驾驶员决定
    发表于 06-02 15:23 0次下载
    <b class='flag-5'>自动驾驶</b>如何落地 <b class='flag-5'>自动驾驶</b>的商业模式与挑战

    自动驾驶技术概述

    ,可释放人出行驾驶时间,把汽车变成除家、办公室外的人的第三空间,在出行过程中办公和娱乐等。 车辆要实现自动驾驶,需要解决车辆在哪、往哪儿去、怎么去这三个基本问题。解决这些问题,涉及硬件平台、软件算法、交互、安全等多
    发表于 06-01 14:50 1次下载
    <b class='flag-5'>自动驾驶</b>技术概述

    自动驾驶入门(二):自动驾驶分级和定义

    L0:无自动化,完全由任内驾驶者控制汽车; L1驾驶支持,通过驾驶环境对方向盘和加速减速中的一项操作提供支持,其余操作由人类
    发表于 06-01 14:33 0次下载
    <b class='flag-5'>自动驾驶</b>入门(二):<b class='flag-5'>自动驾驶</b>分级和定义

    汽车自动驾驶等级

    汽车工程师协会)制定的划分方法,按照分级标准,自动驾驶从L0至L5总共被分为 6个级别,L0代表没有自动驾驶的传统人类驾驶L1至L5则随自动驾驶
    发表于 06-01 14:32 0次下载
    汽车<b class='flag-5'>自动驾驶</b>等级

    00021 阿克曼ROS自动驾驶小车,让自动驾驶触手可及! #自动驾驶 #机器人 #编程

    自动驾驶
    学习电子知识
    发布于 :2023年05月22日 19:42:03