0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

天猫精灵大升级 搭配“火眼”变得能听会看

454398 来源:网络整理 2018-03-28 09:52 次阅读

智能音箱从能听到会看,多模态交互将成为趋势。

8 个月时间,在天猫精灵 X1 智能音箱从发售到销量 200 万后,阿里巴巴人工智能实验室举行了 2018 年的第一场发布会(3 月 22 日),而这一次发布的核心产品,有点出乎大家意料。

用一个 49 元的手机支架,和几乎人人都有的智能手机,天猫精灵进行了一次变身,不但变得比以前更加聪明,还拥有了全新的“多模态感知系统”。作为 2017 年的行业黑马,本次发布会上让人激动的这件新品不再是硬件,而是重量级的系统升级——AliGenie 2.0,我们不妨先来看看这段官方视频演示:

AI 变奏曲:智能音箱从能听到会看

毫无疑问,当天发布会上的主角正是阿里巴巴人工智能实验室的 AliGenie 2.0,它加入了最新的 AI 视觉系统,并尝试去融入更多情感操作。阿里巴巴人工智能实验室负责人浅雪称之为“天猫精灵火眼”。和去年 7 月推出的 AliGenie 1.0 最大的不同在于,2.0 版本从原本能听能说,变成了如今的能看能听能说。

能看是系统升级的重点,“从触觉到听觉,再到视觉,最后是情感反馈,多模态交互是 AliGenie 2.0 的核心”,对于此次系统升级,浅雪认为它最大的不同是人机交互的变化,尤其是因此产生的与众不同的用户体验。

阿里巴巴人工智能实验室负责人 浅雪

搭载“火眼”的天猫精灵,在原本的天猫精灵 X1 上增加了一个手机支架,通过把手机连接到天猫精灵 App,手机屏幕出现了一只可以交互的“天猫”,通过手触摸,它可以简单和人互动。

这只“宠物猫”拥有 AI 识图能力。依靠手机前置摄像头,天猫精灵有了能“看懂”周围事物的“眼睛”,它可以识别 2D 和 3D 信息。具体来说,有三个重要能力加入。

第一,当你手拿儿童故事书,或者识字卡靠近,询问天猫精灵“这是什么”时,它可以“看到”并立即为你朗读卡片和故事书的内容。

其次,通过连接阿里健康的数据信息,天猫精灵有了“判断”药品的能力,可以迅速识别 40000 种中国家庭常用药。当你手拿药品盒子在手机摄像头前询问时,这只“猫”会手拿药盒,告诉你它的名称,功效甚至有效周期。

第三,同时也是最让人惊讶的能力,天猫精灵具备了基础的 3D 图像识别的能力。当手持蔬菜、水果等物品靠近摄像头询问时,它可以很快告诉你这是什么物品。

和前两种的 2D 图像识别不同,3D 识别物体要做到的是不论你用何种角度拿着物品靠近摄像头,它都能判断出物体是什么,按照产品总监释空的解释,这(难度)要比 2D 识别大得多。

因为 3D 识别不仅在考验系统对周围环境光线的适应、同时也要对你手持物体角度进行准确把握,还要有足够的数据信息可以搜寻出物体。比如在你拿着一个已经发霉变色的西兰花时,要想被识别出来,就必须知道这还是西兰花,这对于机器来说并不容易。所以目前,天猫精灵能识别出的蔬菜水果不多,只有几十种,但这种能力却对于将来识别更多物品(包括商品),甚至于人脸都具有重要意义。

此外,发布会很重要的一部分在于天猫精灵的边界扩展,看到前面几个功能也许有人能猜到,阅读故事书,教人读书写字,这是面向儿童的能力。而帮你识别药品,告诉你药品功效,再告诉你还有多久会过期,这是更贴近老人的能力。

因此天猫精灵不但联合了国内 12 家少年儿童出版社,对市面上 117 套儿童读物以及绘本进行了有声读物化,还将通过马云公益基金会将天猫精灵带到更多偏远地区,为当地学校教育以及儿童陪伴问题提供新的解决思路。

尽管发布会还另外带来了阿里巴巴人工智能实验室的路由器、投影仪以及迷你版天猫精灵,但最核心的主角无疑就是全新升级的 AliGenie 2.0 系统。这不由得令人好奇,当国内外厂商纷纷升级了带屏幕的智能音箱时,为何阿里巴巴选择了这样一个“非常规”的升级方式?不是通过卖新的产品,而是用 App 和用户自己的手机,这样一个更加“软着陆”的方式来使用新产品(也是新系统)呢?

殊途同归的多模态交互

一个现状是,带有屏幕的智能音箱价格与人们期望存在差距。市面上带屏幕的智能音箱,少则近千元,多则数千元。可以说在目前阶段,当用户考虑用数千元买一个带屏幕的智能音箱时,他们会犹豫,并会和一些其它成熟产品(如 iPad 等)比较其是否值得?

这也是摆在包括浅雪在内的团队成员面前同样的问题,因此需要考虑的就是:如何用极低的成本,尽量做到现阶段能实现的最优体验?团队内部对此曾出现过分歧,用释空的说法,最终他们认为,由于目前阶段带屏幕的智能音箱产品不具有足够的议价,因此就做出了用手机来完成这些的方案。

这让人想起了谷歌在 VR 推进早期曾大力推行的产品“CardBoard”。

纸板做的廉价 VR 眼镜——Google CardBoard

在 VR 产业刚刚起步阶段,市面上 VR 产品不但价格贵,体验也并不优秀,于是谷歌采取了用廉价纸盒做 VR 眼镜的策略,满足了大家在好奇期的想法,并成功向大众普及了 VR 这一概念,这种方式不得不说是有其必要性的。

“我们最关注的事情是如何让每个用户用最低的成本入门就能完全体验。”浅雪说,这种观点最终指向的目标是给每个人做有用有价值的人工智能,所以尝试出这样的方案在意料之中。

但在大方向上,智能音箱不应该仅仅只有语音交互,应该是语音、视觉、情感多模态交互的观点,这却是 AliGenie 系统,乃至整个智能音箱领域目前达成的一个基础共识。

的确,智能音箱优点很多,但尝试过的用户都会认为它不够完美,声音交互的特性让它在很多场景中不够灵活,而要解决这个问题,利用屏幕也许是一个途径,今年开年来,伴随 CES 2018 展会,我们见到了国内外众多带有屏幕的智能音箱,谷歌甚至组建了一个“Smart Display”联盟,想要让这一趋势迅速蔓延开来。

从左到右,LG、联想、JBL 的 Smart Diaplay 产品

在浅雪看来,阿里人工智能系统 AliGenie 2.0 系统升级,它的“能力比一块屏幕更重要”。目前阶段下,通过一个 App 和手机就能体验到的事情,既能让用户拥有更好的心理预期,又能在吸取经验进一步打磨未来产品,这样的尝试能让更多用户理解,有了屏幕交互的智能音箱不同于 iPad,语音控制和屏幕触控也不是互相替代,而是互补关系。

一旦有了这种体验,大家就会发掘出自己真正需要的到底是怎样的智能音箱。如发布会现场演示的功能一样,教育儿童,可以通过看到卡片和图书来给孩子讲故事;帮助老人,可以通过看到药品盒子就说出功能功效和截止日期。这种轻度体验能在生活中慢慢培养人们对于智能音箱的新的认知。

如果说 2017 年是国内智能音箱竞赛元年,那么站在赛道上的阿里巴巴无疑通过双 11 的 100 万台销量成为了行业黑马。而随着 AliGenie 2.0 的推出,2018 年人工智能产品将更具扩展性,多模态,让人更自如的交互无疑将成为接下来各大厂商关注的重点。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    5855

    浏览量

    103250
  • vr
    vr
    +关注

    关注

    34

    文章

    9556

    浏览量

    148805
  • 智能音箱
    +关注

    关注

    31

    文章

    1774

    浏览量

    78025
收藏 人收藏

    评论

    相关推荐

    IAP在线升级,当STM32f107识别U盘时,U盘使用多次后识别过程会变得很慢为什么呢?

    本人在做IAP在线升级,当STM32f107芯片识别U盘时候,U盘使用多次后,识别过程会变得很慢,这是为什么呢?是U盘老化还是芯片原因呢?
    发表于 03-21 07:03

    智慧覆冰精灵监测装置

    智慧覆冰精灵监测装置 智慧覆冰精灵监测装置是一种应用于电力系统的新型监测设备,主要用于实时监测输电线路的覆冰情况,保障电力系统的安全稳定运行。该装置结合了高精度的传感器技术、通信技术以及数据分析技术
    的头像 发表于 03-20 14:41 57次阅读

    导线精灵——导线覆冰智能识别监测装置

    导线精灵又叫观冰精灵、覆冰精灵,顾名思义,可通过工业摄像机采集的线路覆冰前后图像,通过算法来比较覆冰前后图像的便捷轮廓来预测输电线路覆冰的厚度,了解线路覆冰状态,并且集温度、弧垂、气象、视频等传感
    的头像 发表于 01-18 10:33 261次阅读
    导线<b class='flag-5'>精灵</b>——导线覆冰智能识别监测装置

    小Q精灵微气象产品使用说明

    电子发烧友网站提供《小Q精灵微气象产品使用说明.docx》资料免费下载
    发表于 12-25 09:24 0次下载

    猫精灵诞生记——如何在互联网公司做硬件》宝书读后感

    如下: 三、内容精读 在买第一台猫精灵之前,那时候正在推方糖,好像就几十块吧,我的想法是,猫精灵语音音箱才几十块钱,肯定是粗制滥造,我才不愿意买一个“电子垃圾”回家,结果有一次机
    发表于 11-20 10:59

    猫精灵诞生记——如何在互联网公司做硬件》+消费电子开发实践的指导性书籍

    首先,非常感谢发烧友论坛能够提供本次书籍评测的活动,并及其的有幸能够获得这次评测的机会。 做为猫精灵千万用户的其中一员,深切的感受到猫精灵的快速进步。从2017年上市至今已有超过千
    发表于 10-30 22:37

    百度发布全新AI互动式搜索 简单搜索AI升级

    搜索APP。百度旗下简单搜索17日大升级,简单搜索,首个AI互动式搜索引擎,能听会看,聪明懂你。全新的百度搜索为用户带来全新的搜索体验。回答更灵活、结论更清晰、更懂逻辑。 在简单搜索不管用户输入的问题有多长有多复杂,简单搜索都会竭尽所能直接给你答案;而且用户可以和搜索对话
    的头像 发表于 10-17 12:34 896次阅读

    猫精灵诞生记——如何在互联网公司做硬件》+ 理论结合实践-难得的介绍硬件产品开发的好书(五星推荐)

    前言 一开始看到本书名《猫精灵诞生记——如何在互联网公司做硬件》猜测应该是一本讲互联网项目案例的书,可能就拿来当小说看看即可。直到拿到本书看到目录内容,才发现出乎意料,本书实际是一本干货满满
    发表于 10-11 22:26

    【书籍评测活动NO.22】猫精灵诞生记——如何在互联网公司做硬件

    升级上,更是团队对硬件的一次重新审视。 《猫精灵诞生记——如何在互联网公司做硬件》 主要内容本书系统地讲解了智能硬件开发中的各个子系统,全书共有7章,系统地论述了ESD防护设计、EMI设计、热
    发表于 08-29 14:34

    SZ05-L-PRO-7 顺舟智能 zigbee模组

    支持 待机电流 14mA±1mA BLE协议 支持5.0 传输距离 1000米(可视距离,PCB天线) 通信方式 手机 / 猫精灵 ESD 接触式4KV 发射功率 19 ± 1dbm
    发表于 08-24 14:39

    AI智能鼠标AM50酷炫来袭 搭载讯飞星火认知大模型能听会

    8月15日,讯飞星火认知大模型V2.0正式发布,诸多重磅升级的功能备受众多用户青睐。当天,搭载讯飞星火认知大模型的科大讯飞AI智能鼠标AM50,一经发布,更是直接引爆办公用品市场。 11位办公“助手
    的头像 发表于 08-22 14:12 661次阅读

    小白也能听懂的人工智能原理

    小白也能听懂的人工智能原理  随着科技的不断发展,人工智能已经成为了许多领域的关键技术。相信大家对于人工智能这个词汇都不陌生,但是人工智能是如何实现的呢?本篇文章将会向大家介绍小白也能听懂的人
    的头像 发表于 08-15 16:07 655次阅读

    猫精灵智能眼镜内部结构拆解分析

    猫精灵智能眼镜支持蓝牙5.2,提供稳定的低功耗连接;支持ENC通话降噪技术,通过内置双麦克风拾音,搭配降噪算法,智能降低周围人声、风声等环境噪音。
    发表于 06-07 11:33 731次阅读
    天<b class='flag-5'>猫精灵</b>智能眼镜内部结构拆解分析

    00008 解疑答惑,语音开机不只 #小爱同学,#猫精灵和 #小度小度也是可以的!

    物联网DIY自制DIY
    学习电子知识
    发布于 :2023年05月14日 18:53:46

    esp-01s接入天猫精灵与relay继电器控制电灯

    学习arduino已经两个多月了,第一次动手做了一个天猫精灵控制的台灯,并且记录和分享一下学习的过程,做的不好,有什么不对的地方还请多多指正 这两个模块加起来才10块钱,也不是很贵 首先需要使用esp8266和blinker的库文件,然后在arduino上选择正确的开发板
    发表于 04-28 14:33 0次下载
    esp-01s接入天<b class='flag-5'>猫精灵</b>与relay继电器控制电灯