0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

天猫精灵大升级 搭配“火眼”变得能听会看

454398 来源:网络整理 2018-03-28 09:52 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

智能音箱从能听到会看,多模态交互将成为趋势。

8 个月时间,在天猫精灵 X1 智能音箱从发售到销量 200 万后,阿里巴巴人工智能实验室举行了 2018 年的第一场发布会(3 月 22 日),而这一次发布的核心产品,有点出乎大家意料。

用一个 49 元的手机支架,和几乎人人都有的智能手机,天猫精灵进行了一次变身,不但变得比以前更加聪明,还拥有了全新的“多模态感知系统”。作为 2017 年的行业黑马,本次发布会上让人激动的这件新品不再是硬件,而是重量级的系统升级——AliGenie 2.0,我们不妨先来看看这段官方视频演示:

AI 变奏曲:智能音箱从能听到会看

毫无疑问,当天发布会上的主角正是阿里巴巴人工智能实验室的 AliGenie 2.0,它加入了最新的 AI 视觉系统,并尝试去融入更多情感操作。阿里巴巴人工智能实验室负责人浅雪称之为“天猫精灵火眼”。和去年 7 月推出的 AliGenie 1.0 最大的不同在于,2.0 版本从原本能听能说,变成了如今的能看能听能说。

能看是系统升级的重点,“从触觉到听觉,再到视觉,最后是情感反馈,多模态交互是 AliGenie 2.0 的核心”,对于此次系统升级,浅雪认为它最大的不同是人机交互的变化,尤其是因此产生的与众不同的用户体验。

阿里巴巴人工智能实验室负责人 浅雪

搭载“火眼”的天猫精灵,在原本的天猫精灵 X1 上增加了一个手机支架,通过把手机连接到天猫精灵 App,手机屏幕出现了一只可以交互的“天猫”,通过手触摸,它可以简单和人互动。

这只“宠物猫”拥有 AI 识图能力。依靠手机前置摄像头,天猫精灵有了能“看懂”周围事物的“眼睛”,它可以识别 2D 和 3D 信息。具体来说,有三个重要能力加入。

第一,当你手拿儿童故事书,或者识字卡靠近,询问天猫精灵“这是什么”时,它可以“看到”并立即为你朗读卡片和故事书的内容。

其次,通过连接阿里健康的数据信息,天猫精灵有了“判断”药品的能力,可以迅速识别 40000 种中国家庭常用药。当你手拿药品盒子在手机摄像头前询问时,这只“猫”会手拿药盒,告诉你它的名称,功效甚至有效周期。

第三,同时也是最让人惊讶的能力,天猫精灵具备了基础的 3D 图像识别的能力。当手持蔬菜、水果等物品靠近摄像头询问时,它可以很快告诉你这是什么物品。

和前两种的 2D 图像识别不同,3D 识别物体要做到的是不论你用何种角度拿着物品靠近摄像头,它都能判断出物体是什么,按照产品总监释空的解释,这(难度)要比 2D 识别大得多。

因为 3D 识别不仅在考验系统对周围环境光线的适应、同时也要对你手持物体角度进行准确把握,还要有足够的数据信息可以搜寻出物体。比如在你拿着一个已经发霉变色的西兰花时,要想被识别出来,就必须知道这还是西兰花,这对于机器来说并不容易。所以目前,天猫精灵能识别出的蔬菜水果不多,只有几十种,但这种能力却对于将来识别更多物品(包括商品),甚至于人脸都具有重要意义。

此外,发布会很重要的一部分在于天猫精灵的边界扩展,看到前面几个功能也许有人能猜到,阅读故事书,教人读书写字,这是面向儿童的能力。而帮你识别药品,告诉你药品功效,再告诉你还有多久会过期,这是更贴近老人的能力。

因此天猫精灵不但联合了国内 12 家少年儿童出版社,对市面上 117 套儿童读物以及绘本进行了有声读物化,还将通过马云公益基金会将天猫精灵带到更多偏远地区,为当地学校教育以及儿童陪伴问题提供新的解决思路。

尽管发布会还另外带来了阿里巴巴人工智能实验室的路由器、投影仪以及迷你版天猫精灵,但最核心的主角无疑就是全新升级的 AliGenie 2.0 系统。这不由得令人好奇,当国内外厂商纷纷升级了带屏幕的智能音箱时,为何阿里巴巴选择了这样一个“非常规”的升级方式?不是通过卖新的产品,而是用 App 和用户自己的手机,这样一个更加“软着陆”的方式来使用新产品(也是新系统)呢?

殊途同归的多模态交互

一个现状是,带有屏幕的智能音箱价格与人们期望存在差距。市面上带屏幕的智能音箱,少则近千元,多则数千元。可以说在目前阶段,当用户考虑用数千元买一个带屏幕的智能音箱时,他们会犹豫,并会和一些其它成熟产品(如 iPad 等)比较其是否值得?

这也是摆在包括浅雪在内的团队成员面前同样的问题,因此需要考虑的就是:如何用极低的成本,尽量做到现阶段能实现的最优体验?团队内部对此曾出现过分歧,用释空的说法,最终他们认为,由于目前阶段带屏幕的智能音箱产品不具有足够的议价,因此就做出了用手机来完成这些的方案。

这让人想起了谷歌在 VR 推进早期曾大力推行的产品“CardBoard”。

纸板做的廉价 VR 眼镜——Google CardBoard

在 VR 产业刚刚起步阶段,市面上 VR 产品不但价格贵,体验也并不优秀,于是谷歌采取了用廉价纸盒做 VR 眼镜的策略,满足了大家在好奇期的想法,并成功向大众普及了 VR 这一概念,这种方式不得不说是有其必要性的。

“我们最关注的事情是如何让每个用户用最低的成本入门就能完全体验。”浅雪说,这种观点最终指向的目标是给每个人做有用有价值的人工智能,所以尝试出这样的方案在意料之中。

但在大方向上,智能音箱不应该仅仅只有语音交互,应该是语音、视觉、情感多模态交互的观点,这却是 AliGenie 系统,乃至整个智能音箱领域目前达成的一个基础共识。

的确,智能音箱优点很多,但尝试过的用户都会认为它不够完美,声音交互的特性让它在很多场景中不够灵活,而要解决这个问题,利用屏幕也许是一个途径,今年开年来,伴随 CES 2018 展会,我们见到了国内外众多带有屏幕的智能音箱,谷歌甚至组建了一个“Smart Display”联盟,想要让这一趋势迅速蔓延开来。

从左到右,LG、联想、JBL 的 Smart Diaplay 产品

在浅雪看来,阿里人工智能系统 AliGenie 2.0 系统升级,它的“能力比一块屏幕更重要”。目前阶段下,通过一个 App 和手机就能体验到的事情,既能让用户拥有更好的心理预期,又能在吸取经验进一步打磨未来产品,这样的尝试能让更多用户理解,有了屏幕交互的智能音箱不同于 iPad,语音控制和屏幕触控也不是互相替代,而是互补关系。

一旦有了这种体验,大家就会发掘出自己真正需要的到底是怎样的智能音箱。如发布会现场演示的功能一样,教育儿童,可以通过看到卡片和图书来给孩子讲故事;帮助老人,可以通过看到药品盒子就说出功能功效和截止日期。这种轻度体验能在生活中慢慢培养人们对于智能音箱的新的认知。

如果说 2017 年是国内智能音箱竞赛元年,那么站在赛道上的阿里巴巴无疑通过双 11 的 100 万台销量成为了行业黑马。而随着 AliGenie 2.0 的推出,2018 年人工智能产品将更具扩展性,多模态,让人更自如的交互无疑将成为接下来各大厂商关注的重点。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6245

    浏览量

    110270
  • vr
    vr
    +关注

    关注

    34

    文章

    9692

    浏览量

    156610
  • 智能音箱
    +关注

    关注

    31

    文章

    1794

    浏览量

    80544
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    移远通信 × 实丰文化:让玩具能听会说,更懂情绪!

    你是不是也曾遇到过这样的智能玩具?互动时反应慢半拍,网络一差就“卡壳”,陪伴方式枯燥单一,孩子玩几次就失去兴趣……别急,新一代智能AI玩具正悄悄“进化”:不仅能听会说,更能感知情绪,成为孩子身边真正
    的头像 发表于 11-04 19:04 274次阅读
    移远通信 × 实丰文化:让玩具<b class='flag-5'>能听会</b>说,更懂情绪!

    联想重磅升级禧AI一体多端

    2025年10月31日,AI有凌犀 赫然心动——联想禧AI一体多端秋季新品超能之夜在北京联想全球总部举办。联想描绘了禧AI的全景规划,重磅升级发布禧个人超级智能体3.5。联想品牌
    的头像 发表于 11-04 11:35 589次阅读

    【 蓝牙模组】安信可模组TG-12F/TG-01M:AT指令入门教程 &amp;接入阿里飞燕/猫精灵平台

    是小写的MAC地址) 3.6数据上报下发 四、接入 猫精灵平台 五、相关资料 01、产品介绍 TG-12F/TG-01M模块采用猫精灵TG7100C芯片,TG7100C 是智能新一
    的头像 发表于 10-23 10:15 213次阅读
    【 蓝牙模组】安信可模组TG-12F/TG-01M:AT指令入门教程 &amp;接入阿里飞燕/<b class='flag-5'>天</b><b class='flag-5'>猫精灵</b>平台

    讯飞星火电脑版全新升级

    聚焦垂直场景,一口气全新升级了“AI写作、解题答疑、AI阅读、深度研究”等实用功能。同时,全新的简洁流畅界面,搭配丝滑顺手操作体验,为你搭配一个“有颜有才”的AI伙伴。
    的头像 发表于 09-10 15:40 530次阅读
    讯飞星火电脑版全新<b class='flag-5'>升级</b>

    合储能智能集成工厂全新升级

    近日,合储能智能集成工厂顺利完成升级改造。合光能全球产品总裁兼合储能总裁倪莉莉、合光能全球营销总裁杨豹及多位领导代表出席落成仪式,共
    的头像 发表于 08-04 17:07 971次阅读

    输电线路观冰精灵在线监测装置:科技赋能电网安全的新利器

    输电线路观冰精灵在线监测装置通过多源感知、AI算法与远程通信技术的深度融合,实现了覆冰监测从“人工巡检”到“智能防御”的跨越式升级。其高精度、全地形覆盖、低运维成本的特点,为电网安全运行提供了坚实保障,是智能电网建设与“双碳”目标下绿色能源发展的重要技术支撑。
    的头像 发表于 07-25 15:46 416次阅读

    AI耳机变身翻译官+会议总结大师?涂鸦AI音频开发方案,让耳机升级到下一个level

    交流及日常生活等多类场景,妥妥的人类新型“智能听觉中枢”!为了助力开发者/品牌商快速开发能听会说的AI音频类设备,涂鸦重磅发布AI音频转录总结方案,覆盖耳机、录音设
    的头像 发表于 07-10 18:47 1485次阅读
    AI耳机变身翻译官+会议总结大师?涂鸦AI音频开发方案,让耳机<b class='flag-5'>升级</b>到下一个level

    未来工厂的“火眼金睛”:熔池相机如何赋能智能制造升级

    未来工厂装上“火眼金睛”,引领焊接智能化升级新方向。 实时监控,焊接过程可视化 创想智控熔池相机具备高动态范围成像能力,即使在强烈弧光和飞溅干扰下,也能清晰捕捉熔池、焊缝、焊丝等关键图像,实现对焊接过程的可
    的头像 发表于 07-07 16:40 381次阅读
    未来工厂的“<b class='flag-5'>火眼</b>金睛”:熔池相机如何赋能智能制造<b class='flag-5'>升级</b>?

    OPPO Reno14系列搭载MediaTek玑8450移动芯片

    搭配 7 核 GPU Mali-G720 与玑星速引擎的双重加持,进一步提升能效表现,高性能持续输出,也能保持稳稳低功耗。此外,Reno14 Pro 还配备潮汐引擎与游戏低时延引擎,实现游戏体验全方位升级,弱网也流畅,专治宿
    的头像 发表于 06-30 16:55 2387次阅读

    2025科大讯飞智能交互产品升级发布会定档

    从命令行到图形界面,从触屏操作到语音助手,技术浪潮重新定义人机交互的边界。当大模型的智慧涌现,机器从“能听会说”真正走向“能理解会思考”,那么未来交互的新范式将是什么?
    的头像 发表于 06-11 17:12 1052次阅读

    输电线路的“智慧之眼”——观冰精灵守护电网安全

    观冰精灵,又称覆冰精灵或导线精灵,是一种专门用于监测和识别输电线路覆冰情况的智能识别监测装置。它通过工业摄像机采集线路覆冰前后的图像,利用先进的算法比较图像边界轮廓,精准预测输电线路覆冰的厚度,让运维人员及时了解线路覆冰状态。
    的头像 发表于 06-09 11:41 577次阅读
    输电线路的“智慧之眼”——观冰<b class='flag-5'>精灵</b>守护电网安全

    智能交互新突破:NRK3502语音芯片如何让制氧机“听懂人话”?

    开关”“紧急求助难”等问题频发。   广州九芯电子推出的NRK3502语音识别芯片,以“低功耗+高精度+强抗噪”为核心,赋予制氧机“能听会说”的能力,真正实现“动口不动手”的智能交互体验。 二、专为医疗设备而生的“语音大脑
    的头像 发表于 03-07 14:41 534次阅读
    智能交互新突破:NRK3502语音芯片如何让制氧机“听懂人话”?

    猫精灵与夸克团队携手设计AI眼镜

    近日,阿里巴巴集团内部的智能互联事业群迎来了新的管理变革,由总裁吴嘉正式接管这一关键业务板块。作为阿里巴巴面向广大消费者的重要硬件业务之一,“猫精灵”将继续保持其独立运营的特色与优势。 在当前快速
    的头像 发表于 01-20 10:28 2453次阅读

    阿里AI To C业务调整:猫精灵与夸克融合,探索AI眼镜

    近日,阿里集团内部进行了一次业务调整,智能互联事业群正式由智能信息事业群总裁吴嘉接管。智能互联事业群是阿里在2022年成立的一级业务部门,其核心品牌为猫精灵,是阿里内部为数不多的面向消费者的硬件
    的头像 发表于 01-17 10:16 1144次阅读

    力合微PLC合作生态2024年度大会在深圳成功召开

    、应用、落地,探索和交流2025年以及未来的规划和发展。居然智家、猫精灵、腾讯云、小米、A.O.史密斯、创维、TCL、西顿、浪潮、中海智能、金云智联、一维、数字动力、
    的头像 发表于 12-17 15:22 1120次阅读
    力合微PLC合作生态2024年度大会在深圳成功召开