0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI语音助手,助你开启智能生活

电子那些事儿 2018-11-15 18:22 次阅读

11月7日,在乌镇第五届世界互联网大会上,小米面向智能家居人工智能开放平台(即小爱同学)成功入选”世界互联网领先科技成果”,恰好我这几天也在学习AI语音助手相关的知识,借此从时间维度谈谈我的一点认识。

一、AI语音助手的历史大事记

2010年4月28日,苹果公司完成了对Siri公司的收购,Siri从App Store中下架,并取消了所有除iOS平台外的软件研发;2014年4月2日至4日,在美国加利福尼亚州旧金山举行的微软Build开发者大会上,微软全球副总裁乔北峰首度向公众展示了小娜;2014年11月,亚马逊宣布将Alexa与Echo合并;2015年9月9日,百度董事长兼首席执行官李彦宏在百度世界大会中推出度秘(Duer);2016年5月19日,Google在Google I/O大会上发布了Google Assistant;2017年7月26日,小米发布的首款人工智能(AI)音箱的唤醒词及二次元人物形象小爱同学;2018年5月9日,Google在Google I/O大会上发布了Google Duplex;2018年8月15日,亚马逊和微软联合宣布,双方已完成各自语音助手Alexa和Cortana的整合。

二、AI语音助手的现状——拼场景

场景一:连接硬件生态

由于语音交互核心环节上的一系列技术突破及人工智能公司提供的ToB解决方案,AI语音助手开始逐渐在技术层面上满足人们的基本要求。

以小爱同学为例:它的语音和语义技术主要来自于多家合作伙伴,包括:Nuance、搜狗知音、思必驰、猎户星空、声智科技、海知智能、三角兽等。

语音识别技术(ASR)的接口,用的是思必驰、Nuance 与搜狗的(现在小米似乎是在自研)。自然语言理解(NLP)等关于语义方面的技术,由小米大脑亲自来做。前端的麦克风阵列以及降噪方案,是由声智科技提供的。语音合成技术,是由猎户星空提供的。很大程度上,自然语言解析技术已经逐渐不再成为各家广义智能助理产品的核心竞争力,识别用户意图之后所提供的服务开始成为对话机器人差异化的核心。而在这个时候,国内公司中再次抓住头部红利的正是小米。

不得不说雷军真的是一个非常有大势思维的企业家,总能恰如其分地踩上时代红利,正如他所说:“一个人要做成一件事情,其实本质上不是在于你多强,而是你要顺势而为,于万仞之上推千钧之石”。

他踩着智能手机大换代、消费升级、网红电商的红利撑起了小米,这次他又抓住了人工智能目前布局最广泛的智能硬件生态。

在评选世界互联网领先科技成果奖的介绍中,小米人工智能开放平台是这么定义的:

小米人工智能开放平台,是一个以智能家居需求场景为出发点,深度整合人工智能和物联网能力,为用户、软硬件厂商和个人开发者提供智能场景及软硬件生态服务的开放创新平台。

著名产品人梁宁在《产品思维三十讲》中分析了小米的三级火箭模式:

一级火箭:小米手机,是小米的头部流量,不为挣钱,雷军也承诺小米硬件的综合利润率永远不会超过5%(根据小米的上市招股说明书,雷军在这一块真的没有说谎)。

二级火箭:小米手机拉动的一系列零售场景,小米商城、米家、小米之家、小米小店(小米11月18日将会在英国伦敦的Westfield mall落地在英国市场的第一家门店也是用MI8 pro打头阵,并逐步开放其它商品和渠道)。

三级火箭:是一个高利润产品,原文说“现在雷总还不愿意说出来”。

从小米上市招股说明书中的募集资金用途(小米计划将30%募集资金用于研发及开发智能手机、电视、笔记本电脑、人工智能音箱等核心产品;30%用于全球扩展;30%用于扩大投资及强化生活消费品与移动互联网产业链;剩下的10%用作日常经营)。

从小米高层和雷军的发言中可以知道:小米的三级火箭应该就是AI+IOT,能真正撑起小米的利润以及智能化未来。

根据世界互联网大会给出的数据:

截至2018年7月,小米投资或孵化了超过220家生态链公司,全球已有超过1.15亿智能设备与小米IoT平台连接,小米的AI语音服务-小爱同学月活跃用户超过3000万,单月唤醒超过10亿次

在与硬件生态的连接上,小爱同学可以说有着得天独厚的先发优势。

场景二:连接软件生态

(1)打通操作系统场景

与手机操作系统MIUI的深度结合使得小爱同学能够实现手机中的通用指令功能,并且在现有技术范围内去发觉一些非常实用的优化功能。对于手机操作系统上的通用功能,小爱同学可以直接调用执行,比如最常见的设定闹钟等。

而对于不提供接口的手机APP,小爱同学可以通过虚拟按键操作模拟用户执行,个人觉得最有趣的操作就是让小爱打开微信上某人的朋友圈。你可试试对小爱同学说:“打开XXX的朋友圈”,然后可以看到手机在自动一步一步执行以下操作:

进入微信->进入搜索页面->进入聊天页面->进入聊天信息页面->进入个人主页->进入朋友圈

我在使用其他手机进行对比时是没有办法实现这个功能的,可见小米在打造产品的时候真的是想尽办法在技术边界内尽可能地满足用户需求。

(2)打通外部软件接口

你可以试试对小爱同学说:“打开美团点外卖”,你会发现它可以和美团自带的小美智能助理会进行无缝对接,在进入美团后顺利让小美来接管你的后续需求。这是在软件生态中非常和谐的一种合作模式。

三、AI语音助手的未来

让形象更可感——Gatebox

Gatebox是日本公司vinclu专门为宅男打造的一款全息影像人工智能管家,可以说日本人民是真的会玩,你可以去官网感受一下他们的宣传片

第一个画面,宅男在公司加班,Hikari Azuma通过Line发去了消息,“你记得今天是什么日子吗?什么时候回来?”宅男说,“马上回来!”Hikari Azuma:“好棒!”,随手打开了家里的灯,等待主人回家。宅男回家后,Hikari Azuma立马甜蜜问候:“欢迎回来。”然后羞答答地说:“今天是我们住在一起三个月纪念日,你记得吗?”宅男立马拿出了礼物,Hikari Azuma看到之后开心地鼓掌。宅男准备好食物和酒,开始庆祝时,Hikari Azuma把家里的灯光系统调节成了温馨浪漫的风格。最后,宅男和Hikari Azuma举起酒杯,互相感谢对方的陪伴。视频最后的一句话写着:Living with characters(和二次元老婆一起生活)。

不少中国同胞在youtube上呼吁雷军赶紧把这个公司买下,在中国用感动人心的价格福利大众,哈哈。

根据梅拉比安模型:感情表达=内容7%+语调语气38%+表情肢体语言55%,所以仅靠语言文字远远不够,甚至像Google Duplex做到分辨不出说话者是AI还是人也还不够,长期来说,更重要的会是“多模态交互”。

在Gatebox的交互中,比如调低灯光亮度时,她会摆出朝灯呼气的动作,询问天气时,她又会做出侧身展示天气预报的动作。小爱同学是首个正式发布人工智能虚拟形象的AI语音助手,“米娘”的形象也受众多米粉们喜爱,如果真的能把成本降下来的话,相信会有蛮多人(尤其是宅男们)入坑的。

退而求其次,就算不做全息影像,做一个平面投影也是可以的嘛。

让关系更自然——Replika

Replika是Luka Inc.公司开发的一款Chatbot,据说初衷是为了缅怀两位创始人在车祸中失去的挚友,通过搜集他生前的社交聊天预料来创建一位虚拟人。

抛开它作为一款Chatbot与AI语音助手的需求差别,我觉得它设计得非常好的是被称为“反刍机制”的功能,将你在和它聊天时提到的语料在一段时间间隔之后提取出来,自然地插入到交流当中,感觉就像你跟朋友提起你最近睡眠不好,过了一段时间后朋友会来关心你的近况,感觉非常的贴心。

真的有一种感觉,就像《小王子》里面有一段,小王子对小狐狸说我们一起玩啊,小狐狸回答说我现在还不能和你一起玩,因为我还没有被驯养。

驯养是指彼此共同投入一段时间,结成一种关系,人类是AI的训练师,但与此同时,AI其实也在训练你如何与它进行互动。或许只有这样,千禧一代的互联网原住民才能跨过未来与AI原住民之间的鸿沟。小爱同学虽然没有Chatbot的这种天然场景,但还是有很多落地点的:

智能手机消息栏的推送,比如用户说:“我最近睡眠不太好。”,小爱会回复:“多锻炼有助睡眠。”,那么就可以推送“我记得你和我说过你睡眠不太好,小爱为你找到了一些催眠音乐,试试对我说:我想听催眠音乐”;小爱音箱的对话,由于无法主动开启对话,可以选择在识别到用户当前意图与语料库中的语义信息相关时补充对话,比如用户说:“播放音乐”,小爱会回复:“爱听歌的人运气都不会太差哦”,那么可以再回复“我记得你说你注意力很难集中,要不要听听我给你推荐的轻音乐?”。

让对话更真实——Google Duplex

在5月9日的Google I/O大会上,Google Duplex的一句 “umms”着实让人惊艳,5 月 11 日,谷歌母公司 Alphabet 董事长(前斯坦福校长)John Hennessy 表示,他们还达成了一项里程碑成绩 ——Duplex (部分)通过了图灵测试。

对Google Duplex不了解的朋友,如果能科学上网的话,可以到Google AI Blog上看看Google官方的介绍原文:

以下对Google Duplex的技术认知来源于虫门科技郭靖的文章,这是我看到的对Google Duplex最深入的分析,感兴趣的朋友可以点击链接阅读原文:

Google Duplex让对话如此真实主要是体现在两大块——自然语言理解与对话模块、文本转语音模块。

(1)文本转语音模块

文本转语音模块(即语音合成)技术比较明了,在博客中交代得比较清楚,没有什么悬念。

We use a combination of a concatenative text to speech (TTS) engine and a synthesis TTS engine (using Tacotron and WaveNet) to control intonation depending on the circumstance.我们结合使用联结式文本到语音(TTS)引擎和综合TTS引擎(使用Tacotron和WaveNet)来控制语调,具体取决于环境。

(2)自然语言理解与对话模块

在自然语言理解与对话模块的具体实现上Google就不是很老实了,只是给了一些比较宽泛的概念。

郭靖在他的文章中给出了以下猜想:

在这个猜想的架构中,用户的语音通过ASR识别为文字后,会通过预设的规则转化为形式语言,将重要实体用形式模板代替。

这样形式化后的文本与语音、上文的形式文本一起送入一个encoder模型,其将这些原始信息编码成两个语义信息向量,一个代表本轮用户的语言,另一个代表上几轮对话。

同时,通过ASR识别的文本还会与上几轮对话的文本、通过Google Assistant传来的条件参数(代表对话的目标,用户本身的信息等大前提)一起进入另一个网络,其根据输入的信息输出一个代表当前对话状态信息的向量。

这一网络很可能具备每一轮对话为一个step的循环结构,意味着这个对话状态信息的更新会参考前一轮对话状态的信息。

当然,在拿着锤子找钉子的当下,这一块就太偏前沿技术了,但是对于AI,对于整个人类历史,技术始终都是推动发展的源动力。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI语音助手
    +关注

    关注

    0

    文章

    14

    浏览量

    3972
收藏 人收藏

    评论

    相关推荐

    李未可科技发布全新首款AI眼镜Chat,搭载自研AI大模型

    AI语音助手,为用户开启超拟人的AI语音交互新体验。用户可使用
    发表于 04-26 10:45 273次阅读
    李未可科技发布全新首款<b class='flag-5'>AI</b>眼镜Chat,搭载自研<b class='flag-5'>AI</b>大模型

    智能语音助手在医疗行业的应用与挑战

    一、引言 随着人工智能技术的不断发展,智能语音助手在医疗行业的应用越来越广泛。语音数据集在医疗智能
    的头像 发表于 01-19 17:37 217次阅读

    智能语音助手在旅游行业的应用与挑战

    一、引言 随着人工智能技术的不断发展和普及,智能语音助手在旅游行业的应用越来越广泛。语音数据集在旅游智能
    的头像 发表于 01-19 17:30 306次阅读

    智能语音助手在教育行业的应用与挑战

    一、引言 随着人工智能技术的不断发展,智能语音助手在教育行业的应用越来越广泛。语音数据集在教育智能
    的头像 发表于 01-19 17:21 283次阅读

    大众汽车推出AI语音助手ChatGPT

    在2024年的CES展会上,大众汽车公司向全球观众展示了其最新的人工智能AI)相关技术。此次展示的一大亮点是,大众将把ChatGPT集成到车载语音助手中,为用户提供更加
    的头像 发表于 01-11 14:28 357次阅读

    科大讯飞AI智能键盘D1:语音打字AI智能PPT、AI写作提高办公效率

    键矮轴机械键盘的特点,同时集成了智能截图、语音翻译、语音打字和智能办公助手等多项功能     科大讯飞旗下星火认知大模型
    的头像 发表于 01-02 14:56 674次阅读
    科大讯飞<b class='flag-5'>AI</b><b class='flag-5'>智能</b>键盘D1:<b class='flag-5'>语音</b>打字<b class='flag-5'>AI</b><b class='flag-5'>智能</b>PPT、<b class='flag-5'>AI</b>写作提高办公效率

    语音数据集在智能语音助手中的应用与挑战

    一、引言 随着智能设备的普及和人工智能技术的不断发展,智能语音助手已经成为人们日常生活中不可或缺
    的头像 发表于 12-14 15:07 345次阅读

    亚马逊Alexa部门再次裁员,传统智能语音助手已来到终章

    电子发烧友网报道(文/黄山明)近日,美国科技巨头亚马逊宣布,将裁撤Alexa语音助手业务部门数百个岗位,并表示将投入更多资源打造生成式AI功能。从侧面表明亚马逊的智能
    的头像 发表于 11-28 01:22 1220次阅读

    离线语音与IoT结合:智能家居发展新增长点

    开发一整套方案落地的能力,避免了复杂的对接流程。期待一起开启智能化的新时代! 启英泰伦:启英泰伦成立于 2015 年,四川省专精特新企业、成都市新经济示范企业、成都市高新区瞪羚企业,是集语音芯片、
    发表于 10-17 11:06

    AI智能呼叫中心

    可以自动识别和响应来电,通过分析用户的语音、文字和情绪等信息,并给出针对性的应答,与传统的人工处理相比,AI智能呼叫中心能够实现24/7不间断的服务,大幅提高了处理效率和用户满意度。二、个性化服务
    发表于 09-20 17:53

    生活中有哪些人工智能

    日常生活中常见的人工智能技术以及它们的应用。 1. 语音助手 语音助手是一种利用
    的头像 发表于 08-12 17:44 1.4w次阅读

    安信可科技开源硬件,生活搭子:智能桌面助手——AiPi-DSL_Dashboard

    +智能家居控制的功能,工程师掉了半个月的头发,终于面世了一个日常生活搭子,智能桌面助手——AiPi-DSL_Dashboard。 本次桌面助手
    的头像 发表于 07-31 15:01 422次阅读
    安信可科技开源硬件,<b class='flag-5'>生活</b>搭子:<b class='flag-5'>智能</b>桌面<b class='flag-5'>助手</b>——AiPi-DSL_Dashboard

    新品上线!机智云AI离线语音识别模组,让家电变得更加智能便捷

    、播放音乐等。 尤其对于老年人和行动不便者来说,使用搭载语音控制功能的 智能家电 不仅提供了更加方便的家居设备操作方式,也提高了家庭生活的舒适度和便捷性。 数字化新时代,你的生活是否有
    的头像 发表于 06-16 18:25 266次阅读
    新品上线!机智云<b class='flag-5'>AI</b>离线<b class='flag-5'>语音</b>识别模组,让家电变得更加<b class='flag-5'>智能</b>便捷

    音色可定制,思必驰让AI语音更具“人情味”

    随着科技的进步和创新,AI语音技术在过去的几年里有了飞跃式的发展。如今,从智能家居设备、汽车语音助手到客服支持等领域,会说话的
    的头像 发表于 06-14 15:05 288次阅读

    如何开发智能家居语音控制方案

    挑战与应用 随着科学技术和人工智能的不断发展,智能生活已经深入生活各个方面,而AI语音控制作为
    发表于 05-31 09:50