0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌推出电话AI系统Google Duplex

zhKF_jqr_AI 来源:未知 作者:胡薇 2018-05-22 10:24 次阅读

谷歌I/O 2018正如火如荼地进行着。今年大会吸引了超过6000人前来现场,除了提前几小时就排好的长队,会场外的交通也早早陷入瘫痪。据不少勤奋早起的自媒体同行的凌晨报道,谷歌I/O 2018的亮点主要有以下几个:

深度学习在医疗领域的应用;

Google Assistant:看得见、听得到、会对话、会打电话的新一代谷歌个人助理;

TPU 3.0:性能是TPU 2.0的8倍;

Android P:智能化的手机操作系统,能利用机器学习节电、调节亮度,更大程度贴合用户使用习惯。

其中,Google Assistant电话功能背后的技术是Google Duplex,在大会上发布完毕后,Google AI(原Google Research官博)就发表了Google工程副总裁兼首席工程师Yaniv Leviathan的一篇介绍文章。

Gmail已成“精”

以下是论智对博客的编译。

人类与计算机互动的一个长期目标是使人们能与计算机自然对话,就像普通人之间的对话一样。近年来,特别是随着深度神经网络的广泛应用,我们目睹了计算机在理解、生成自然语言上的“革命性”能力提升。但尽管如此,即便是当今最先进的AI系统,它还是不能很好地理解自然语言。举个例子,如今自动电话客服系统所使用的技术还停留在努力识别简单的单词和命令上,它们不参与对话流程,如果听不懂客户说话内容,它们会强制要求对方调整表述,而不是进行自我调整。

所以今天,谷歌宣布推出Google Duplex,一种能在电话中用自然语言完成“现实世界”任务的技术。它目前已经能完成一些特定任务,如安排某些类型的预约。这类工作要求系统能做到自然对话,就像人与人正常沟通一样,而无需强制对方适应机器。

Google Duplex的适用空间非常狭窄,这也使它能起作用的一大原因。研究人员提出的一个关键思路就是把它限制在一些狭窄的封闭域中,让AI进行有限地广泛探索。当Duplex深度某领域后,它才能学会自然对话,也就是说,它不能进行一般对话。

听起来都很自然,它们都是发生在计算机和真人店家之间的对话。

Google Duplex技术的自然性可以让人们的对话体验更加舒适。考虑到谷歌向来很重视用户和企业对服务的良好体验,因此产品的透明度非常关键。这也是本文反复强调Google Duplex目前只适用于部分预约场景的原因。

进行自然对话

AI在自然对话方面有几个难点:一是自然语言难以理解,二是难以模仿自然行为,三是用户期待更快的回应,四则是用合适的语调生成自然的声音很困难。

当人们彼此交谈时,他们说出的话比人和计算机的对话要复杂得多。他们会经常在话说到一半的时候纠正表述,而且往往表达得啰嗦、语法不严谨、严重依赖上下文。他们还喜欢用宽泛的表述,有时在一个句子里就能连用一大串:

所以……额……星期二到星期四,我们的开门时间是11点到14点,然后16点到19点。然后星期五、星期六、星期天,我们……星期五和星期六我们11点到21点开门,星期天我们13点到21点开门。

比起机器,人类在用自然语言对话时语速非常快,再加上口齿不清、错词率更高,因此常规的语音识别也会识别困难。在电话通话中,由于背景噪声大,音质不佳,这样的问题就更严重了。

而在较长的谈话中,相同的句子可以根据上下文具有非常不同的含义。例如在预约场景下,“Ok for 4”可以同时表示时间(4点)和人数(4人)。如果AI要理解这一点,它必须上溯几个句子找根据,但这一过程会因为电话通话高水平的字错误率而变得相当复杂。

决定要说什么是一个关于对话任务和对话状态的函数。此外,围绕自然对话,Google Duplex也参考了一些常见的做法——其中包括阐述(elaboration,“下周五。”“啥时候?”“下个礼拜五,18号!”)、同步(sync,“你听得清吗?”)、中断(interruption,“号码是212……”“你能再说一遍吗?”)、暂停(pause,“你能等一会儿吗?”[等待]“谢谢!”——等待1秒和等待2分钟含义不同)。

认识Duplex

Google Duplex在对话上的自然表现主要归功于这4方面的进步:理解、交互、时机和交流。

它的核心是一个专用于解决自然对话问题的递归神经网络(RNN),在TensorFlow Extended (TFX)平台上完成构建,使用的训练数据来自匿名电话会话数据语料库。该网络有多个输入,包括原音频特征、把原音频输入Google自动语音识别(ASR)技术后的输出、上下文、对话的参数(例如预约的所需服务或当前时间)等,研究人员为每种任务分别训练了一些模型,但语料库是跨任务共享的。最后,他们又用TFX中的超参数优化进一步改进了模型。

原音频经ASR系统处理后输入网络,网络最终的输出经TTS系统转为音频

Duplex处理“中断”、“阐述”以及对“同步”的回应:

听起来很自然

Google Duplex组合使用文本到语音(TTS)引擎和综合TTS引擎(使用Tacotron和WaveNet)控制语调。

由于在对话中加入了“嗯”“呃”等词汇,系统的回应听起来更自然。但这其实是TTS连接两个音调不同的声音或正在等待合成时使用的小障眼法,是一种自然的表示问题正在受理中的状态(人们也经常这么做)。经过用户研究,研究人员发现这种反应能在不利的对话情景下给对方带来熟悉、自然的感觉。

此外,Google Duplex在回应速度方面也比较符合用户期望。当人们说完一件简单的事后,比如“hello?”,他们希望得到及时的回复,对回复延迟也比较敏感。如果系统检测到这种情况,它会马上切换成更快、精度更低的模型来工作。在极端情况下,Google Duplex甚至都不会调用RNN,而至直接使用最快的近似值(通常会带各种表示犹豫的词汇,人类面对这种事情也会有类似的反应)。这种做法使系统的响应延迟能小于100毫秒。

有趣的是,研究人员发现,这种表达上的拖延有利于使对话更自然——例如在回复一个非常复杂的句子时,这种“呃呃啊啊”的做法有奇效。

系统操作

Google Duplex系统能够应对复杂对话,并且能完全自主地完成绝大部分任务,无需人工干预。该系统具有自我监控功能,可以识别无法自动完成的任务(例如,安排异常复杂的预约)。面对这种情况时,它会主动向施令者发出信号

为了在新领域训练系统,研究人员使用的是实时监督训练。和其他训练任务一样,在这些实验中,Google Duplex也会有一个充当“教师”的经验丰富的模型为充当“学生”的模型提供指导,确保后者执行任务的的水平最终能和自己一致。通过监督“学生”在新场景通话中的表现,“教师”能根据需要实时影响“学生”的行为,直到它的行为满足系统预期。

对于企业和用户

经常需要预约的企业可以从Google Duplex身上获益,有了这样一个智能助理,企业就无需额外安排指导人员,也不用为培训员工煞费苦心。Google Duplex还能提醒即将到期的预约项目,方便他们参加、取消或重新安排。

此外,一些用户会经常致电企业查询网上无法获得的信息(假期营业时间)。Google Duplex可以帮助企业应付这些同类电话,并在网上及时更新信息。

对于个人用户,Google Duplex可以让生活更方便。如果想打预约电话,他们只需给智能助理下指令就能安心处理其他事情,通话过程在后台进行,安静无声,无需参与。

它的另一个好处是Duplex能够以异步方式与服务提供商进行授权通信,例如,在非工作时间和对方联络。它还可以帮助解决残障人士的不便和语言障碍问题,例如听力障碍的用户或不会说当地语言的用户可以把通话任务交给Duplex,让它帮忙执行任务。

今年夏季,谷歌将在Google Assistant中测试Google Duplex,届时它的功能包括预约餐厅、预约美发和跟老板请假。

Google Duplex负责人Yaniv Leviathan和该项目的工程经理Matan Kalman通过Duplex打电话预订了一顿饭

让人们和技术能自然而然地互动,这是谷歌长久以来的承诺,而Google Duplex向这个方向迈出了第一步。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    5866

    浏览量

    103292
  • AI
    AI
    +关注

    关注

    87

    文章

    26487

    浏览量

    264152

原文标题:Google Duplex:真假难辨的电话AI系统(附音频)

文章出处:【微信号:jqr_AI,微信公众号:论智】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    Google Cloud推出基于Arm Neoverse V2定制Google Axion处理器

    Arm Neoverse 平台已成为云服务提供商优化其从芯片到软件全栈的心仪之选。近日,Google Cloud 推出了基于 Arm Neoverse V2 打造的定制 Google Axion 处理器,面向通用计算和人工智能
    的头像 发表于 04-16 14:30 316次阅读

    谷歌发布Axion新款数据中心AI芯片,性能超越x86及云端

    谷歌预计将通过Google Cloud提供Axion AI芯片给客户。谷歌强调这款基于ARM的CPU产品具有优越的性能表现,甚至超越了传统的x86芯片及云端通用ARM芯片。
    的头像 发表于 04-10 16:32 483次阅读

    谷歌推出能制作旅行攻略的AI工具

    谷歌近日发布了一项令人瞩目的新功能,它是一款能够借助自然语言对话帮助用户生成旅行行程和出游建议的AI工具。这款工具的推出,标志着谷歌在人工智能领域的又一重要突破。
    的头像 发表于 03-29 11:08 291次阅读

    谷歌模型软件有哪些功能

    谷歌模型软件通常指的是谷歌推出的一系列人工智能模型和软件工具,其中最具代表性的是Google Gemini。Google Gemini是
    的头像 发表于 03-01 16:20 213次阅读

    谷歌模型合成软件有哪些

    谷歌模型合成软件通常指的是谷歌提供的用于创建、修改和共享3D模型的软件。目前,谷歌推出的模型合成软件中最知名的是Google SketchU
    的头像 发表于 02-29 18:20 901次阅读

    谷歌模型合成工具怎么用

    谷歌模型合成工具主要是指Dreamfusion,这是Google的大型AI图像模型Imagen与NeRF的3D功能相结合的一种技术。Dreamfusion是Dream Fields的演变,Dream Fields是
    的头像 发表于 02-29 17:33 397次阅读

    谷歌测试搜索新功能:帮用户减少等待接通客服时间

    根据谷歌的详细说明,当用户在Google搜索客服电话信息后,会在结果页面找到“Request a call”图表,提供了深入通信的意图和电话号码的填写位置。
    的头像 发表于 02-19 13:51 158次阅读

    谷歌AI聊天机器人改名为Gemini

    谷歌(Google)近日宣布,旗下备受瞩目的AI聊天机器人Bard正式更名为Gemini,并推出了一款功能更加强大的付费版本——Gemini Advanced。这一战略调整旨在与微软、
    的头像 发表于 02-18 11:28 537次阅读

    谷歌推出AI扩散模型Lumiere

    近日,谷歌研究院重磅推出全新AI扩散模型Lumiere,这款模型基于谷歌自主研发的“Space-Time U-Net”基础架构,旨在实现视频生成的一次性完成,同时保证视频的真实性和动作
    的头像 发表于 02-04 13:49 599次阅读

    谷歌发布全新AI SDK,简化安卓应用集成

    谷歌破茧而出,全新发布 Google AI SDK,引领 Android 应用迈向高性能 AI 集成新时代。这次发布的 SDK,专门为 Android 应用打造,将 Gemini Pr
    的头像 发表于 01-03 14:18 346次阅读

    Imagen 2 现已在 Vertex AI 上全面推出

    以下文章来源于谷歌云服务,作者 Google Cloud Vishy Tirumalashetty Google Cloud AI 生成式媒体产品主管 今天我们将与大家分享 Image
    的头像 发表于 12-22 10:10 176次阅读
    Imagen 2 现已在 Vertex <b class='flag-5'>AI</b> 上全面<b class='flag-5'>推出</b>

    Google Cloud 推出 TPU v5p 和 AI Hypercomputer: 支持下一代 AI 工作负载

    以下文章来源于谷歌云服务,作者 Google Cloud Amin Vahdat ML、系统与 Cloud AI 副总裁/总经理 Mark Lohmeyer 计算与 ML 基础设施副总
    的头像 发表于 12-13 16:05 236次阅读
    <b class='flag-5'>Google</b> Cloud <b class='flag-5'>推出</b> TPU v5p 和 <b class='flag-5'>AI</b> Hypercomputer: 支持下一代 <b class='flag-5'>AI</b> 工作负载

    谷歌云与 NVIDIA 扩大合作,共同推进 AI 计算、软件和服务的发展

    日 — 谷歌云(Google Cloud)与 NVIDIA 于今日宣布推出全新 AI 基础设施和软件,帮助客户构建和部署用于生成式 AI
    的头像 发表于 08-31 13:05 456次阅读
    <b class='flag-5'>谷歌</b>云与 NVIDIA 扩大合作,共同推进 <b class='flag-5'>AI</b> 计算、软件和服务的发展

    谷歌DeepMind用AI改进数据排序

      人工智能研究所谷歌Google DeepMind推出了三种ai工具AlphaZero、MuZero、AlphaDev,这些工具提高数据中心的资源利用率,提高视频压缩效率,更快的算法
    的头像 发表于 06-09 10:30 686次阅读