0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

为什么说图灵测试不适合做产业数智化基准

脑极体 来源:脑极体 作者:脑极体 2020-11-24 11:43 次阅读

临近岁末年初,各大科技厂商都卯着劲儿相继发布新技术、新产品,其中,一场关于“新图灵测试”的探讨,及其所打开的广袤空间,就成为业内热议的对象。年中的2020 智源大会上,京东集团技术委员会主席、京东智联云总裁、京东人工智能研究院院长、IEEE Fellow 周伯文,在与斯坦福大学教授、人工智能实验室负责人克里斯托弗·曼宁(Christopher Manning)的对话中,提出了图灵测试的“替代方案”。

而前不久的CIIS2020上,京东将多模态内容生成、多轮对话等AI技术,与智能交互机器人流程自动化(RPA)相结合,打造出能够适配千变万化的消费者需求和服务产业复杂业态的智能交互技术体系。不仅让“新图灵测试”成为可能,也让我们看到了AI与RPA结合的“京东思路”,正在从决策到管理、执行的联动,给产业数字化带来的全新发展机遇,正逐步清晰地浮现在我们眼前。

一种悖论:为什么说图灵测试不适合做产业数智化基准

图灵测试(The Turing test),是人工智能领域的基础名词,艾伦·麦席森·图灵在1950年预测,到2000年人工智能可以在5分钟的问答中骗过30%成年人。那么,发展了数十年的AI到底有没有达到图灵的预测标准呢?伴随着GPT3、BERT等大规模、高性能的算法出现,AI不仅能写诗绘画讲故事,甚至还能模仿客服给消费者打营销电话,骗取人类信任……看起来似乎已经达到了预测中的水平。

但究其本质,图灵的预言其实指向一种具有真正智能的机器的可能性,意味着人类能够打造出具备思考能力的机器。2014年人工智能软件尤金·古斯特曼(Eugene Goostman)通过了图灵测试,被认为具有人类智能,但实际上,这位“尤金”还远远不能思考。这种表与里的悖论,让图灵测试作为智能的评测基准(Benchmark),在落地产业AI化过程中存在两个待解的问题:

一是无法量化。尽管目前许多算法可以通过图灵测试,但这一评测基准对AI应用落地产业没有直接帮助和参考。因为图灵测试没有规定问题的范围和提问的标准,跟人类进行随机的、无特定内容对话的交流。要评价一个AI系统的智能程度,就如克里斯托弗·曼宁教授在会议中所提到的那样,“需要找一个另外的方法,标量真正的理解、真正的持续对话”。

图灵测试的第二个问题,则是无法检验AI系统在产业应用的效率。在产业智能化进程中,AI往往需要被用来解决具象的问题,比如帮助零售商与消费者流畅地沟通,这就要求其具备一种“宽泛的心理能力”,需要调动意图感知、语音识别、语义分析、内容生成等等具体能力,而这都是图灵测试无法具体评测到的。从这个角度看,寻找新的评测标准,是AI走进社会化大生产之后水到渠成的产业需求。

一个可能:AI+RPA如何打开新图灵测试的天地

既然图灵测试并不能满足产业应用AI时的评测需求,所以周伯文才会提出一个很新颖的概念,直接让两个对话型 AI 做直播带货,通过统计以每小时能卖出多少商品的可量化指标,来对比哪个 AI 的对话更吸引人,从而评估对话型 AI 的智能化水平。这个创意,在CIIS 2020上就变成了现实。周伯文在现场分享了这个进阶版的“带货测试”:

京东对数以亿计SKU进行卖点挖掘,自动生成文案、背景音乐、虚拟形象,再配上咨询导购客服,整套服务可以自动化地生成每件物品的专属主播介绍,与观众用弹幕和语音实时交流,答疑解惑,把直播产业以规模化、自动化的方式推广到亿级的播放和商品销售上去。

要完成这一实时、可量化的智能交互,需要的技术是非常多面的。首先需要利用深度学习神经网络和知识图谱对物品资料进行识别和理解,然后系统根据多模态数字内容生成技术,可以自动生成一个精彩的解说词,自动挖掘卖点、自动生成销售文案、生成语音背景和音乐,还会为每个消费者生成独特的虚拟形象,再利用京东TTS语音驱动虚拟主播进行讲解。

举个例子,当消费者跟智能客服或智能主播对话时,用文字表达自己的困惑“我想找一件黄色的、有波浪边的轻薄连衣裙”,多模态智能对话可以快速将这些文字以图像化的形式表达出来,将符合要求的图片呈现出来,同时,主播还会活灵活现地向消费者介绍“裙摆可以像风一样摆动哦~”解说过程中,根据消费者的实时弹幕,系统需要快速根据上下文多轮对话策略进行内容识别、意图感知,来实时调整自己的讲解节奏、内容、情绪。

令消费者缩短无效观看时间,与主播一对一交流;同时也可以让众多商家低门槛、自动化地用直播方式带货。AI主播还可以进一步收集消费者的问题与困惑,及时地反馈给商家进行迭代和优化,等于拥有了一个零售顾问。京东平台的实践数据显示,目前该技术已经在好货频道、社交电商、售前导购机器人京小智、搭配购、什么值得买APP等生成了5000万个素材,其中AI素材曝光点击率是人工素材的1.4倍。让机器更懂人心、更会说话,这正是京东将AI+RPA融合之后的智能服务所带来的魅力。

顺着“带货主播”模式开始延伸,我们可以看到作为“新图灵测试”背后的技术组合——AI+RPA到底与传统的智能体有哪些不同?首先,同样是人与机器的交互,AI+RPA的效果可以量化,支撑产业端的运营、管理、决策。比如对话型 AI 做直播带货,可以在与消费者的对话中不断自我学习进化,在垂直领域变得更具智能感,输出更吸引人的内容。

其次,AI+RPA的协同赋予了自动化服务以自主判断、决策、推理能力,设计了具体而清晰的协作任务,如同一个智慧的大脑突然具备了四肢和行动能力,其中AI作为大脑可以提升系统的服务效率,独立承担起一些简单、重复的工作。最后也是最重要的,AI+RPA背后的核心逻辑与技术体系有着很强的泛化能力,在服务业数智化转型中的许多流程中都有着清晰的价值体现。

执行层将服务员、客服等一线员工从重复中解放出来,帮助他们提升工作效率;管理层,抽离出有用的信息,利用逻辑推倒实时分析业务变化;最后形成直观的可视化报告或数据图,帮助决策层提升决策效率。比如基于京东在智能交互RPA和数据智能领域的积累,京东智联云所打造的“咨询大脑”,就被用来构建城市咨询智力中心,可以提供涵盖民生、政务服务、精细化管理、公共安全等多个领域的服务。

从智能交互出发,可以清晰地看到服务业的迭代路径与可行性。这也是为什么,周伯文会说,这种任务导向型对话智能(Task-oriented Conversational Intelligence)将带来人机交互技术驱动的万亿级市场。

三方突围:京东如何破解服务业数智化的三重困境

在CIIS2020上,周伯文表示,产业数字化是传统行业利用AI等新一代信息技术提升效率,而服务业涉及非常多的行业,如金融、教育、电商、物流,数字化和智能化水平并不一致。接下来应该是人和AI协作的深化,进一步提升服务的效能。这是智能时代科技企业的增长密码,也是京东努力的核心方向。

目前来看,服务领域的数智化存在三重难题:

一是服务业的重塑之难:很多现有的标准化服务流程完全可以被重塑、重造,进而提升服务效能,但传统服务业在智能技术认知和基础设施方面相对较弱,加上需求、规模、痛点的千差万别,需要一个全场景的体系来实现适配。

二是基础设施的运维之难:许多服务业对于智能技术都存在认知不足、人才短缺等问题,而AI项目落地的成功率直接取决于其批量复制、高效运维的能力,如何把工程化的数据运维、模型运维、开发运维三大核心支柱,通过工具化的生命周期管理整合并提供给产业,是科技企业必须努力解决的。

三是多模态的交互之难:在复杂的现实环境中,用户的意图往往会以多模态方式来展现,语言、文字、图像、视频等等都可以作为媒介来传递信息,传统AI一旦需要处理边界和规则不清晰的问题,效率就迅速下降。只有在解决深度语义理解、多模态交互技术、对话内容生成、复杂场景下的多轮对话与决策技术等等之后,智能交互才能真正释放行业创新价值。

也正是如此,京东发布的多模态交互与内容生成等一系列解决方案,让千人千面的智能交互应用开始真实地走入产业端,服务业数智化转型的浪潮快速到来。

举个例子,传统的客服机器人只能将市民抱怨的问题记下来,然后提交给后台工作人员去安排和处理。而伴随着智能交互系统的落地,山西大同的12345近来就出现了一些显而易见的改变,可以通过智能动态交互的方式准确地理解是哪里、是什么情况、什么路灯,通过数字化的私有云管理体系调动相关区的卫生局,通过和相关人员进行AI外呼联系解决这个问题,并创建这个工单和状态。

在确认修好之后,市长热线再外呼电话,告诉市民修好了这种接诉即办的智能服务,会不会让每一个打开电话的市民感受到一种城市管理的速度与文明呢?在疫情防控严格的当下,智能交互基础上的智能疫情外呼系统,也可以自动化完成外呼疫情排查、通知、信息采集、病例回访等工作,是不是可以有效减轻医护和基层人员的负担?

我想上述答案都会是肯定的。智能交互还可以应用到客服领域。如果你也曾厌倦过拨打客服电话时冗长的等待、牛头不对马嘴的沟通,那么智能交互可能会在未来拯救你和客服双方。传统客服模式下,人工客服需要将三分之二时间用在理解客户的需求上,剩下是用在后台查询、业务办理,以及创建摘要,为客户完成后续服务的跟踪和闭环上。而京东智能交互可以在分配电话坐席前,就进行机器探索,把合乎的画像和需求匹配到最适合的人工智客服那里;比如手机的特殊功能,会找到手机专家回答问题。

在实时对话中,系统会自动识别高浓度负面情绪。在疫情期间,智能客服就曾在与一位年轻客户的交谈中,感知到对方在购药之后出现了情绪低沉的情况,在安抚的同时,及时联系了心理咨询专家。618期间,智能人机交互系统就为京东平台服务了7800万人次,使得原来的人海战略客服变成智能接待的方式,使得客服中心效率提升90%。

从识别到理解,再到生成千人千面的个性化服务,是AI能力的迭代进化,也展现出京东对连接技术与产业的独特思考。在技术创新的同时,赋予其广袤的产业价值机会点,在产业AI化、AI产业化的当下,进一步点燃了AI改造世界的可能性。周伯文在发言的结尾说道:下一个10年,以技术为本、基于智能交互的服务业数智化将是我们下一个产业巨大的浪潮。

这是未来的起点,也是等待你我一起去挖掘和感受的特殊时刻。

fqj

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 智能化
    +关注

    关注

    15

    文章

    4425

    浏览量

    54078
收藏 人收藏

    评论

    相关推荐

    基于微软数据中心的FPGA讲解分析

    FPGA 和 GPU 最大的区别在于体系结构,FPGA 更适合做需要低延迟的流式处理,GPU 更适合做大批量同构数据的处理。
    发表于 02-27 14:45 198次阅读
    基于微软数据中心的FPGA讲解分析

    电阻可以串联,为何二极管不适合串联?

    电阻可以串联,为何二极管不适合串联? 二极管是一种非线性电子元件,其工作原理与电阻截然不同。由于其独特的电学特性,二极管不适合串联使用。 首先,我们来了解一下二极管的基本原理。二极管由PN结构组成
    的头像 发表于 02-18 10:00 311次阅读

    为什么锂电池适合做UPS电池呢?

    为什么锂电池适合做UPS电池呢? 锂电池是一种目前非常流行的电池技术,它具有多种优点,这些优点使其非常适合用于UPS(不间断电源)电池。 1. 高能量密度:锂电池具有高能量密度,即单位质量电池能够
    的头像 发表于 01-11 14:09 304次阅读

    请问是否有用软件控制电阻值的电位器?

    请问是否有用软件控制电阻值的电位器?看资料数字电位器内部使用MOS链接,不适合做纯电阻元件?是否是这样的?我需求一个电位器,使用软件控制其阻值,阻值分布在小于1Ω到1KΩ之间,请问有没有合适的芯片?
    发表于 12-27 08:15

    AD7175-2适合做高精度数据采集吗?

    压,精度只有3位半左右,后几位抖动的非常厉害,这是为什么?是不是我使用的不恰当?如果AD7175-2不适合做高精度数据采集,可以给我推荐一款24bit的ADC做采吗?
    发表于 12-18 08:29

    如何判断适不适合学编程?

    做单片机项目陪跑营的这3年时间,我接触到各种各样的人群,有研究生、本科、大专、转行的、小企业老板等。 经手过很多案例,我发现研究生这个群体,整体成功概率最高。 倒不是说,编程有多难,需要多好的数学、英语、学历基础、或者需要多高的智商和天赋。
    的头像 发表于 11-07 10:40 229次阅读

    请问波长多少的紫外线led适合做uv漆的光固化?

    波长多少的紫外线led适合做uv漆的光固化?
    发表于 11-02 08:08

    基于STM8的红外与超声波测距仪设计方案

    介质传播到接收器的时间即为渡越时间。渡越时间与气体中的声速相乘,就是声波传输的距离。该测试方法对于超声波探头的要求相对比较高,不适合做长距离测量。本文设计的超声波测距仪主要用于长度超过10 m的远距离测量,而且要求可靠性高、稳定性好。故本文采用红外与超声波相结合的设计方案
    发表于 10-10 06:13

    N32L40XCL-STB开发板模块评测:ADC实践之虚拟示波器实现

    本MCU带12bit 4.5Msps ADC,这在通用MCU中采样率是比较高的,适合做模拟前端。
    的头像 发表于 09-26 15:27 806次阅读
    N32L40XCL-STB开发板模块评测:ADC实践之虚拟示波器实现

    什么型号的放大器适合做电压跟随器

    LM741:这是最常见的运放型号之一,具有广泛的应用。它拥有高输入阻抗和低输出阻抗的特性,适合用作电压跟随器。   2. LF356:这是一款超低噪音的运放,适合用于对信号质量要求较高的应用。它具有
    的头像 发表于 08-23 14:53 1415次阅读

    为什么面包板不适合高频电路?

    不适合?对于高频信号在面包板上的表现形式到底如何?下面,通过一些简单的测试来回答这个问题。 二、实验器材 实验器材包括有以下几个方面: 1、频谱仪 这里使用了一台DSA815频谱仪,它具有“Trace”功能,可以用于测量一些系统的
    的头像 发表于 07-08 07:35 712次阅读
    为什么面包板<b class='flag-5'>不适合</b>高频电路?

    云服务器适合做哪些业务?

    云服务器适合做哪些业务? 1.个人博客网站 个人博客网站适合使用云服务器,如果是个人,建议直接采用开源 CMS 搭建 2.企业门户网站 互联网时代,如果一个企业没有官网或者对应的网站宣传,那么线上
    的头像 发表于 07-07 17:24 286次阅读

    Fastjson 很快,但不适合我....

    :等于88。记者:??fastjson:你就说快不快吧! ❞ 这个略显马丽苏的标题,各位看官将就着看吧。主要是怕被喷。fastjson真的很好,我用不用我喜不喜欢的,太不重要了,我只是觉得不适合我而已
    发表于 05-28 11:37 205次阅读
    Fastjson 很快,但<b class='flag-5'>不适合</b>我....

    NodeMCU板和ESP32开发板不适合面包板怎么解决?

    这真的太简单了,所以我想知道为什么我以前从未见过这个。 NodeMCU 板和 ESP32 开发板不适合面包板,因为它们太宽了。 两种解决方案: 1 将面包板切成两半并使用两半 2 切割面包板一侧的电源轨并使用两个面包板。
    发表于 05-25 07:26

    sram内存块不适合mcal_bss段怎么解决?

    对于我的项目,我使用带有 EBTresos 的 S32K342 进行配置和 Autosar OS。我面临如下 sram内存块不适合 mcal_bss 段问题。 链接 main.elf
    发表于 05-19 08:31