0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

机器的理解能力已经强大到可以超过人类?

h1654155282.3538 来源:沈苗 2019-08-27 16:01 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

想想这样一个画面:在剧院的舞台上,一名女子坐在一架钢琴前。

那么她将要:

A)坐在长凳上,同时,她的妹妹在玩洋娃娃;

B)当音乐响起时朝某人微笑;

C)在人群中,看舞者起舞;

D)紧张地把手指放置在琴键上;

事实上,作为人类,我们很容易地就能推断出可能的情况:一个女人在演奏钢琴,一群人在看着她。我们甚至还能推断她即将进行的下一步行动:她将自己的手放在钢琴键上,并开始演奏。

这是2018年8月,一家总部位于美国西雅图的艾伦人工智能研究所(Allen Institute for Artificial Intelligence),在一篇文献中提到的一道给机器的英语测试题。当时,机器的正确率只有大约60%。

但是现在看来,机器的理解能力正在,或许已经超越人类。

机器理解能力究竟如何?

所谓的机器阅读理解,其概念和大家学生时代所做的阅读理解基本相似,同样是给出一段材料和问题,给出正确答案,不过主角从人类换成AI模型。

虽然机器阅读理解看起来只是让AI上阵来一场考试,但是却是自然语言处理技术中,继语音判断、语义理解之后最大的挑战:让智能体理解全文语境。

简单的来看,语音识别帮助机器“听”,图像识别帮助机器“看”,但机器如何做到听懂和看懂,是语义理解解决的问题。

相比于拼写检查和自动翻译,语义理解不只是运算和记录,而是主动分析和理解,所以阅读理解问题一直被认为是自然语言处理(NLP)的标志性临界点。

自然语言处理的其中一个关键就是语义理解,因为机器无法做到人类对自然语言的理解,就比如文章开头的问题。所以,语义理解也一直被认为是“人工智能皇冠上的明珠”,它融合了语言学、计算机科学、人工智能,其目的就是“让机器可以理解自然语言”。

语义理解也一直是科研和资本关注的重要方向。据2018年年底腾讯研究院统计,在中国人工智能企业中,融资占比排名前三的领域分别是计算机视觉与图像,自然语言处理,以及自动驾驶/辅助驾驶,而排在第二名的自然语言处理,融资122亿元,占比19%。

“就像人去看电视一样,人是同时看着画面、听着声音、看着字幕来综合理解,人脑所作的工作就是多模态语义理解。”深思考人工智能CEO兼AI算法科学家杨志明在此前的“2019WISE超级进化者”中提到。

事实上,机器阅读理解的一些重要赛事和指标也正在被不断刷新和突破。

2018年,斯坦福大学著名的机器阅读理解赛事SQuAD,阿里巴巴曾凭借82.440的精准率打破了世界纪录,超越了人类82.304的平均得分。2018年11月,谷歌发布的BERT模型,在机器阅读理解顶级水平测试SQuAD1.1中,全部两个衡量指标上全面超越人类,并且还在11种不同NLP测试中创出最佳成绩。

而最近由中国计算机学会(中国计算机领域最权威学会)、中国中文信息学会(人工智能自然语义理解最权威学会)和百度公司联合举办的“2019机器阅读理解竞赛”中,经过全球2502个团队长达2个月的激烈角逐,深思考人工智能在两项评测指标中均登顶全球榜首,成功夺取全球冠军。

目前在很多公开的数据集上,如在英文最具权威的SQuAD2.0数据集中:EM和F1两个指标上,人类的表现分类为86.831和89.452,而目前PINGAN团队所研发的模型已取得了EM值88.592,F1值90.859的表现。

换句话说,某种程度上,机器的阅读理解水平已超越人类。

而在中文最具权威的DuReader数据集中,ROUGE-L和BLEU-4两个指标上,人类的表现为57.4和56.1,深思考所研发的BMAnet模型在这两项指标上取得了63.13和59.34的表现。

机器阅读理解是机器理解的重要任务,也是语义理解的重要组成部分。机器阅读理解中数据指标的突破,往往也就代表着机器理解或是语义理解的突破。

而深思考所取得的技术性突破,会在现实生活的应用场景中如何落地?

多模态,语义理解的不可或缺

“机器翻译准确度90%以上,万字翻译只需5秒钟”,或是“语音识别准确度超过98%”,这样的描述,代表着人工智能正在快速发展,图像和语音识别的准确率正在飞速提升。

但这距离真正的人工智能,仍然有不小的距离。尤其是在人工智能落地的场景之中,光靠图像识别的“看到”,和语音识别的“听到”是不足够的。

以日常生活中,大家接触的智能音箱智能家居为例。

2017年Mingke Luo的《为什么现在的人工智能都像人工智障》曾刷屏朋友圈,而在今年年初,作者又写了一篇名为《所有智能音箱都是智障,包括Siri !深度学习对此无能为力》的文章。其中提到一个有趣的实现,2016年底,作者对几个智能助理提一个看似简单的需求,“推荐餐厅,不要日本菜”,结果所有智能助理都给出一堆日本菜餐厅的推荐,而2年后,再做这个实验,问题依然没有解决,“不要”两个字仍然被一致忽略。

“人类说话的时候,往往是口语化的、不连续的、支离破碎的,甚至语序颠倒的。语音识别只停留在语音指令,不能理解用户语言及背后的逻辑,实际无法解决用户在很多场景中的刚需。”杨志明在采访中告诉36氪。

他以智能家居的对话场景举例。

比如用户对着家里的空调说,“请把空调调到28度”,这时几乎所有的空调都能够完成这样的指令。

但是如果用户对空调说,“我有点热了,把空调调低一点,调到我习惯的温度”,这时候语音识别就不能解决问题。这背后就有两层逻辑,第一,用户觉得热了,应该把空调打开,第二,就是调到用户平时习惯的温度,即存在个性化设置,机器需要理解用户语言背后的意义。

无论车载智能设备,还是智能音响、智能家居,用户使用这些产品的目的,都是为了更方便的生活,而目前来看,使用这些设备更多是用户通过“背”指令表完成。

杨志明提到一个形象的比喻,现实生活中,不少企业家和高管,都配备秘书,他们想要的秘书,绝不是一个只能遵从命令办事的执行员,更多是听懂他们,只需要一句“你去帮我办这个事情吧”,就能帮助他们解决问题的角色。有时,甚至是他们不用开口就知道该做什么的可以信任的人。

通过上下文的指代消解、意图理解、对话管理等技术,深思考推出的产品提升了机器阅读理解的能力,并为更多行业解决方案的落地,提供有效的产品支持。

以车联网场景为例,传统智能车载系统,通常通过驾驶室的智能语音交互屏幕实现人机互动。但随着座舱的发展,如今的驾驶室不再是一个简单的驾驶室,而是汽车行驶过程中的中央多模态信息的汇聚地。比如智能车联网场景下,汽车跟道路基础设施之间、汽车跟汽车之间、汽车跟互联网之间都能够做信息的连接和交互。车辆本身也通过视觉对车外的环境做感知与理解,再加上温度传感器、语音信息输入传感器等。

在智能车联网有很多模态的信息,有手势的模态、语音的模态、图像的模态。数字化场景下,深思考提供的技术,就能为对上述多模态信息进行综合理解,为人车交互提供智能大脑。同时,还可以在座舱环境下,实现人、车和家庭的连接。

再加上RPA自动软件机器人,不光可以实现人车对话,车辆还可以自动帮助驾驶员完成任务,比如预定会议室、与其他智能设备的联动、执行等。

“比如看一个电视剧,眼睛看画面、耳朵听声音、眼睛看字幕,对不同事物不同状态,人脑可以同时做理解。但AI还停留在识别与感知阶段,人脑更多是语义理解,而且是多模态理解。”杨志明在去年的一次分享中提到,模拟的人脑举一反三,在目前AI小的计算资源下快速和低功耗的运行,是深思考致力解决的类脑AI技术

作为人工智能研究中最难的部分,语义理解技术的发展,让机器有了更强的阅读理解能力,这也让未来人机交互有了更多可能性。

未来的可能性

“最新语义理解的技术,可以像人一样,看完一本书以后,问你这本书里面的问题。它对这本书里面的非结构化的信息进行多模态理解以后,可以像人脑理解以后再回答问题。”杨志明在采访中提到,人在看完一本书回答问题时,不会先整理出问答对或者知识图谱,而是凭借大脑的理解,直接回答别人的问题。

目前,深思考所研发的技术已经具备了上述能力。通过非结构化、长文本的机器阅读理解,避免了传统语义理解或者智能客服,用大量的人力物力去构建知识图谱或者问答对。而借此,深思考能让语义理解,像语音识别和图像识别一样,进行大规模的商业化场景的落地。

杨志明解释,深度学习的快速发展,也为语义理解带来更多的提升。比如意图分类等统计学记忆方法的准确不高,深度学习进一步发展,进一步提高了这类语义识别的技术。其次,深度学习之下的新型语义理解模型,让语义理解准确度变得更高了,实现了突破。

今年6月,工信部正式对国内运营商发放5G牌照,国内的第四大运营商也正式诞生,让人们看到,无人驾驶和远程手术的近在咫尺。虽然离大规模商业化应用还有一定时间,但是5G对人工智能带来的改变也是值得期待的。

《2019年中国人工智能行业市场分析》中提到,国际会计师事务所毕马威近日发布研究认为,当前,5G技术在主要垂直行业的全球市场潜在价值预计可达4.3万亿美元,而这4.3万美元的市场,显然离不开AI的作用。

“更重要的是解决及提升物联网和AIoT设备语义理解的能力。”杨志明告诉36氪,5G的三大技术特点“高速率、低延迟、超大数量终端”让物联网设备大有可为,但离线端语义识别的技术突破,也不可小觑,未来在端的部分,也可能会有语义理解芯片的成功研发。

杨志明举例,比如在无人驾驶场景中,时常会面对信号弱的情况,例如过山洞、隧道等,同时,虽然5G能够连接超大数量的终端,但是终端连接的越多,传输的速度就越慢,这就需要终端同样具备部分的语义理解的能力。

未来的场景之中,更多的情况是,终端设备首先具备各项传感器,能够多维度的收集信息和数据,同时芯片的植入,又能让这类设备具有如图像识别、语音识别、语义理解等人工智能能力,而云端则是更强大和更准确的技术支持。一方面,如果所有终端的处理,都由云完成,云的压力过大,另一方面终端设备必须具备复合的能力,才能让机器更好的理解人类意图。这也印证了,杨志明始终坚持的方向,语义理解一定是多模态的。

同时,产业互联网的发展,也为人工智能应用的落地,提供了良好的环境,产业互联网实现的是,不同行业之中的互联网等技术的落地以及场景闭环,这和人工智能所在做的突破是一样的。

杨志明此前提到,AI语义理解里面的关键点,实现AI的落地场景的四个闭环,包括,业务闭环、数据闭环、模型闭环和产品闭环。目前深思考在智能车联、医疗健康、智能家居、智能手机等方向,均有头部客户实现成功的商业落地。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器
    +关注

    关注

    0

    文章

    796

    浏览量

    41773
  • 理解
    +关注

    关注

    0

    文章

    4

    浏览量

    8121
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    INDEMIND解锁陪伴机器能力新边界

    从2D感知3D感知,从单一语音多模态交互,解锁陪伴机器能力新边界。
    的头像 发表于 10-09 14:25 363次阅读

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片AGI芯片

    复制人类智能的AI---AGI。 走向AGI的五个层次发现阶段: ①L1,聊天机器人:具备基础的对话能力,能够理解和回应简单的文本输入 ②L2,推理者:具备基本的逻辑推理
    发表于 09-18 15:31

    【「AI芯片:科技探索与AGI愿景」阅读体验】+具身智能芯片

    为计算机可以处理的数字信息。 认知层: 认知层是具身智能的第二层, 负责对数据进行处理和分析,以便更好地理解和利用这些数据。 包括各种算法和模型,如DNN、神经形态计算、决策树等。 作用:是对感知的信息
    发表于 09-18 11:45

    自主生产:制造业的未来

    已经通过智能应用程序与机器联网,并进入学习系统,对生产偏差做出实时反应。 2030 年,生产格局将发生根本性变化:半自动单元网络将取代传统的生产线。这些单元将自我组织,对不断变化的要求作出反应,并
    发表于 09-15 15:08

    从制动到加速,车规电容如何让电控系统的响应快过人类反应?

    在电动汽车和智能驾驶技术飞速发展的今天,电控系统的响应速度已成为决定车辆性能和安全性的关键因素。研究表明,人类驾驶员从感知危险踩下制动踏板的反应时间约为0.7秒,而现代电控系统通过高性能车规电容
    的头像 发表于 07-31 15:35 554次阅读

    从校办工厂全球电机巨头,微光股份持续发力人形机器人领域

    电子发烧友网综合报道 日前,瑞银的基准情景预计, 2035 年全球人形机器人数量将超过 200 万台, 2050 年将超过 3 亿台,对
    的头像 发表于 07-14 07:29 8294次阅读

    机器人测试:从虚拟现实,机器人如何才能变成真正的打工牛马?

    从虚拟世界的算法优化,现实中的 “抗造” 考验,再到细节处的容错能力机器人的每一轮测试,本质上都是在模仿人类 “打工人” 的成长路径:先在练习中练熟技能,再在实战中扛住压力,最终成
    的头像 发表于 07-11 09:16 1386次阅读
    <b class='flag-5'>机器</b>人测试:从虚拟<b class='flag-5'>到</b>现实,<b class='flag-5'>机器</b>人如何才能变成真正的打工牛马?

    揭秘ABAQUS强大超乎想象的分析功能有哪些?

    和研究人员解决复杂工程问题的得力助手。本文将深入探讨ABAQUS那些强大超乎想象的分析功能,揭示它如何在不同领域发挥关键作用。 一、静态与动态分析的双剑合璧 ABAQUS的核心功能之一是其强大的静态和动态分析
    的头像 发表于 05-21 16:15 527次阅读
    揭秘ABAQUS<b class='flag-5'>强大</b><b class='flag-5'>到</b>超乎想象的分析功能有哪些?

    从技术市场,致远电子EtherCAT通讯卡如何推动人形机器人前行?

    机器人解决方案在AI大模型的强大赋能下,人形机器人技术正以前所未有的速度演进,其在外形、行为模式、智能水平、思维逻辑以及语言表达能力上均日益逼近人类
    的头像 发表于 03-05 11:36 1569次阅读
    从技术<b class='flag-5'>到</b>市场,致远电子EtherCAT通讯卡如何推动人形<b class='flag-5'>机器</b>人前行?

    《AI Agent 应用与项目实战》第1-2章阅读心得——理解Agent框架与Coze平台的应用

    的自定义插件功能特别强大可以将私有API封装成插件,这为开发者集成特定领域的专业能力提供了便利。文案助手的案例则展示了Agent在内容创作领域的应用潜力,通过对海量文案数据的学习,Agent能够
    发表于 02-19 16:35

    北大携智元机器⼈团队提出OmniManip架构

    存在两大挑战,一是VLMs缺乏精确3D理解能力,二是难以将高层次推理转化为机器人低层次动作。 为解决这些难题,OmniManip架构应运而生。它基于以对象为中心的3D交互基元,把VLM的高层次推理能力转化为
    的头像 发表于 01-24 09:57 836次阅读

    【「具身智能机器人系统」阅读体验】2.具身智能机器人大模型

    的设计不仅提高了机器人对环境的理解能力,还使其能够更精准地执行复杂任务。 扩散模型的新思路 除了大模型,扩散模型的引入为机器人控制开辟了新的研究方向。在以UniPi为代表的创新工作中,通过用户的自然语言
    发表于 12-29 23:04

    【「具身智能机器人系统」阅读体验】1.初步理解具身智能

    人需要理解环境,适应变化的环境。 从国际上来看,已经有不少科技公司发布了自己的机器人产品,大多数应用在安保,物流,制造等场景。 中国在具身智能机器人领域的研发速度相对较慢,但经过多年的
    发表于 12-28 21:12

    《具身智能机器人系统》第7-9章阅读心得之具身智能机器人与大模型

    将自然语言理解与运动规划融为一体。这种端端的方法使机器人能够直接从人类指令生成动作序列,大幅简化了控制流程。该项目的工作流程包含设计并封装一个人
    发表于 12-24 15:03

    【「具身智能机器人系统」阅读体验】+数据在具身人工智能中的价值

    嵌入式人工智能(EAI)将人工智能集成机器人等物理实体中,使它们能够感知、学习环境并与之动态交互。这种能力使此类机器人能够在人类社会中有效
    发表于 12-24 00:33