0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

深度学习与机器阅读

倩倩 来源:lq 作者:读芯术 2019-09-20 16:01 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

不到现场,照样看最干货的学术报告!嗨,大家好。这里是学术报告专栏,读芯术小编不定期挑选并亲自跑会,为大家奉献科技领域最优秀的学术报告,为同学们记录报告干货,并想方设法搞到一手的PPT和现场视频——足够干货,足够新鲜!话不多说,快快看过来,希望这些优秀的青年学者、专家杰青的学术报告 ,能让您在业余时间的知识阅读更有价值。

人工智能论坛如今浩如烟海,有硬货、有干货的讲座却百里挑一。“AI未来说·青年学术论坛”系列讲座由中国科学院大学主办,承办单位为中国科学院大学学生会,协办单位为中国科学院计算所研究生会、网络中心研究生会、人工智能学院学生会、化学工程学院学生会、公共政策与管理学院学生会、微电子学院学生会,百度为支持单位,读芯术、PaperWeekly为合作自媒体。“AI未来说·青年学术论坛”第八期“深度学习”专场已于2019年8月25日下午在中科院举行。中科院付鹏为大家带来报告《深度学习与机器阅读》。

付鹏,男,中国科学院信息工程研究所博士,现为中国科学院信息工程研究所助理研究员,主要从事自然语言处理、机器学习,具体包括情感/情绪分析、语义理解、机器阅读、文本生成等,在2018全国“军事智能-机器阅读”挑战赛中,获得决赛总成绩第一(1/267,奖金20万),并且包揽了所有单项第一名,主持和参与了国家自然科学基金、国家重点研发计划等课题,近几年在AAAI、EMNLP、CIKM等国内外学术会议与期刊上发表学术论文10余篇。

报告内容:本次报告主要包括机器阅读概述、传统机器阅读方法、深度学习方法和竞赛分享四个部分。

深度学习与机器阅读

付鹏老师先介绍了自然语言处理的概念,即研究实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理技术的发展经历了基于规则(1990年以前)、基于统计学习(1990年~2012年)和基于深度学习(2012年至今)的方法三个阶段,涉及由浅入深的四个层面,分别为形式、语义、推理和语用,当前正处于由语义向推理的发展阶段。

然后引出了自然语言处理技术所面临的难题:1)中文分词(segmentation)困难,如“一行行行行行,一行不行行行不行”和“一位友好/的哥/谭市民”;

2)歧义(ambiguity)现象:一是结构歧义,如“今天中午吃馒头”和“今天中午吃食堂”;二是指代歧义,如“他快抱不起儿子了,因为他太胖了”;三是语义歧义,如“她这个人真有意思(funny)”,“人们以为他们有了意思(wish)”,“我根本没有那个意思(thought)”和“真没意思(nonsense)”;

3)未知语言现象:一是新词,如不明觉厉、累觉不爱和十动然拒;二是旧词新义,如母鸡、白骨精和潜水;三是新用法新结构,在口语中或部分网络语言中,不断出现一些“非规范的”新的语句结构,如c位出道、ORZ和热skr人了;

4)不同语系的差异:一是屈折语,用词的形态变化表示语法关系,如英语、法语等;二是黏着语,词内有专门表示语法意义的附加成分,词根或词干与附加成分的结合不紧密,如日语、韩语、土耳其语等;三是孤立语,形态变化少,语法关系靠词序和虚词表示,如汉语。

接着介绍了自然语言处理的技术概览,主要包括:1)NLP基础技术,如词汇表示和语义分析、短语表示和语义分析、句子表示和语义分析以及篇章表示和语义分析;2)NLP核心技术,如情感分析、信息检索、机器翻译、机器阅读、问答系统、语言生成、推荐系统以及聊天和对话;3)NLP+,如智能分析、搜索引擎、商业智能和舆情分析。

进而引出了机器阅读的主题,机器阅读是自然语言处理领域“皇冠上的明珠”,涉及到语义理解、知识推理等多项复杂技术,极具挑战性,该技术旨在让AI代替人类,自动阅读新闻报道等信息并根据问题给出答案,可应用于舆情分析和情报挖掘领域等多个场景。机器阅读的难点挑战主要包括:1)语义推理难,语言博大精深,如“作为失败的典型,你真的太成功了”;2)语义关联难,字同意不同,如“谁是特朗普的儿子”和“谁的儿子是特朗普”;3)语义表示难,分词歧义,如“昨天/下午”和“作/天下/午”,一词有多义,如“我爱吃苹果”和“苹果发布会”。

在介绍完机器阅读的难点挑战之后,又介绍了机器阅读的发展历程:TeachingMachines to Read and Comprehend(Karl Moritz Hermann et al.) → Attention-Sum Reader(Kadlec et al.) →SQuAD(Rajpurkar et al.) → Match-LSTM(Wang et al.) → R-Net(Wang et al.) →BiDAF(Minjoon Seo et al.) → QA-Net(Yu et al.) → BiDAF+self-attention + BERT。

紧接着介绍了传统机器阅读方法,主要包括早期系统和机器学习时代的方法。其中,在介绍早期系统时,介绍了QUALM系统(Lehnert,1977)、早期数据集(Hirschman, 1999)、Deep Read系统(Hirschman, 1999)和QUARC系统(Riloff andThelen, 2000)。在机器学习时代,机器阅读的数据被转化为 《文章,问题,答案》 的三元组形式,有两个重要的数据集:1)MCTest,四选一数据集,包含660篇科幻小说;2)ProcessBank,二分类数据集,包含585个问题和200个段落,是生物类型文章,需要理解实体关系和事件。基于传统规则方法的特点包括:1)不使用训练数据集;2)启发式的滑动窗口方法,计算word overlap、distance information;3)文本蕴含方法,用现有的文本蕴含系统,把(问题,答案)对转化为一个statement;4)max-margin学习框架,使用了很多语言特征,如句法依存、semantic frames、指代消解、discourse relation和词向量等。

随后,以传统机器阅读的方法作为引入,引出了深度学习的方法。先介绍了机器阅读的主要步骤:文本表示(将文本表示成机器能理解的符号)→ 语义匹配(寻找问题和原文句子的语义关联) → 理解推理(对语义关联进行加工和推理) → 结果推荐(对候选答案进行排序和输出)。

在介绍完机器阅读的主要步骤之后,又介绍了机器阅读的主要数据集:1)MCTest数据集,给定一篇文章、一个问题以及四个选项,预测哪个选项是问题的答案;2)CNN/Daily Mail 数据集,给定一篇文章和一个问题,预测问题中被X替代的实体是文章中的哪个实体;3)SQuAD数据集,给定一篇文章、一个问题,预测文章中的一个区间(一个或几个词)作为答案;4)Quasar-T数据集,给定几篇文章、一个问题,预测文章中的一个区间(一个或几个词)作为答案。

然后又讲到了注意力机制,Seq2Seq模型存在两个问题,一是定长的中间向量 c 限制了模型性能,二是输入序列的不同部分对于输出序列的重要性不同。对于Seq2Seq存在的问题,提出了相应的解决方案:解码器中的每个时刻不是输入固定的c,而是输入不同的 ci,每个时刻的 c 自动选取与当前输出最相关的上下文。其中,ci 为编码器中隐状态的加权和。

在介绍完注意力机制之后,又详细介绍了机器阅读模型BiDAF (ICLR 2017),该模型包括输入部分、双向注意力和输出部分,其中,输入为一篇文章X和一个问题Y,输出为文章中每一个词作为答案开始的概率和答案结束的概率。双向注意力是上下文(context)和检索(query)之间相互指导的注意力机制。

接着又进一步介绍了机器阅读的最新进展,重点讲解了两篇文章,分别为Improving Machine Reading Comprehension with Reading Strategies (NAACL 2019) 和Adversarial Examples for Evaluating Reading Comprehension Systems (EMNLP 2017)。其中,前者是基于已有模型的改进,受阅读策略被证明可以提高阅读理解的水平的启发,提出了三种阅读策略:Backand Forth Reading,Highlighting 和 Self-Assessment,并且模型中用到了GPT (GenerativePre-trained Transformer)。后者介绍了机器阅读的新问题-对抗阅读,文本针对斯坦福问答数据集(SQuAD)提出一个对抗评估方案,自动生成并在段落中插入对抗语句,然后测试系统能否围绕这一段落回答问题。这些对抗语句的目的在于干扰计算机回答系统,但并不会改变问题的正确答案,也不会对人类造成干扰。在这种对抗方案中,16个已发表模型的精确度从75%(F1数)降到了36%。当对抗系统被允许加入不符合语法的短语串,有四个模型的平均精度下降到了7%。

在介绍完最新的研究进展之后,又介绍了多文档阅读,多文档阅读的过程:问题文档集合→ 文档检索模块 → 答案抽取模块 → 最终答案。多文档阅读主要存在三个难点:1)需要基于多个段落预测答案;2)与问题相似的段落干扰问题;3)远程监督假设带来噪音问题。然后又介绍了国内外的研究现状,开放域问答包括单段落方案和多段落方案,其中多段落的方案又包括基于答案重排序和基于答案置信度。

接着,付鹏老师又介绍了他所在团队提出的模型Ranking and Sampling in Open-Domain Question Answering (EMNLP 2019),该模型的特点:1)在段落选择部分充分利用段落和问题以及段落和段落之间的信息,采用层级注意力机制和自注意力机制进行降噪;2)在训练时采用随机采样→ 带权采样段落选择方案,提升模型泛化能力,避免干扰;3)解决开放域问答中的噪音和干扰问题,提升系统准确率。

最后,付鹏老师介绍了他们在全国“军事智能-机器阅读”竞赛中的参赛经历,他所在的团队获得了决赛总成绩第一名,并且包揽了所有单项第一名(军事新闻、防务快讯、非密情报三个单项比赛),RougeL值高达91.39%。并介绍了竞赛的任务、问题实例、数据特点以及总体的框架。

其中竞赛任务的问题包括6种类型:1)事实型问题(第X舰队指挥官是谁?)2)列表型问题(X国舰载机机型?)3)数值型问题(XX舰的排水量?)4)定义型问题(“XX一体站”的定义?)5)观点型问题(XX对军事智能化的指示?)6)篇章型问题(X国与X国领土争端的进展?)。

数据的特点包括:1)文章的长度较长,经典的SQUAD数据集的最长文章的单词数在700以下。但是该数据集文章中字符的个数普遍在几千甚至上万,最长的一篇还有10万多的字符;2)标注的问答可能在文章中出现多次或者不出现,训练数据标注存在噪音问题;3)一部分问题的答案由文中不相邻的多句话组成,比如,列表型问题和篇章型问题可能出现答案由文中不相邻的多句话组成,但是数目比较少。

模型的总体框架分为两步:1)利用问题去筛选答案候选集;2)利用模型预测最终答案。总体框架的流程:数据预处理→ 答案候选集筛选 → 模型预测答案 → 后处理 → 最终答案。更多精彩内容请关注微信公众号中的视频分享。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1821

    文章

    50511

    浏览量

    267725
  • 深度学习
    +关注

    关注

    73

    文章

    5614

    浏览量

    124748
  • nlp
    nlp
    +关注

    关注

    1

    文章

    491

    浏览量

    23364
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    深度学习为什么还是无法处理边缘场景?

    [首发于智驾最前沿微信公众号]虽然自动驾驶车辆已经完成了数百万公里的行驶测试,深度学习也已被普遍应用,但依然会在一些看似简单的场景中犯下低级错误。比如在遇到一些从未见到过的边缘场景时,系统可能会
    的头像 发表于 05-04 10:16 2263次阅读
    <b class='flag-5'>深度</b><b class='flag-5'>学习</b>为什么还是无法处理边缘场景?

    人工智能-Python深度学习进阶与应用技术:工程师高培解读

    深度学习的工程化落地,早已不是纸上谈兵的事。从卷积神经网络到Transformer,从目标检测到大模型私有化部署,技术栈不断延伸,工程师面临的知识体系也越来越庞杂。现根据中际赛威工程师培训老师的一份
    的头像 发表于 04-21 11:01 467次阅读
    人工智能-Python<b class='flag-5'>深度</b><b class='flag-5'>学习</b>进阶与应用技术:工程师高培解读

    【智能检测】基于AI深度学习与飞拍技术的影像测量系统:实现高效精准的全自动光学检测与智能制造数据闭环

    内容概要:文档内容介绍了中图仪器(Chotest)影像测量仪融合人工智能深度学习与飞拍技术的自动化检测解决方案。系统通过AI深度学习实现抗干扰能力强、自适应高的智能寻边,精准识别复
    发表于 03-31 17:11

    人工智能与机器学习在这些行业的深度应用

    自人工智能和机器学习问世以来,多个在线领域的数字化格局迎来了翻天覆地的变化。这些技术从诞生之初就为企业赋予了竞争优势,而在线行业正是受其影响最为显著的领域。人工智能(AI)与机器学习
    的头像 发表于 02-04 14:44 776次阅读

    机器学习深度学习中需避免的 7 个常见错误与局限性

    无论你是刚入门还是已经从事人工智能模型相关工作一段时间,机器学习深度学习中都存在一些我们需要时刻关注并铭记的常见错误。如果对这些错误置之不理,日后可能会引发诸多麻烦!只要我们密切关注
    的头像 发表于 01-07 15:37 410次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>和<b class='flag-5'>深度</b><b class='flag-5'>学习</b>中需避免的 7 个常见错误与局限性

    《AI机器人控制进阶教程(入门版)》阅读指引

    一、为何要学习“AI+机器人”?在开始动手实验前,理解“AI”与“机器人”结合的价值至关重要。这不仅是技术的融合,更是开启智能体(Agent)未来的钥匙。1.从自动化到智能化传统机器
    的头像 发表于 01-07 10:56 2540次阅读
    《AI<b class='flag-5'>机器</b>人控制进阶教程(入门版)》<b class='flag-5'>阅读</b>指引

    穿孔机顶头检测仪 机器视觉深度学习

    LX01Z-DG626穿孔机顶头检测仪采用深度学习技术,能够实现顶头状态的在线实时检测,顶头丢失报警,顶头异常状态报警等功能,响应迅速,异常状态视频回溯,检测顶头温度,配备吹扫清洁系统,维护周期长
    发表于 12-22 14:33

    【团购】独家全套珍藏!龙哥LabVIEW视觉深度学习实战课(11大系列课程,共5000+分钟)

    (第10系列)、YOLOv8-Tiny工业优化版(第9系列),满足产线端设备算力限制,模型推理速度提升300%。 LabVIEW生态整合 作为工业自动化领域主流开发环境,LabVIEW与深度学习的集成
    发表于 12-04 09:28

    【团购】独家全套珍藏!龙哥LabVIEW视觉深度学习实战课程(11大系列课程,共5000+分钟)

    (第10系列)、YOLOv8-Tiny工业优化版(第9系列),满足产线端设备算力限制,模型推理速度提升300%。 LabVIEW生态整合 作为工业自动化领域主流开发环境,LabVIEW与深度学习的集成
    发表于 12-03 13:50

    如何深度学习机器视觉的应用场景

    深度学习视觉应用场景大全 工业制造领域 复杂缺陷检测:处理传统算法难以描述的非标准化缺陷模式 非标产品分类:对形状、颜色、纹理多变的产品进行智能分类 外观质量评估:基于学习的外观质量标准判定 精密
    的头像 发表于 11-27 10:19 400次阅读

    如何在机器视觉中部署深度学习神经网络

    人士而言往往难以理解,人们也常常误以为需要扎实的编程技能才能真正掌握并合理使用这项技术。事实上,这种印象忽视了该技术为机器视觉(乃至生产自动化)带来的潜力,因为深度学习并非只属于计算机科学家或程序员。 从头开始:什么
    的头像 发表于 09-10 17:38 1128次阅读
    如何在<b class='flag-5'>机器</b>视觉中部署<b class='flag-5'>深度</b><b class='flag-5'>学习</b>神经网络

    深度学习对工业物联网有哪些帮助

    深度学习作为人工智能的核心分支,通过模拟人脑神经网络的层级结构,能够自动从海量工业数据中提取复杂特征,为工业物联网(IIoT)提供了从数据感知到智能决策的全链路升级能力。以下从技术赋能、场景突破
    的头像 发表于 08-20 14:56 1316次阅读

    自动驾驶中Transformer大模型会取代深度学习吗?

    [首发于智驾最前沿微信公众号]近年来,随着ChatGPT、Claude、文心一言等大语言模型在生成文本、对话交互等领域的惊艳表现,“Transformer架构是否正在取代传统深度学习”这一话题一直被
    的头像 发表于 08-13 09:15 4455次阅读
    自动驾驶中Transformer大模型会取代<b class='flag-5'>深度</b><b class='flag-5'>学习</b>吗?