0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

深度学习与机器阅读

倩倩 来源:lq 作者:读芯术 2019-09-20 16:01 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

不到现场,照样看最干货的学术报告!嗨,大家好。这里是学术报告专栏,读芯术小编不定期挑选并亲自跑会,为大家奉献科技领域最优秀的学术报告,为同学们记录报告干货,并想方设法搞到一手的PPT和现场视频——足够干货,足够新鲜!话不多说,快快看过来,希望这些优秀的青年学者、专家杰青的学术报告 ,能让您在业余时间的知识阅读更有价值。

人工智能论坛如今浩如烟海,有硬货、有干货的讲座却百里挑一。“AI未来说·青年学术论坛”系列讲座由中国科学院大学主办,承办单位为中国科学院大学学生会,协办单位为中国科学院计算所研究生会、网络中心研究生会、人工智能学院学生会、化学工程学院学生会、公共政策与管理学院学生会、微电子学院学生会,百度为支持单位,读芯术、PaperWeekly为合作自媒体。“AI未来说·青年学术论坛”第八期“深度学习”专场已于2019年8月25日下午在中科院举行。中科院付鹏为大家带来报告《深度学习与机器阅读》。

付鹏,男,中国科学院信息工程研究所博士,现为中国科学院信息工程研究所助理研究员,主要从事自然语言处理、机器学习,具体包括情感/情绪分析、语义理解、机器阅读、文本生成等,在2018全国“军事智能-机器阅读”挑战赛中,获得决赛总成绩第一(1/267,奖金20万),并且包揽了所有单项第一名,主持和参与了国家自然科学基金、国家重点研发计划等课题,近几年在AAAI、EMNLP、CIKM等国内外学术会议与期刊上发表学术论文10余篇。

报告内容:本次报告主要包括机器阅读概述、传统机器阅读方法、深度学习方法和竞赛分享四个部分。

深度学习与机器阅读

付鹏老师先介绍了自然语言处理的概念,即研究实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理技术的发展经历了基于规则(1990年以前)、基于统计学习(1990年~2012年)和基于深度学习(2012年至今)的方法三个阶段,涉及由浅入深的四个层面,分别为形式、语义、推理和语用,当前正处于由语义向推理的发展阶段。

然后引出了自然语言处理技术所面临的难题:1)中文分词(segmentation)困难,如“一行行行行行,一行不行行行不行”和“一位友好/的哥/谭市民”;

2)歧义(ambiguity)现象:一是结构歧义,如“今天中午吃馒头”和“今天中午吃食堂”;二是指代歧义,如“他快抱不起儿子了,因为他太胖了”;三是语义歧义,如“她这个人真有意思(funny)”,“人们以为他们有了意思(wish)”,“我根本没有那个意思(thought)”和“真没意思(nonsense)”;

3)未知语言现象:一是新词,如不明觉厉、累觉不爱和十动然拒;二是旧词新义,如母鸡、白骨精和潜水;三是新用法新结构,在口语中或部分网络语言中,不断出现一些“非规范的”新的语句结构,如c位出道、ORZ和热skr人了;

4)不同语系的差异:一是屈折语,用词的形态变化表示语法关系,如英语、法语等;二是黏着语,词内有专门表示语法意义的附加成分,词根或词干与附加成分的结合不紧密,如日语、韩语、土耳其语等;三是孤立语,形态变化少,语法关系靠词序和虚词表示,如汉语。

接着介绍了自然语言处理的技术概览,主要包括:1)NLP基础技术,如词汇表示和语义分析、短语表示和语义分析、句子表示和语义分析以及篇章表示和语义分析;2)NLP核心技术,如情感分析、信息检索、机器翻译、机器阅读、问答系统、语言生成、推荐系统以及聊天和对话;3)NLP+,如智能分析、搜索引擎、商业智能和舆情分析。

进而引出了机器阅读的主题,机器阅读是自然语言处理领域“皇冠上的明珠”,涉及到语义理解、知识推理等多项复杂技术,极具挑战性,该技术旨在让AI代替人类,自动阅读新闻报道等信息并根据问题给出答案,可应用于舆情分析和情报挖掘领域等多个场景。机器阅读的难点挑战主要包括:1)语义推理难,语言博大精深,如“作为失败的典型,你真的太成功了”;2)语义关联难,字同意不同,如“谁是特朗普的儿子”和“谁的儿子是特朗普”;3)语义表示难,分词歧义,如“昨天/下午”和“作/天下/午”,一词有多义,如“我爱吃苹果”和“苹果发布会”。

在介绍完机器阅读的难点挑战之后,又介绍了机器阅读的发展历程:TeachingMachines to Read and Comprehend(Karl Moritz Hermann et al.) → Attention-Sum Reader(Kadlec et al.) →SQuAD(Rajpurkar et al.) → Match-LSTM(Wang et al.) → R-Net(Wang et al.) →BiDAF(Minjoon Seo et al.) → QA-Net(Yu et al.) → BiDAF+self-attention + BERT。

紧接着介绍了传统机器阅读方法,主要包括早期系统和机器学习时代的方法。其中,在介绍早期系统时,介绍了QUALM系统(Lehnert,1977)、早期数据集(Hirschman, 1999)、Deep Read系统(Hirschman, 1999)和QUARC系统(Riloff andThelen, 2000)。在机器学习时代,机器阅读的数据被转化为 《文章,问题,答案》 的三元组形式,有两个重要的数据集:1)MCTest,四选一数据集,包含660篇科幻小说;2)ProcessBank,二分类数据集,包含585个问题和200个段落,是生物类型文章,需要理解实体关系和事件。基于传统规则方法的特点包括:1)不使用训练数据集;2)启发式的滑动窗口方法,计算word overlap、distance information;3)文本蕴含方法,用现有的文本蕴含系统,把(问题,答案)对转化为一个statement;4)max-margin学习框架,使用了很多语言特征,如句法依存、semantic frames、指代消解、discourse relation和词向量等。

随后,以传统机器阅读的方法作为引入,引出了深度学习的方法。先介绍了机器阅读的主要步骤:文本表示(将文本表示成机器能理解的符号)→ 语义匹配(寻找问题和原文句子的语义关联) → 理解推理(对语义关联进行加工和推理) → 结果推荐(对候选答案进行排序和输出)。

在介绍完机器阅读的主要步骤之后,又介绍了机器阅读的主要数据集:1)MCTest数据集,给定一篇文章、一个问题以及四个选项,预测哪个选项是问题的答案;2)CNN/Daily Mail 数据集,给定一篇文章和一个问题,预测问题中被X替代的实体是文章中的哪个实体;3)SQuAD数据集,给定一篇文章、一个问题,预测文章中的一个区间(一个或几个词)作为答案;4)Quasar-T数据集,给定几篇文章、一个问题,预测文章中的一个区间(一个或几个词)作为答案。

然后又讲到了注意力机制,Seq2Seq模型存在两个问题,一是定长的中间向量 c 限制了模型性能,二是输入序列的不同部分对于输出序列的重要性不同。对于Seq2Seq存在的问题,提出了相应的解决方案:解码器中的每个时刻不是输入固定的c,而是输入不同的 ci,每个时刻的 c 自动选取与当前输出最相关的上下文。其中,ci 为编码器中隐状态的加权和。

在介绍完注意力机制之后,又详细介绍了机器阅读模型BiDAF (ICLR 2017),该模型包括输入部分、双向注意力和输出部分,其中,输入为一篇文章X和一个问题Y,输出为文章中每一个词作为答案开始的概率和答案结束的概率。双向注意力是上下文(context)和检索(query)之间相互指导的注意力机制。

接着又进一步介绍了机器阅读的最新进展,重点讲解了两篇文章,分别为Improving Machine Reading Comprehension with Reading Strategies (NAACL 2019) 和Adversarial Examples for Evaluating Reading Comprehension Systems (EMNLP 2017)。其中,前者是基于已有模型的改进,受阅读策略被证明可以提高阅读理解的水平的启发,提出了三种阅读策略:Backand Forth Reading,Highlighting 和 Self-Assessment,并且模型中用到了GPT (GenerativePre-trained Transformer)。后者介绍了机器阅读的新问题-对抗阅读,文本针对斯坦福问答数据集(SQuAD)提出一个对抗评估方案,自动生成并在段落中插入对抗语句,然后测试系统能否围绕这一段落回答问题。这些对抗语句的目的在于干扰计算机回答系统,但并不会改变问题的正确答案,也不会对人类造成干扰。在这种对抗方案中,16个已发表模型的精确度从75%(F1数)降到了36%。当对抗系统被允许加入不符合语法的短语串,有四个模型的平均精度下降到了7%。

在介绍完最新的研究进展之后,又介绍了多文档阅读,多文档阅读的过程:问题文档集合→ 文档检索模块 → 答案抽取模块 → 最终答案。多文档阅读主要存在三个难点:1)需要基于多个段落预测答案;2)与问题相似的段落干扰问题;3)远程监督假设带来噪音问题。然后又介绍了国内外的研究现状,开放域问答包括单段落方案和多段落方案,其中多段落的方案又包括基于答案重排序和基于答案置信度。

接着,付鹏老师又介绍了他所在团队提出的模型Ranking and Sampling in Open-Domain Question Answering (EMNLP 2019),该模型的特点:1)在段落选择部分充分利用段落和问题以及段落和段落之间的信息,采用层级注意力机制和自注意力机制进行降噪;2)在训练时采用随机采样→ 带权采样段落选择方案,提升模型泛化能力,避免干扰;3)解决开放域问答中的噪音和干扰问题,提升系统准确率。

最后,付鹏老师介绍了他们在全国“军事智能-机器阅读”竞赛中的参赛经历,他所在的团队获得了决赛总成绩第一名,并且包揽了所有单项第一名(军事新闻、防务快讯、非密情报三个单项比赛),RougeL值高达91.39%。并介绍了竞赛的任务、问题实例、数据特点以及总体的框架。

其中竞赛任务的问题包括6种类型:1)事实型问题(第X舰队指挥官是谁?)2)列表型问题(X国舰载机机型?)3)数值型问题(XX舰的排水量?)4)定义型问题(“XX一体站”的定义?)5)观点型问题(XX对军事智能化的指示?)6)篇章型问题(X国与X国领土争端的进展?)。

数据的特点包括:1)文章的长度较长,经典的SQUAD数据集的最长文章的单词数在700以下。但是该数据集文章中字符的个数普遍在几千甚至上万,最长的一篇还有10万多的字符;2)标注的问答可能在文章中出现多次或者不出现,训练数据标注存在噪音问题;3)一部分问题的答案由文中不相邻的多句话组成,比如,列表型问题和篇章型问题可能出现答案由文中不相邻的多句话组成,但是数目比较少。

模型的总体框架分为两步:1)利用问题去筛选答案候选集;2)利用模型预测最终答案。总体框架的流程:数据预处理→ 答案候选集筛选 → 模型预测答案 → 后处理 → 最终答案。更多精彩内容请关注微信公众号中的视频分享。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1813

    文章

    49737

    浏览量

    261543
  • 深度学习
    +关注

    关注

    73

    文章

    5590

    浏览量

    123907
  • nlp
    nlp
    +关注

    关注

    1

    文章

    491

    浏览量

    23192
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    如何深度学习机器视觉的应用场景

    深度学习视觉应用场景大全 工业制造领域 复杂缺陷检测:处理传统算法难以描述的非标准化缺陷模式 非标产品分类:对形状、颜色、纹理多变的产品进行智能分类 外观质量评估:基于学习的外观质量标准判定 精密
    的头像 发表于 11-27 10:19 55次阅读

    如何在机器视觉中部署深度学习神经网络

    人士而言往往难以理解,人们也常常误以为需要扎实的编程技能才能真正掌握并合理使用这项技术。事实上,这种印象忽视了该技术为机器视觉(乃至生产自动化)带来的潜力,因为深度学习并非只属于计算机科学家或程序员。 从头开始:什么
    的头像 发表于 09-10 17:38 693次阅读
    如何在<b class='flag-5'>机器</b>视觉中部署<b class='flag-5'>深度</b><b class='flag-5'>学习</b>神经网络

    【「# ROS 2智能机器人开发实践」阅读体验】视觉实现的基础算法的应用

    阅读心得体会:ROS2机器人视觉与地图构建技术 通过对本书第7章(ROS2视觉应用)和第8章(ROS2地图构建)的学习,我对机器人视觉感知和自主导航的核心技术有了更深入的理解。以下是我
    发表于 05-03 19:41

    【「# ROS 2智能机器人开发实践」阅读体验】机器人入门的引路书

    的限制和调控) 本书还有很多前沿技术项目的扩展 比如神经网络识别例程,机器学习图像识别的原理,yolo图像追踪的原理 机器学习训练三大点: 先准备一个基本的模型结构 和训练时的反馈函
    发表于 04-30 01:05

    【「# ROS 2智能机器人开发实践」阅读体验】+ROS2应用案例

    深度学习视觉巡线、相机标定、OpenCV图像处理等。这些内容虽然在本次阅读体验中没有详细展开,但它们同样对于机器人的视觉感知和环境理解具有重要作用。
    发表于 04-27 11:42

    嵌入式AI技术之深度学习:数据样本预处理过程中使用合适的特征变换对深度学习的意义

      作者:苏勇Andrew 使用神经网络实现机器学习,网络的每个层都将对输入的数据做一次抽象,多层神经网络构成深度学习的框架,可以深度理解数
    的头像 发表于 04-02 18:21 1284次阅读

    SLAMTEC Aurora:把深度学习“卷”进机器人日常

    在人工智能和机器人技术飞速发展的今天,深度学习与SLAM(同步定位与地图构建)技术的结合,正引领着智能机器人行业迈向新的高度。最近科技圈顶流DeepSeek简直杀疯了!靠着逆天的
    的头像 发表于 02-19 15:49 724次阅读

    军事应用中深度学习的挑战与机遇

    人工智能尤其是深度学习技术的最新进展,加速了不同应用领域的创新与发展。深度学习技术的发展深刻影响了军事发展趋势,导致战争形式和模式发生重大变化。本文将概述
    的头像 发表于 02-14 11:15 819次阅读

    BP神经网络与深度学习的关系

    ),是一种多层前馈神经网络,它通过反向传播算法进行训练。BP神经网络由输入层、一个或多个隐藏层和输出层组成,通过逐层递减的方式调整网络权重,目的是最小化网络的输出误差。 二、深度学习的定义与发展 深度
    的头像 发表于 02-12 15:15 1341次阅读

    【「具身智能机器人系统」阅读体验】2.具身智能机器人的基础模块

    ,一次生成深度信息。 自主机器人定位任务的本质是对机器人自身状态的估计问题,包括位置,朝向,速度等问题。 路径规划旨在找到从起点到目标区域的路径,确保路径的可行性和最优性。路径规划方法包括变分方法,图搜
    发表于 01-04 19:22

    【「具身智能机器人系统」阅读体验】+两本互为支持的书

    如何使用PyTorch进行数字图像处理,它借助摄像头来获取视频的图像信息,然后通过已有的图像识别框架模型经深度学习和优化以达到更精准的识别结果,从而为进一步的执行处理提供数据支持和依据。而《具身智能机器人系统
    发表于 01-01 15:50

    传统机器学习方法和应用指导

    用于开发生物学数据的机器学习方法。尽管深度学习(一般指神经网络算法)是一个强大的工具,目前也非常流行,但它的应用领域仍然有限。与深度
    的头像 发表于 12-30 09:16 1982次阅读
    传统<b class='flag-5'>机器</b><b class='flag-5'>学习</b>方法和应用指导

    【「具身智能机器人系统」阅读体验】2.具身智能机器人大模型

    中取得了令人瞩目的效果。 阅读感悟 从传统的手动编程到借助大模型实现智能化、自主化,从单一模态的交互到多模态信息的深度融合,再到扩散模型的应用,机器人控制技术正在以惊人的速度进化。这不仅让机器
    发表于 12-29 23:04

    【「具身智能机器人系统」阅读体验】1.全书概览与第一章学习

    非常感谢电子发烧友提供的这次书籍测评活动!最近,我一直在学习大模型和人工智能的相关知识,深刻体会到机器人技术是一个极具潜力的未来方向,甚至可以说是推动时代变革的重要力量。能参与这次活动并有机会深入
    发表于 12-27 14:50

    【「具身智能机器人系统」阅读体验】+初品的体验

    学习资源,以培养更多的专业人才。随着具身智能机器人技术对社会的影响越来越大,该书还可以向公众普及相关的知识,以提升社会对新技术的认知和接受度,从而为技术的发展创造良好的社会环境。 随着具身智能机器人技术
    发表于 12-20 19:17