0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

专栏 | 深度学习在NLP中的运用?从分词、词性到机器翻译、对话系统

m3Fp_almosthuma 来源:未知 作者:简单幸福 2017-08-18 17:06 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

自然语言是人类知识的抽象浓缩表示,而自然语言理解是人工智能研究领域中极具挑战的一个分支。上次,《自然语言处理在 2017 年有哪些值得期待的发展?》中,我们已经讲到,2016 年是深度学习大潮冲击 NLP 的一年,通过去年一年的努力,深度学习在 NLP 领域已经站稳了脚跟。其中,对话交互系统已经成为一个重要的应用研究领域,2017 年的自然语言对话系统,将开创一个新的人机交互时代。

通过深度学习和其他机器学习技术的模型组合,竹间智能也已初步实现了自然语言对话中的意图识别、上下文理解和多轮对话。本文将基于竹间智能的一些经验和探索,从分词、词性等基础模块,到机器翻译、知识问答等领域,列举并分析一些深度学习在 NLP 领域的具体运用,希望对大家研究深度学习和 NLP 有所帮助。

事实上,从分词、词性、语法解析、信息抽取等基础模块,到自然语言生成、机器翻译、对话管理、知识问答等高层的 NLP 领域,几乎都可以应用以 CNN、RNN 为代表的深度学习模型,且确实能够取得不错的效果。深度学习模型有效降低了语言模型输入特征的维度,降低了输入层的复杂性。另外,深度学习模型具有其他浅层模型不能比拟的灵活性。深度学习模型更复杂,能够对数据进行更精准的建模,从而增强实验效果。

深度学习模型可以将文本中的词高效地表示为分布式连续向量(word2vec),将词语、文本由词空间映射到语义空间,这样的语义表示可以捕获重要的句法和语义信息,一定程度上缓解了词面不匹配、数据稀疏、语义鸿沟等问题。Word2vec 的应用可以使许多自然语言处理任务取得突出的表现。Word2vec 虽然可以通过神经网络训练大规模的语料实现,但仍面临着 out of vocabulary 的现实。Bahdanau 等人利用 LSTM 模型结合定义知识语料,解决传统 word embedding 模型中的 out of vocabulary 问题。(框架流程见图 1,具体见 https://arxiv.org/abs/1706.00286)

图 1:利用 RNN 解决 Word2Vec 中 out of vocabulary 问题实例

中文不同于英文自然分词,中文分词是文本处理的一个基础步骤,也是自然语言处理的基础模块。分词性能的好坏直接影响比如词性、句法树等其他模块的性能。利用深度学习实现的字嵌入+Bi-LSTM+CRF 中文分词器,不需要构造额外手工特征。使用人民日报的 80 万语料训练实现,按照字符正确率评估标准能达到 98% 的准确率。其本质上是一个序列标注模型,模型参考的论文是:http://www.aclweb.org/anthology/N16-1030,整个神经网络的主要框架如图 2 所示。有感兴趣的朋友可以去看看,具体实现已在 github 开源 https://github.com/koth/kcws。

图 2:Word Embedding+Bi-LSTM+CRF 主要框架示意图

语法解析可以获得句子的语法结构,例如,哪些单词组合在一起(形成「短语」),哪些单词是动词的主题或对象。Syntactic Parsing 明确标出了词与词之间的短语结构,隐含了词与词之间的关系。而 Dependency Parser 则明确表示出了词与词之间的关系。利用神经网络模型解析句子的语法结构的实现可以参考 http://www.petrovi.de/data/acl15.pdf 以及斯坦福的 http://cs.stanford.edu/~danqi/papers/emnlp2014.pdf。除解析文本之外,Richard Socher 等人利用 CNN 模型实现了解析图片的功能(Parsing Natural Scenes and Natural Language with Recursive Neural Networks)。

文本分类是各种场景在自然语言处理领域中经常使用到的技术,例如判断文本内容的情感分类(即对文本表达的情感进行分析,如正面、负面的情感,开心、愤怒等情绪等)。深度学习在文本分类中的表现优于其他一些传统线性模型,例如 https://arxiv.org/abs/1508.04112。Github 上的 https://github.com/harvardnlp/sent-conv-torch 是用于文本分类的 CNN,这个代码用 GPU 在 Torch 中实现了 Kim(2014)的句子卷积代码。它复制了现有数据库中的结果,并允许在任意其它的文本数据库上训练模型。

信息抽取,从句子中抽取特定的片段(比如命名实体识别、摘要总结等)。Abstractive Summarization 摘要总结 https://github.com/harvardnlp/NAMAS,该项目包含了来自论文 A Neural Attention Model for Abstractive Summarization(Alexander M. Rush, Sumit Chopra, Jason Weston. https://arxiv.org/pdf/1509.00685.pdf)的摘要抽象总结系统。该项目里发布的代码可以:提取摘要数据、训练摘要神经网络模型、用 ROUGE 构建评估集、调试提取的特征等。

神经指代消解(Neural Coref Models),在论文 Learning Global Features for Coreference Resolution(Sam Wiseman, Alexander M. Rush, and Stuart M. Shieber, NAACL 2015)和 Learning Anaphoricity and Antecedent Ranking Features for Coreference Resolution(Sam Wiseman, Alexander M. Rush, Stuart M. Shieber, and Jason Weston. ACL 2015)中有所描述。Github 中开源的指代消解项目有 https://github.com/swiseman/nn_coref。

自然语言生成,能够根据一些关键信息及其在机器内部的表达形式,经过一个规划过程,来自动生成一段高质量的自然语言文本。目前关于自然语言生成有一些比较有趣的研究,比如 https://github.com/karpathy/char-rnn 是一个基于 RNN 的文本生成器,可以自动生成莎士比亚的剧本或者 shell 代码;https://link.zhihu.com/?target=https%3A//github.com/phunterlau/wangfeng-rnn 基于 char-rnn 的汪峰歌词生成器等。

知识问答,可以用深度学习模型,从语料中学习获得一些问题的答案,比如 https://github.com/facebook/MemNN,是 memmnn 的一个官方实现,可以从诸如「小明在操场;小王在办公室;小明捡起了足球;小王走进了厨房」的语境中,获得问题「小王在去厨房前在哪里?」这样涉及推理和理解的问题;例如斯坦福的 http://cs.stanford.edu/~danqi/papers/nips2013.pdf 利用深度学习实现的知识问答系统。

神经机器翻译(NMT)在翻译中提供了统计方式之外的另一种方式,同时也更加简便。Github 上基于 Sequence-to-Sequence Learning with Attentional Neural Networks 的开源项目: http://github.com/harvardnlp/seq2seq-attn,以及基于上述项目和 http://www.people.fas.harvard.edu/~yoonkim/data/emnlp_2016.pdf 的安卓系统中的神经机器翻译。该项目考虑了将知识提炼(knowledge distillation)方式加入机器神经翻译中,以解决其体量问题,这种方式已在其他领域中被证明能够成功减小神经模型的尺寸。

在 Github 上还有一些有趣的关于深度学习与自然语言处理的项目。比如:Google Brain 团队的一组研究人员发布了一个项目 Project Magenta,其主要目标是利用机器学习创作艺术和谱写曲子 https://github.com/tensorflow/magenta;https://github.com/ryankiros/neural-storyteller 是一个自然语言生成项目,实现了看图讲故事的功能。

以上是对深度学习在 NLP 领域运用的一些总结和说明。最后,再讲回竹间全力打造的自然语言对话系统。之前提到 2017 年的对话系统一定是在限定的场景下发挥作用的,而竹间智能基于深度学习打造的人机交互系统,在金融、电商及 IoT 等限定领域中已经实现了比较好的可控人机对话。未来,竹间希望在更多垂直领域形成突破。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉

原文标题:专栏 | 深度学习在NLP中的运用?从分词、词性到机器翻译、对话系统

文章出处:【微信号:almosthuman2014,微信公众号:机器之心】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    端模仿学习实战:幻尔科技LeRobot如何“被动执行”进化为“自主学徒”

    ”与“智能学徒”的本质区别。最显著的体现,就是LeRobot所具备的端端模仿学习能力——它从根本上改变了机器人的技能习得方式,实现了被动“执行”
    的头像 发表于 05-18 10:58 839次阅读
    端<b class='flag-5'>到</b>端模仿<b class='flag-5'>学习</b>实战:幻尔科技LeRobot如何<b class='flag-5'>从</b>“被动执行”进化为“自主学徒”

    机器学习的数据质量双保障:“验证”“标记”

    机器学习的世界里,有句老话尤为贴切:“garbagein,garbageout”(输入垃圾,输出垃圾)。无论模型架构多先进、算法多精妙,数据的质量始终是决定模型性能的核心。本文聚焦数据处理
    的头像 发表于 04-24 15:48 180次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b><b class='flag-5'>中</b>的数据质量双保障:<b class='flag-5'>从</b>“验证”<b class='flag-5'>到</b>“标记”

    智能机器01系统入门课程 带源码课件 百度网盘下载

    ”能力,是机器人走出实验室,进入复杂家庭或工业场景的关键。 语音交互:“听清”“听懂” 语音识别的入门实践,核心不仅仅是将声音转化为
    发表于 04-11 16:41

    烟丝喂送的‘翻译官’:EtherCAT与DeviceNet汇川伺服的无缝对话

    烟丝喂送的‘翻译官’:EtherCAT与DeviceNet汇川伺服的无缝对话烟草制丝生产线,烟丝喂送系统堪称“大动脉”——它需要将制
    的头像 发表于 02-25 14:46 258次阅读
    烟丝喂送的‘<b class='flag-5'>翻译</b>官’:EtherCAT与DeviceNet汇川伺服的无缝<b class='flag-5'>对话</b>”

    人工智能与机器学习在这些行业的深度应用

    自人工智能和机器学习问世以来,多个在线领域的数字化格局迎来了翻天覆地的变化。这些技术诞生之初就为企业赋予了竞争优势,而在线行业正是受其影响最为显著的领域。人工智能(AI)与机器
    的头像 发表于 02-04 14:44 791次阅读

    自然语言处理NLP的概念和工作原理

    自然语言处理 (NLP) 是人工智能 (AI) 的一个分支,它会教计算机如何理解口头和书面形式的人类语言。自然语言处理将计算语言学与机器学习深度
    的头像 发表于 01-29 14:01 702次阅读
    自然语言处理<b class='flag-5'>NLP</b>的概念和工作原理

    机器学习深度学习需避免的 7 个常见错误与局限性

    ,并验证输出结果,就能不断提升专业技能,养成优秀数据科学家的工作习惯。需避免的机器学习深度学习数据错误训练数据驱动的人工智能模型时,我们
    的头像 发表于 01-07 15:37 413次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>和<b class='flag-5'>深度</b><b class='flag-5'>学习</b><b class='flag-5'>中</b>需避免的 7 个常见错误与局限性

    穿孔机顶头检测仪 机器视觉深度学习

    ,能适用恶劣工况,粉尘、高温、氧化皮等恶劣环境均可正常工作。 测量原理 利用顶头与周围的物质(水、空气、导盘等)红外辐射能量的差异,用热成像相机拍摄出清晰的图片,再通过深度学习短时
    发表于 12-22 14:33

    协议“翻译官”:让西门子PLC,PFOFINET和DEVICENET设备污水厂“对话

    协议“翻译官”:让西门子PLC,PFOFINET和DEVICENET设备污水厂“对话” 1. 项目背景:新旧交织的管控挑战 某市政污水处理厂扩建升级过程
    的头像 发表于 12-04 15:36 428次阅读
    协议“<b class='flag-5'>翻译</b>官”:让西门子PLC,PFOFINET和DEVICENET设备<b class='flag-5'>在</b>污水厂“<b class='flag-5'>对话</b>”

    01,10+年资深LabVIEW专家,手把手教你攻克机器视觉+深度学习(5000分钟实战课)

    “告别检测系统能力缺陷!10+年LabVIEW视觉资深专家手把手教你:5000+分钟高清教程(含工具、算法原理、实战操作、项目优化全流程讲解)”——传统视觉算法→深度学习建模→工业级
    的头像 发表于 12-02 08:07 885次阅读
    <b class='flag-5'>从</b>0<b class='flag-5'>到</b>1,10+年资深LabVIEW专家,手把手教你攻克<b class='flag-5'>机器</b>视觉+<b class='flag-5'>深度</b><b class='flag-5'>学习</b>(5000分钟实战课)

    如何在机器视觉中部署深度学习神经网络

    图 1:基于深度学习的目标检测可定位已训练的目标类别,并通过矩形框(边界框)对其进行标识。 讨论人工智能(AI)或深度学习时,经常会出现“
    的头像 发表于 09-10 17:38 1133次阅读
    如何在<b class='flag-5'>机器</b>视觉中部署<b class='flag-5'>深度</b><b class='flag-5'>学习</b>神经网络

    自动驾驶Transformer大模型会取代深度学习吗?

    持续讨论。特别是自动驾驶领域,部分厂商开始尝试将多模态大模型(MLLM)引入感知、规划与决策系统,引发了“传统深度学习是否已过时”的激烈
    的头像 发表于 08-13 09:15 4465次阅读
    自动驾驶<b class='flag-5'>中</b>Transformer大模型会取代<b class='flag-5'>深度</b><b class='flag-5'>学习</b>吗?

    传音斩获WMT 2025国际机器翻译大赛四项冠军

    近日,由国际计算语言学协会(ACL)主办的WMT 2025国际机器翻译大赛,传音低资源印度语言翻译任务(Low-Resource In
    的头像 发表于 08-06 18:21 1407次阅读

    FPGA机器学习的具体应用

    ,越来越多地被应用于机器学习任务。本文将探讨 FPGA 机器学习
    的头像 发表于 07-16 15:34 3188次阅读

    边缘计算机器学习:基于 Linux 系统的实时推理模型部署与工业集成!

    你好,旅行者!欢迎来到Medium的这一角落。本文中,我们将把一个机器学习模型(神经网络)部署边缘设备上,利用ModbusTCP寄存器
    的头像 发表于 06-11 17:22 1206次阅读
    边缘计算<b class='flag-5'>中</b>的<b class='flag-5'>机器</b><b class='flag-5'>学习</b>:基于 Linux <b class='flag-5'>系统</b>的实时推理模型部署与工业集成!