0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NLP的两个部分:NLU和NLG

GKwL_infoqchina 来源:InfoQ 2019-12-12 14:18 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

比尔·盖茨曾说过,「语言理解是人工智能皇冠上的明珠」。自然语言处理的进步将会推动人工智能整体进展。NLP 的历史几乎跟计算机和人工智能的历史一样长。自计算机诞生,就开始有了对人工智能的研究,而人工智能领域最早的研究就是机器翻译以及自然语言理解。

随着大数据和技术设施的完善,人工智能技术在近年来迎来了井喷式的发展。在产业方面,不少专注于计算机视觉的公司也获得了长足发展。其中比较具有代表性的是估值已经超过 20 亿美元的商汤科技,在经历了数轮大额融资之后,其隐隐有从独角兽变成巨头的趋势。

不过,人工智能另一个相关领域自然语言处理似乎没有达到这种高度。在技术方面,这一领域的技术准确率远远没有达到计算机视觉和语音识别的水平,技术产品也因为较高的错误率,缺少实际价值。那么 NLP 技术到底有哪些难点呢?

什么是 NLP?

在人工智能出现之前,计算机只能处理结构化的数据,就比如我们平时用的表格里的数据,但是网络中大部分的数据都是非结构化的,比如我们看到的文章、图片、视频等等。在这些数据中,文本数据又往往是最多的,为了能够分析和利用这些文本信息,我们就需要利用 NLP 技术,让机器理解这些文本信息,并加以利用。

人类可以通过语言来交流,而为了让计算机之间互相交流,人们让所有计算机都遵守一些规则,计算机的这些规则就是计算机之间的语言。自然语言处理(NLP)就是在机器语言和人类语言之间沟通的桥梁,以实现人机交流的目的。

NLP 的两个部分:NLU 和 NLG

自然语言理解(NLU) 则是 NLP 的一部分,这几年深度学习技术的发展使 NLU 能在一些场景中落地。自然语言理解就是希望机器像人一样,具备正常人的语言理解能力,由于自然语言在理解上有很多难点 (下面详细说明),所以 NLU 是至今还远不如人类的表现。

NLU 目前应用的领域主要集中在机器翻译、机器客服、智能音箱等领域,但由于需要大量的数据训练和 NLU 本身存在的一些语言语义上的难点,其实机器还不是非常智能。

自然语言生成(NLG)是 NLP 的重要组成部分,NLU 负责理解内容,NLG 负责生成内容。他的主要目的是降低人类和机器之间的沟通鸿沟,将非语言格式的数据转换成人类可以理解的语言格式。

自然语言生成 – NLG 有 2 种方式:

text – to – text:文本到语言的生成

data – to – text :数据到语言的生成

NLP 的难点

对于机器来说,难点主要分为 5 类问题:

语言的多样性,我们日常所用的语言是没有规律的,不同的组合可以表达出很多的含义。

语言的歧义性,如果不联系上下文,缺少环境的约束,语言有很大的歧义性

语言是一个开放集合,我们可以任意的发明创造一些新的表达方式。

语言需要知识依赖,需要联系到实践知识。

语言的上下文

应用场景复杂,很难出现“独角兽”

总的来说,NLP 技术领域之所以没有出现如计算机视觉领域那些独角兽公司,是因为自然语言处理的技术难度太大,和应用场景太复杂。一个公司的成立发展都是由需求驱动的,自然语言应用主要是机器翻译,虽然机器翻译的需求长期存在,但机器翻译的水平一直未取得突破性的进展,即使到今天,机器也很难翻译有背景的复杂句子。

另外,自然语言处理的应用太依赖于UI了。图像识别基本不需要 UI,直接在系统内部集成一些技术就行。一些公司做翻译软件,如果UI做得不行,用户体验不行,人们就不会愿意使用。

技术产业化最重要的是商业模式,也就是怎么让技术挣钱。图像识别公司的挣钱模式已经成立了,但翻译付费就难多了。所以自然语言是从研究到技术到落地到商业化,面临一系列的挑战。目前的现状是,自然语言处理技术更多的是作为公司内部技术,比如内部的商业情报或人机接口功能。

NLP 技术发展,未来可期

从今年的 ACL 大会可以看出 NLP 技术的火爆。会议共收到了 2900 余篇提交的论文,投稿规模相较于 2018 年增长了 75%!自然语言处理领域实在是炙手可热,学术界和工业界的热情都创下了历史新高。

从商业层面来讲也涌现出了微软小冰、小米小爱等比较成熟的机器人产品,相信在未来的不久 NLP 技术一定会给我们带来更多的惊喜。

大咖现场分享 NLP 技术干货

王斌博士,是小米人工智能实验室主任,NLP 首席科学家。中国中文信息学会理事,计算语言学、信息检索、社会媒体处理、语言与知识计算等专委会委员及《中文信息学报》编委,中国计算机学会中文信息处理专业委员会委员。

加入小米之前,他在中科院计算所、信工所从事自然语言处理和信息检索相关的科研工作。在AICon 全球人工智能与机器学习大会现场,他将会带来 NLP 技术方面的相关演讲,各位感兴趣的小伙伴欢迎来现场听他分享。

AICon 全球人工智能与机器学习技术大会,将于 11 月 21-22 日在北京国际会议中心举行。颜水成、贾扬清、崔宝秋等 AI 技术大咖届时也会来现场,跟大家聊一聊今年在 AI 商业化场景落地的大背景下,又涌现出了哪些新技术。本次大会我们设立了机器学习、计算机视觉、NLP、AI芯片、搜索推荐、产业互联网、硅谷 AI 技术实践等 13+ 技术专场,细分到 AI 技术的各个领域,为大家全方位的展示 AI 技术在国内目前发展的现状。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1821

    文章

    50547

    浏览量

    267924
  • 计算机视觉
    +关注

    关注

    9

    文章

    1716

    浏览量

    47780
  • nlp
    nlp
    +关注

    关注

    1

    文章

    491

    浏览量

    23387

原文标题:为何NLP领域难以出现“独角兽”?丨AICon

文章出处:【微信号:infoqchina,微信公众号:InfoQ】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    是否可以通过基于UART的DMA在两个外部SRAM之间发送和接收数据?

    两个MPC5777C微控制器通过外部总线接口连接到两个外部SRAM。是否可以通过基于UART的DMA在两个外部SRAM之间发送和接收数据?
    发表于 04-06 07:38

    图像上两个多边形的ROI区域,如何获得这两个ROI区域重合部分的ROI

    labview中,图像上两个多边形的ROI区域,如何获得这两个ROI区域重合部分的ROI
    发表于 03-16 14:03

    两个RS485(Modbus RTU)主站与主站之间如何通讯

    本产品能很好解决Master-1主站向模块写入数据,Master-2主站读取数据;Master-2主站向模块写入数据,Master-1主站读取数据。由此解决两个主站之间的互相读通信难题。
    的头像 发表于 02-08 15:32 1025次阅读
    <b class='flag-5'>两个</b>RS485(Modbus RTU)主站与主站之间如何通讯

    两个RS485-Modbus主站如何通讯

    本产品能很好解决Master-1主站向模块写入数据,Master-2主站读取数据;Master-2主站向模块写入数据,Master-1主站读取数据。由此解决两个主站之间的互相读通信难题。
    发表于 02-08 15:32 1次下载

    使用博图(TIA Portal)监控PROFINET从站通讯状态的两个方法

    如何使用博图监控Profinet从站通讯状态,这里有两个方法供你选择。 方法一 | 使用DeviceStates指令 创建全局数据块 在博图项目中,创建一全局数据块(DB),用于存储从站状态信息
    的头像 发表于 01-17 11:21 1671次阅读
    使用博图(TIA Portal)监控PROFINET从站通讯状态的<b class='flag-5'>两个</b>方法

    曙光存储连续斩获两个行业奖项

    近期,曙光存储连续斩获两个行业奖项,自研技术产品在国产突破、AI行业应用等方面的成果获得广泛关注。
    的头像 发表于 01-15 16:28 2802次阅读

    时钟芯片与晶振:微小世界的两个巨人

    如今,我们常常遇到一些看似相似,但实则截然不同的概念。今天,我们就来探讨一下时钟芯片与晶振的区别。首先,我们要了解什么是时钟芯片和晶振。简单来说,它们都是电子设备中的重要组成部分,用于提供稳定的时间
    的头像 发表于 12-30 17:44 7056次阅读
    时钟芯片与晶振:微小世界的<b class='flag-5'>两个</b>巨人

    一文读懂:直线模组两个滑块距离能否调节?

    关键问题:直线模组中的两个滑块距离可以调节吗?答案并非绝对,而是要根据直线模组的具体类型、结构设计来综合判断,不同类型的直线模组在滑块距离调节上有着截然不同的特性。​飞
    的头像 发表于 12-29 15:47 550次阅读
    一文读懂:直线模组<b class='flag-5'>两个</b>滑块距离能否调节?

    FreeRtos 能否同时使用两个 CPU?

    的情况下,CM0 更愿意专门用于管理外设。 - 是否有在 CM0 和 CM4 中同时运行代码的简单示例或教程? - FreeRtos 能否同时使用两个 CPU?
    发表于 11-11 08:28

    硬件SPI两个CS操作两个norflash,怎么互斥操作两个norflash?

    硬件SPI两个CS操作两个norflash,怎么互斥操作两个norflash,有一norflash被模拟成U盘,会在中断中操作spi。
    发表于 09-26 06:18

    基本半导体连获两个行业奖项

    近日,基本半导体凭借在碳化硅模块领域的突出表现,连获“国产SiC模块TOP企业奖”和“年度优秀功率器件产品奖”两个行业奖项。
    的头像 发表于 09-05 16:31 1300次阅读

    如何使用 SPI 全双工在两个 5LP MPU 之间连接 RAM?

    我需要将两个 5LP MPU 连接在一起以镜像两个 5LP MPU 内的 RAM。 我认为这将是 DMA 的一功能,但我不确定如何实现该功能。 我的主 SPI 单元将向从属 MPU 发送一
    发表于 07-15 06:20

    请问一蓝牙芯片可以同时传输两个不同的数据吗?

    现在有两个不同的数据,想用一蓝牙芯片进行传输,可以做到吗?求解
    发表于 07-07 06:28

    图中两个按键开关是两个干簧管,为什么不直接对GND设计来检测这个干簧管通断呢?

    图中两个按键开关是两个干簧管,为什么不直接对GND设计来检测这个干簧管通断呢? 这样设计的原理是什么?
    发表于 06-17 06:30

    看到STM8L152用两个IO用两个或非门检测两个通断,是什么原理呢?

    图中两个按键开关是两个干簧管,为什么不直接对GND设计来检测这个干簧管通断呢? 这样设计的原理是什么?
    发表于 06-12 06:25