0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

专访NLP领域的华人新星——加州大学圣巴巴拉分校助理教授王威廉

电子工程师 来源:未知 作者:李倩 2018-10-18 11:39 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

自然语言处理(NLP)是一门集语言学、计算机科学、人工智能于一体的科学,解决的是“让机器可以理解自然语言”——这一到目前为止都还只是人类独有的特权,因此被誉为人工智能皇冠上的明珠。

近日,采访到了 NLP 领域的华人新星——加州大学圣巴巴拉分校助理教授王威廉,向他请教了 NLP 领域最前沿的研究问题,以及 NLP 研究方向的一些建议。

关于王威廉:2009 年毕业于深圳大学,随后赴美留学,并先后在哥伦比亚大学和卡耐基梅隆大学获得硕士和博士学位。他的研究范围包括统计关系学习、信息提取、社交媒体、语音和视觉等等。2016 年博士毕业之后,王威廉加盟加州大学圣巴巴拉分校。如今,王威廉已经是该校 NLP 小组的负责人,同时也是计算机科学系的助理教授。近几年来,王威廉在一些重要的 NLP/AI/ ML 等会议和期刊上发表了 60 多篇论文,并多次获得知名学术会议的最佳论文奖及提名。

1)您现在的主要研究领域是什么?有哪些最新进展?

王威廉:我的主要研究领域现在有三个:自然语言处理、机器学习、人工智能。

在自然语言处理领域,我们实验室主要关注的方向是信息抽取,社交媒体,语音、语言处理,以及语言与视觉方面的研究;

在机器学习领域,我们比较关注的是强化学习、对抗学习以及深度学习技术的突破;

在人工智能总体领域,我们对知识的表示、推理、知识图谱非常关注。

我们最近的一些突破,比如发表在 EMNLP 2017 上 DeepPath 首先提出了用强化学习的方法去做知识图谱上的推断,这项工作取得了很大的关注。我们还有一些相关的工作,比如用变分推理的方法去进一步提高知识图谱路径找寻的效率。

此外,我们还有不少在语言与视觉方面的尝试,包括 video captioning,video storytelling,以及如何把深度强化学习技术与这些复杂的语言与视觉的技术相结合。我们尝试了逆向的强化学习,去学习生成文本描述的多样性,主动学习它的一些奖励函数。我们最近也做了一些 language grounding 的工作,比如教机器人根据语言与视觉的信息来完成路径的找寻,到达目的地。同时我们也在社交媒体领域做了不少关于假新闻、仇恨言论检测的工作。

2)NLP 领域目前有哪些突破?未来的研究难点有哪些?

王威廉:在 NLP 领域,实体标注等工作的结果都非常好了,基本上都超过 90% 的准确率。现在的一些工作,包括大家很关心的阅读理解,在 SQuAD 上面第一版的结果已经非常好了。在未来,我认为语言的生成还是一个很难的问题,就是如何去做一些可以控制的生成,如何保证语义的连贯性以及语法的正确性,这些都是在神经网络框架下难以做到的。

还有一个是推理的问题。我们如何进一步地在分类、在序列标注等任务的基础上设计一些算法以及机器学习的模型,然后让机器能够在一些复杂的任务上,尤其是一些推理的相关的任务上取得一些突破,这些还是相当难的问题。

3)NLP 领域里比较流行的 SQuAD 数据集的局限性在哪?NLP 领域需要怎样的数据集?以及怎样的评价标准?

王威廉:它的局限性有几个,第一是数据量还不大,第二是机器做阅读理解的时候其实并不需要完全理解这个问题,也不需要完全理解这个篇章,它可以用很简单的模式识别的方法去找 pattern。比如说这个问题里面的哪个词和篇章里面的哪个词比较匹配,然后来回答答案。所以它并不能真正地理解语言,不能很好地理解问题,遇到复杂的问题就回答不了。

NLP 领域需要更加复杂的数据集,比如说多个文本,需要在知识图谱里做一些推断,需要根据上下文不同的假设去做一些推测,这样的数据集可能会有更多的帮助。

评价标准是很多人在讨论的一个话题,像 BLEU 等已经用了一二十年了,它局限性非常大,比如说它不是通过语义的方法来做评价,而是是通过词之间的 overlap(重叠)做的一个评价标准,所以它不能代替人类的评价。

4)Salesforce 开发了一个针对十大自然语言常见任务(问答、机器翻译、摘要、自然语言推理、情感分析、语义角色标注、关系抽取、任务驱动多轮对话、数据库查询生成器和代词消解)通用模型 decaNLP,这种通用模型有哪些优缺点?

王威廉:个人认为多任务学习、是非常有意思的一个方向。你可以看一下 decaNLP 的单项结果,确实是比各个单项的 SOTA 还是有一些距离的。总体来说,这是非常有意思的一个研究方向,但是在实际应用中,每一个单项的成绩比单项的 SOTA 还是有不小的距离。

5)基于 Attention 的网络真的可以取代 RNN 及其变种吗?为什么?

王威廉:不一定。RNN 及其变种确实有一些优势,比如它能够把握 非常准确的本地语义关系,像LSTM 在 sequence tagging 等任务上还是能取得非常不错的结果。总体来说,Transformer 还是很有意思的研究角度,但是实际情况是,它并没有在除了机器翻译之外的 NLP 任务上面取得最好的结果。

6)强化学习和 GAN 现在非常热门,但在 NLP 任务中又有很多限制,面对这种现状,科研人员应该怎么做?

王威廉:我觉得首先你要搞清楚为什么要用强化学习。在我看来,强化学习在 NLP 中可以做三件事情。第一件事情,你可以用它去做 learning to search,learning to rank,然后用强化学习作为解决传统方法解决不了的问题的一种手段。第二件,我们发现在 reinforcedco-training 这个工作中,强化学习可以学习选择数据,然后我们可以用强化学习去做 denoiser(去噪)。此外,还可以用强化学习去优化 BLEU Score,ROUGE Score,我们最近发表在 ACL 2018 上的工作也有用逆向强化学习去学它的评价标准。总之,还是有不少值得研究的空间。

GAN 更是一个很有意思的方向。GAN 在 CV 领域取得了很好的结果,在 NLP 领域,由于语言是离散的,所以大家还在研究如何通过更好地设计对抗网络,让判别器可以去反向传播错误,从而更好地更新生成器。我们在负例生成与远程监督去噪上也做了一些尝试,包括今年的 KBGAN 和 DSGAN 。

总体来说,首先要搞清楚你为什么要做这个事情?你到底要做什么事情?强化学习跟 GAN 适不适合这个任务?搞清楚了这几点,然后才有可能使得你的 NLP 的结果得到提升。如果搞不清楚就盲目应用 GAN 和强化学习,是是很难在你的任务中取得很好的结果的。

7)对于科研人员来说,NLP 里哪些研究方向更容易取得突破?

王威廉:自然语言研究有两块,一个是生成,一个是理解。生成和理解这两块其实都非常重要,比较难说哪一块更容易取得突破。

但是生成的任务肯定是非常难的,因为首先词汇量是无穷无尽的,然后 latent space 和词的映射关系也是非常难做的,所以生成会是比较难一点。

至于理解任务,要看你做到哪一步了。如果你是做文本分类这些简单一点的 任务,当然也有难一点的,比如说结构化预测,sequence tagging 会更难一点,那最难的可能就是比如说句法树的生成,比如依存句法分析或者是语义分析。

8)面对目前 NLP 领域的研究困境,以往我们会在数据、ML 或 DL 等方法上做创新或改变,现在是否依然是这个思路?是否需要懂得语言学知识或者融合其他学科知识?

王威廉:在早些年,大家做 NLP 研究可能是研究计算语言学,就是怎样用计算的方法去更好地理解语言学。现在基本上已经变了,过去 10-15年,NLP 基本上是计算机科学家为主,他们可能会关心一些更加实用的任务,比如说机器翻译,对话系统。大家可以看到,很多的 NAACL 、EMNLP 论文,往往是在数据、任务或者是机器学习的方法上做一些创新。

这其实也跟计算机学科有关,因为计算机学科本身喜欢在算法层面上做创新。至于需不需要语言学知识?在深度学习之前,大家觉得是需要的,有了深度学习之后,大家觉得可能不需要。但是现在大家又发现,像 Seq2Seq 模型的结果非常差,语义连贯性、语法正确性也都没有保证,而大家又想把结构融合到深度学习模型里。所以我个人认为还是需要掌握一些语言学知识,至少对你学习和研究的语言要有一些基本的知识,而其他学科的知识,根据你不同的应用也是非常重要的。比如说你做计算社会科学,你当然是需要知道一些社会科学,包括心理学、社会学一些相关的知识,然后才能更好地让你的研究取得突破。

9)近几年中国在 NLP 领域的发展状况?

王威廉:最近几年中国在 NLP 领域的发展是非常迅猛的,主要体现在下以下几个方面。第一,大家可以看到,在 NLP领域的 ACL、NAACL、EMNLP 这三大会议上,中国人基本上已经撑起了半边天。现在有一半的论文至少都是来自于国内的高校,然如果看第一作者,华人作者的比例可能会更高。国内工业界的发展也非常迅猛,尤其在自然语言处理领域。另外,现在国内是百花齐放,不光是传统的清华、北大、中科院、哈工大,很多其他的学校都陆陆续续有很多的优秀的教授以及一些非常优秀的研究。相比美国,中国的增速肯定是快很多的。总体来说,中美已经是 NLP 领域的两个强国了,接下来就希望更多的中国论文能够获得最佳论文奖。

10)中文 NLP 和英文 NLP 的区别在哪?

王威廉:中文 NLP 难点在于它的处理单元不是词,而是字符。不管是做强化学习,还是做 Seq2Seq ,在词级别来做和字符级别还是差很远的。如果是做字符级别的话,你的 sequence 可能会变得非常长,并不太容易做。所以中文的挑战在于语言本身比较难。除了汉语,也有其他少数民族的语言非常值得关注和留意。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1813

    文章

    49734

    浏览量

    261508
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136233
  • nlp
    nlp
    +关注

    关注

    1

    文章

    491

    浏览量

    23191

原文标题:专访王威廉:NLP哪些研究方向更容易取得突破?

文章出处:【微信号:rgznai100,微信公众号:rgznai100】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    加州大学圣地亚哥分校:研发新型传感器,实现阿摩尔级生物分子精准检测

    这项技术让可穿戴设备在剧烈运动、水下等复杂环境中,依然能实现 精准手势识别和机械臂控制 ,为 虚拟现实、康复医疗、工业救援 等领域打开了新大门。 直击痛点:运动干扰是手势识别的“敌人”   智能
    的头像 发表于 11-20 15:24 700次阅读
    <b class='flag-5'>加州大学</b>圣地亚哥<b class='flag-5'>分校</b>:研发新型传感器,实现阿摩尔级生物分子精准检测

    智汇虹科 | 中山大学原副校长李善民教授一行莅临虹科考察指导

    10月22日,中山大学原副校长、经管学部主任兼企业研究院理事长、博导李善民教授,教务部主任、高级金融研究院副院长、博导王彩萍教授,马克思主义学院助理
    的头像 发表于 10-23 17:06 960次阅读
    智汇虹科 | 中山<b class='flag-5'>大学</b>原副校长李善民<b class='flag-5'>教授</b>一行莅临虹科考察指导

    致真精密仪器助力厦门大学科研团队发表重要成果

    近日,厦门大学物理学系康俊勇教授团队吴雅苹教授、吴志明教授、李煦副教授联合南方科技大学陈晓龙副
    的头像 发表于 10-23 11:18 862次阅读
    致真精密仪器助力厦门<b class='flag-5'>大学</b>科研团队发表重要成果

    同济大学:仿生纳米通道气凝胶晶体管,突破生物传感灵敏度极限

    兼具高灵敏度、高选择性且能检测痕量生物分子的便携设备,仍是疾病早期预警和精准医疗的重大挑战。 受人体嗅觉系统中定向离子通道的启发, 同济大学 黄佳教授 、 徐洋教授 、 祖国庆助理
    的头像 发表于 08-18 17:48 7927次阅读
    同济<b class='flag-5'>大学</b>:仿生纳米通道气凝胶晶体管,突破生物传感灵敏度极限

    后摩智能与高校合作研究成果荣获ISCA 2025最佳论文奖

    近日,北京后摩智能科技有限公司与北京大学集成电路学院孙广宇长聘副教授团队、上海交通大学张宸助理教授团队、香港科技
    的头像 发表于 07-05 11:21 1868次阅读

    兰州大学:研究团队在温度传感用发光材料领域取得新进展

      近日,兰州大学材料与能源学院王育华教授课题组在温度传感用发光材料领域取得了新进展。相关研究成果以“Luminescence Thermometry via MultiParameter
    的头像 发表于 04-25 15:23 461次阅读
    兰州<b class='flag-5'>大学</b>:研究团队在温度传感用发光材料<b class='flag-5'>领域</b>取得新进展

    第五届华人芯片设计技术研讨会(ICAC 2023)举办,孙楠博士任技术委员会主席|行业动态

    2023年3月22日-24日,第五届华人芯片设计技术研讨会(ICAC 2023)在深圳举办。清华大学电子系长聘教授、士模创始人孙楠博士担任本次研讨会技术委员会主席,并做专题学术报告“A 1GS/s PVT-Robust Ring
    的头像 发表于 04-01 17:00 1038次阅读
    第五届<b class='flag-5'>华人</b>芯片设计技术研讨会(ICAC 2023)举办,孙楠博士任技术委员会主席|行业动态

    下一代3D晶体管技术突破,半导体行业迎新曙光!

    新的晶体管技术。加州大学巴巴拉分校的研究人员在这一领域迈出了重要一步,他们利用二维(2D)半导体技术,成功研发出新型三维(3D)晶体管,为
    的头像 发表于 03-20 15:30 1012次阅读
    下一代3D晶体管技术突破,半导体行业迎新曙光!

    1550-1620MHz 100w螺旋天线:无线通信领域新星

    深圳安腾纳天线|1550-1620MHz 100w螺旋天线:无线通信领域新星
    的头像 发表于 03-06 09:05 644次阅读

    清华大学:软体机器人柔性传感技术最新研究进展

    。近日,清华大学深圳国际研究生院曲钧天助理教授的海洋软体机器人与智能传感实验室(Ocean Soft-Robot and Intelligent Sensing Lab,OASIS-LAB)在国际期刊
    的头像 发表于 02-14 14:31 1207次阅读
    清华<b class='flag-5'>大学</b>:软体机器人柔性传感技术最新研究进展

    Thorlabs收购MEMS VCSEL先驱者Praevium Research

    公司经过数年的紧密合作后,Praevium Research正式成为Thorlabs大家庭的一员。 Praevium Research由加州大学巴巴拉分校知名研究员Vijay Jay
    的头像 发表于 01-24 10:45 754次阅读

    76岁解开电磁学哥德巴赫猜想——“中国微波之父”林为干

    林为干(1919年10月20日—2015年1月23日),广东省台山县人。我国著名微波理论学家。1939年毕业于清华大学;1951年在美国加州大学伯克利分校获博士学位。1951年回国,在岭南大学
    的头像 发表于 01-22 17:33 1438次阅读
    76岁解开电磁学哥德巴赫猜想——“中国微波之父”林为干

    两大AI模型性能提升 登上国际榜单

    ,目前位列BFCLLeaderboard总榜单第一。据悉,榜单BFCLLeaderboard是由加州大学伯克利分校开发的评估LLM工具调用能力基准测试平台。作为目前大
    的头像 发表于 01-16 12:01 1172次阅读
    两大AI模型性能提升 登上国际榜单

    谷歌量子芯片实现计算领域重大突破

    Alphabet旗下的一员,谷歌在量子计算领域的探索与微软、IBM等科技巨头并驾齐驱。量子计算技术以其承诺的远超当前最先进系统的计算速度,吸引了全球科技界的广泛关注。谷歌位于美国加州巴巴拉
    的头像 发表于 12-13 11:10 1139次阅读

    NaVILA:加州大学与英伟达联合发布新型视觉语言模型

    日前,加州大学的研究人员携手英伟达,共同推出了一款创新的视觉语言模型——NaVILA。该模型在机器人导航领域展现出了独特的应用潜力,为智能机器人的自主导航提供了一种全新的解决方案。 视觉语言模型
    的头像 发表于 12-13 10:51 956次阅读