0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

论文遭首届ICLR拒稿、代码被过度优化,word2vec作者Tomas Mikolov分享背后的故事

深度学习自然语言处理 来源:机器之心 2023-12-18 16:51 次阅读

除了表达自己获得 NeurIPS 2023 时间检验奖的感想之外,Tomas Mikolo 还对 NLP 和 ChatGPT 的现状给出了自己的一些思考。

几天前,NeurIPS 2023 公布了获奖论文,其中时间检验奖颁给了十年前的 NeurIPS 论文「Distributed Representations of Words and Phrases and their Compositionality」。这项工作引入了开创性的词嵌入技术 word2vec,展示了从大量非结构化文本中学习的能力,推动了自然语言处理新时代的到来。

这篇论文由当时都还在谷歌的 Tomas Mikolov、Ilya Sutskever、Kai Chen、Greg Corrado、Jeffrey Dean 等人撰写,被引量超过 4 万次。

6db585ca-9d7c-11ee-8b88-92fbcf53809c.png

不过,Word2vec 首篇论文是 Tomas Mikolov 等同一作者的「Efficient Estimation of Word Representations in Vector Space」。这篇论文的引用量也已经接近 4 万。

6db9b87a-9d7c-11ee-8b88-92fbcf53809c.png

论文地址:https://arxiv.org/abs/1301.3781

近日,Tomas Mikolov 分享了论文背后更多的故事,包括被首届 ICLR 拒稿以及之后的进展等。

6dc46cac-9d7c-11ee-8b88-92fbcf53809c.jpg

图源:https://www.facebook.com/tomas.mikolov

以下为原贴内容,我们做了不改变原意的整理。

我非常高兴 word2vec 论文获得了 NeurIPS 2023 时间检验奖,这是我获得的第一个最佳论文类型的奖项。实际上,word2vec 原始论文在 2013 年首届 ICLR 会议被拒绝接收了(尽管接收率很高),这让我想到审稿人预测论文的未来影响是多么困难。

这些年,我听到了很多关于 word2vec 的评论,正面的还有负面的,但至今没有在网络上认真地发表过评论。我觉得研究界正在不断地被一些研究人员的 PR 式宣传淹没,他们通过这样的方式获得他人的论文引用和注意力。我不想成为其中的一部分,但 10 年后,分享一些关于论文背后的故事可能会很有趣。

我经常听到的一个评论是,代码很难理解,以至于有些人认为是我故意地让代码不可读。但我没有那么邪恶,代码最终被过度优化了,因为我等了好几个月才被批准发布它。我也试图让代码更快更短。回想起来,如果当时团队中没有 Greg Corrado 和 Jeff Dean,我怀疑自己是否会获得批准。我认为 word2vec 可能是谷歌开源的第一个广为人知的 AI 项目。

在 word2vec 发布一年多后,斯坦福 NLP 小组的 GloVe 项目也引发了很大争议。虽然该项目从我们的项目中复刻了很多技巧,但总感觉 GloVe 倒倒退了一步:速度较慢,还需要更多内存,生成的向量质量比 word2vec 低。然而,GloVe 是基于在更多数据上预训练的词向量发布的,因而很受欢迎。之后,我们在 fastText 项目中修复了相关问题,在使用相同数据进行训练时,word2vec 比 GloVe 好得多。

尽管 word2vec 是我被引用最多的论文,但我从未认为它是我最有影响力的项目。实际上,word2vec 代码最初只是我之前项目 RNNLM 的一个子集,我感觉 RNNLM 很快就被人们遗忘了。但在我看来,它应该和 AlexNet 一样具有革命性意义。

在这里,我列举一些在 2010 年 RNNLM 中首次展示的想法:递归神经网络的可扩展训练、首次通过神经语言模型生成文本、动态评估、字符和子词级别的神经语言建模、神经语言模型自适应(现在称为微调)、首个公开可用的 LM 基准。

我发布了第一项研究,显示当一切正确完成时,训练数据越多,神经网络就能比 n-gram 语言模型更胜一筹。这在今天听起来是显而易见的,但在当时这被广泛认为是不可能的,甚至大多数谷歌员工都认为,数据越多,除了 n-gram 和平滑技术外,其他任何工作都是徒劳的。

我很幸运能在 2012 年加入谷歌 Brain 团队,那里有很多大规模神经网络的「信徒」,他们允许我参与 word2vec 项目,展示了它的潜力。但我不想给人留下到这里就足够完美的印象。在 word2vec 之后,作为后续项目,我希望通过改进谷歌翻译来普及神经语言模型。我确实与 Franz Och 和他的团队开始了合作,在此期间我提出了几种模型,这些模型可以补充基于短语的机器翻译,甚至可以取代它。

其实在加入谷歌之前,我就提出了一个非常简单的想法,通过在句子对(比如法语 - 英语)上训练神经语言模型来实现端到端的翻译,然后在看到第一句话后使用生成模式生成翻译。这对短句子效果很好,但在长句子上就不那么奏效了。

我在谷歌 Brain 内部多次讨论过这个项目,主要是与 Quoc 和 Ilya,在我转到 Facebook AI 后他们接手了这个项目。我感到非常意外的是,他们最终以「从序列到序列(sequence to sequence)」为名发表了我的想法,不仅没有提到我是共同作者,而且在长长的致谢部分提及了谷歌 Brain 中几乎所有的人,唯独没有我。那时是资金大量涌入人工智能领域的时期,每一个想法都价值连城。看到深度学习社区迅速变成某种权力的游戏,我感到很悲哀。

总之,多年来人们对语言模型的兴趣增长缓慢,但自从 ChatGPT 发布以来,人们对它的兴趣呈爆炸式增长,看到这么多人终于将人工智能和语言联系在一起,真的很酷。我们还没有到达那个阶段,我个人认为我们需要有新的发现来突破神经模型的泛化极限。我们无疑生活在一个激动人心的时代。但是,让我们不要过分信任那些想要垄断基于数十位甚至数百位科学家辛勤工作的技术,同时声称这一切都是为了人类的利益的人。

不过,Tomas Mikolov 的发言也让人感叹,他也要步 LSTM 之父 Jürgen Schmidhuber 的后尘吗?

6dd0b426-9d7c-11ee-8b88-92fbcf53809c.png

图源:https://twitter.com/agihippo/status/1736107652407849208

你们怎么看呢?

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 代码
    +关注

    关注

    30

    文章

    4555

    浏览量

    66767
  • nlp
    nlp
    +关注

    关注

    1

    文章

    463

    浏览量

    21821
  • ChatGPT
    +关注

    关注

    27

    文章

    1408

    浏览量

    4741

原文标题:论文遭首届ICLR拒稿、代码被过度优化,word2vec作者Tomas Mikolov分享背后的故事

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    KEIL怎么禁止某个函数/某段代码编译器优化

    有没有大佬知道,KEIL怎么禁止某个函数/某段代码 编译器优化
    发表于 04-10 08:17

    浅谈代码优化过度设计

    本文记录了作者从“代码优化”到“过度设计”的典型思考过程,这过程中涉及了很多Java的语法糖及设计模式的东西,很典型,能启发思考,遂记录下来。 有一天Review师妹的
    的头像 发表于 01-19 10:05 313次阅读
    浅谈<b class='flag-5'>代码</b><b class='flag-5'>优化</b>与<b class='flag-5'>过度</b>设计

    ICLR 2024高分投稿:用于一般时间序列分析的现代纯卷积结构

    这篇是 ICLR 上用 TCN 来做一般的时间序列分析的论文,在 Rebuttal 之后的分数为 888,算得上是时间序列领域相关的论文中最高分那一档了。本文提出了一个 ModernTCN 的模型
    的头像 发表于 12-18 16:05 442次阅读
    <b class='flag-5'>ICLR</b> 2024高分投稿:用于一般时间序列分析的现代纯卷积结构

    Omniverse 资讯速递 | 应用案例、创作者故事、OpenUSD 最新视频等你来解锁!

    在本期 「Omniverse 资讯速递」 中,Omniverse 用户和开发者将了解到: Omniverse 应用案例与创作者故事 OpenUSD 最新视频 Omniverse 应用案例与创作者
    的头像 发表于 12-04 20:20 344次阅读
    Omniverse 资讯速递 | 应用案例、创<b class='flag-5'>作者</b><b class='flag-5'>故事</b>、OpenUSD 最新视频等你来解锁!

    Omniverse 资讯速递 | 应用案例、创作者故事、行业观点等你来解锁!

    在本期 「Omniverse 资讯速递」 中,Omniverse 用户和开发者将了解到: Omniverse 应用案例与创作者故事 行业观点 Omniverse 应用案例与创作者故事
    的头像 发表于 10-09 19:55 307次阅读
    Omniverse 资讯速递 | 应用案例、创<b class='flag-5'>作者</b><b class='flag-5'>故事</b>、行业观点等你来解锁!

    如何使用Python读取写入Word文件

    Word 文件。 1、安装 pip install python-docx 02 读写 1、读取 使用 python-docx 库可以轻松读取 Word 文件。以下代码演示了如何读取一个名为
    的头像 发表于 09-27 17:03 1455次阅读

    嵌入式代码优化技巧

    最近工作中,我通过层层优化重复代码 ,最后抽出个通用模板.因此跟大家分享一下优化以及思考的过程。我会先造一个相似的例子,然后一步步带大家如何优化哈 ,看完一定会有帮助的。
    发表于 09-11 11:43 177次阅读
    嵌入式<b class='flag-5'>代码</b><b class='flag-5'>优化</b>技巧

    优化重复冗余代码的8种方式

    日常开发中,我们经常会遇到一些重复冗余的代码 。大家都知道重复代码不好 ,它主要有这些缺点:可维护性差、可读性差、增加错误风险 等等。最近呢,我优化了一些系统中的重复代码,用了好几种的
    的头像 发表于 09-11 09:47 358次阅读

    transformer原理解析

    这些embedding可以使用谷歌Word2vec (单词的矢量表示) 找到。在我们的数值示例中,我们将假设每个单词的embedding向量填充有 (0和1) 之间的随机值。
    的头像 发表于 09-06 14:44 716次阅读
    transformer原理解析

    Arm Neoverse™ V2核心软件优化指南

    本文档描述了影响软件性能的Neoverse V2核心微体系结构的各个方面。 微体系结构细节仅限于对软件优化有用的细节。 文档仅涉及Neoverse V2核心的软件可见行为,而不涉及该行为背后
    发表于 08-24 06:29

    兼顾内存和速度的C语言代码优化的方法

    在本篇文章中,我(指原作者)收集了很多经验和方法。应用这些经验和方法,可以帮助我们从执行速度和内存使用等方面来优化C语言代码
    发表于 07-24 15:44 279次阅读
    兼顾内存和速度的C语言<b class='flag-5'>代码</b><b class='flag-5'>优化</b>的方法

    代码如何优化掉多余的if/else?

    观点一(灵剑): 前期迭代懒得优化,来一个需求,加一个if,久而久之,就串成了一座金字塔。 当代码已经复杂到难以维护的程度之后,只能狠下心重构优化。那,有什么方案可以优雅的优化掉这些多
    的头像 发表于 06-22 10:01 480次阅读
    <b class='flag-5'>代码</b>如何<b class='flag-5'>优化</b>掉多余的if/else?

    PyTorch教程-15.4. 预训练word2vec

    15.4. 预训练word2vec¶ Colab [火炬]在 Colab 中打开笔记本 Colab [mxnet] Open the notebook in Colab Colab
    的头像 发表于 06-05 15:44 207次阅读
    PyTorch教程-15.4. 预训练<b class='flag-5'>word2vec</b>

    PyTorch教程15.4之预训练word2vec

    电子发烧友网站提供《PyTorch教程15.4之预训练word2vec.pdf》资料免费下载
    发表于 06-05 10:58 0次下载
    PyTorch教程15.4之预训练<b class='flag-5'>word2vec</b>

    Omniverse 资讯速递 | SIGGRAPH 亮点抢先看、相关赛事、应用案例与创作者故事、教程视频等你来解锁!

    在本期 「Omniverse 资讯速递」 中,Omniverse 用户和开发者将了解到: SIGGRAPH 亮点抢先看 Omniverse 相关赛事 Omniverse 应用案例与创作者故事
    的头像 发表于 05-15 23:40 349次阅读
    Omniverse 资讯速递 | SIGGRAPH 亮点抢先看、相关赛事、应用案例与创<b class='flag-5'>作者</b><b class='flag-5'>故事</b>、教程视频等你来解锁!