0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何使用较小的语言模型,并用少量样本来微调语言模型的权重

深度学习自然语言处理 来源:深度学习自然语言处理 作者:鱼羊 2021-01-07 14:27 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

2020年,GPT-3可谓火出了圈。

不仅讲故事的本职工作做得风生水起,还跨界玩起了网页设计、运维、下象棋……

不过,尽管表现惊艳,GPT-3背后到底是实实在在的1750亿参数,想要在实际应用场景中落地,难度着实不小。

现在,针对这个问题,普林斯顿的陈丹琦、高天宇师徒和MIT博士生Adam Fisch在最新论文中提出,使用较小的语言模型,并用少量样本来微调语言模型的权重。

4d534696-5036-11eb-8b86-12bb97331649.png

并且,实验证明,这一名为LM-BFF(better few-shot fine-tuning fo language models)的方法相比于普通微调方法,性能最多可以提升30%。

详情如何,一起往下看。

方法原理

首先,研究人员采用了基于提示的预测路线。

所谓基于提示的预测,是将下游任务视为一个有遮盖(mask)的语言建模问题,模型会直接为给定的提示生成文本响应。

4d7b70ee-5036-11eb-8b86-12bb97331649.png


这里要解决的问题,是寻找正确的提示。这既需要该领域的专业知识,也需要对语言模型内部工作原理的理解。

在本文中,研究人员提出引入一个新的解码目标来解决这个问题,即使用谷歌提出的T5模型,在指定的小样本训练数据中自动生成提示。

4dc132be-5036-11eb-8b86-12bb97331649.png

其次,研究人员在每个输入中,以额外上下文的形式添加了示例。

问题的关键在于,要有限考虑信息量大的示例,一方面,因为可用示例的数量会受到模型最大输入长度的限制;另一方面,不同类型的大量随机示例混杂在一起,会产生很长的上下文,不利于模型学习。

为此,研究人员开发了一种动态的、有选择性的精细策略:对于每个输入,从每一类中随机抽取一个样本,以创建多样化的最小演示集。

另外,研究人员还设计了一种新的抽样策略,将输入与相似的样本配对,以此为模型提供更多有价值的比较。

实验结果

那么,这样的小样本学习方法能实现怎样的效果?

研究人员在8个单句、7个句子对NLP任务上,对其进行了系统性评估,这些任务涵盖分类和回归。

4dec6b00-5036-11eb-8b86-12bb97331649.png

结果显示:

基于提示的微调在很大程度上优于标准微调;

自动提示搜索能匹敌、甚至优于手动提示;

加入示例对于微调而言很有效,并提高了少样本学习的性能。

4ec58340-5036-11eb-8b86-12bb97331649.png

在K=16(即每一类样本数为16)的情况下,从上表结果可以看到,该方法在所有任务中,平均能实现11%的性能增益,显著优于标准微调程序。在SNLI任务中,提升达到30%。

不过,该方法目前仍存在明显的局限性,性能仍大大落后于采用大量样本训练获得的微调结果。

关于作者

论文有两位共同一作。

高天宇,清华大学本科生特等奖学金获得者,本科期间即发表4篇顶会论文,师从THUNLP实验室的刘知远副教授。

今年夏天,他本科毕业后赴普林斯顿攻读博士,师从本文的另一位作者陈丹琦。

此前,量子位曾经分享过他在写论文、做实验、与导师相处方面的经验。

Adam Fisch,MIT电气工程与计算机科学专业在读博士,是CSAIL和NLP研究小组的成员,主要研究方向是应用于NLP的迁移学习和多任务学习。

他本科毕业于普林斯顿大学,2015-2017年期间曾任Facebook AI研究院研究工程师

至于陈丹琦大神,想必大家已经很熟悉了。她本科毕业于清华姚班,后于斯坦福大学拿下博士学位,2019年秋成为普林斯顿计算机科学系助理教授。

最后,该论文代码即将开源,如果还想了解更多论文细节,请戳文末论文链接详读~

传送门

论文地址:

https://arxiv.org/abs/2012.15723v1

项目地址:

https://github.com/princeton-nlp/LM-BFF

责任编辑:xj

原文标题:【前沿】陈丹琦团队最新论文:受GPT-3启发,用小样本学习给语言模型做微调,性能最高提升30%

文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语言模型
    +关注

    关注

    0

    文章

    570

    浏览量

    11255
  • GPT
    GPT
    +关注

    关注

    0

    文章

    368

    浏览量

    16715
  • 自然语言
    +关注

    关注

    1

    文章

    292

    浏览量

    13921

原文标题:【前沿】陈丹琦团队最新论文:受GPT-3启发,用小样本学习给语言模型做微调,性能最高提升30%

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    3万字长文!深度解析大语言模型LLM原理

    我们正在参加全球电子成就奖的评选,欢迎大家帮我们投票~~~谢谢支持本文转自:腾讯技术工程作者:royceshao大语言模型LLM的精妙之处在于很好地利用数学解决了工业场景的问题,笔者基于过往工程经验
    的头像 发表于 09-02 13:34 3086次阅读
    3万字长文!深度解析大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>LLM原理

    亚马逊云科技现已上线OpenAI开放权重模型

    客户现可通过Amazon Bedrock和Amazon SageMaker AI使用OpenAI开放权重模型,实现将先进的开放权重模型与全球最广泛云服务的深度集成。 亚马逊云科技首次上
    的头像 发表于 08-06 19:29 674次阅读

    欧洲借助NVIDIA Nemotron优化主权大语言模型

    NVIDIA 正携手欧洲和中东的模型构建商与云提供商,共同优化主权大语言模型 (LLM),加速该地区各行业采用企业级 AI。
    的头像 发表于 06-12 15:42 927次阅读

    小白学大模型:从零实现 LLM语言模型

    在当今人工智能领域,大型语言模型(LLM)的开发已经成为一个热门话题。这些模型通过学习大量的文本数据,能够生成自然语言文本,完成各种复杂的任务,如写作、翻译、问答等。https
    的头像 发表于 04-30 18:34 1062次阅读
    小白学大<b class='flag-5'>模型</b>:从零实现 LLM<b class='flag-5'>语言</b><b class='flag-5'>模型</b>

    ​VLM(视觉语言模型)​详细解析

    视觉语言模型(Visual Language Model, VLM)是一种结合视觉(图像/视频)和语言(文本)处理能力的多模态人工智能模型,能够理解并生成与视觉内容相关的自然
    的头像 发表于 03-17 15:32 7597次阅读
    ​VLM(视觉<b class='flag-5'>语言</b><b class='flag-5'>模型</b>)​详细解析

    小白学大模型:训练大语言模型的深度指南

    在当今人工智能飞速发展的时代,大型语言模型(LLMs)正以其强大的语言理解和生成能力,改变着我们的生活和工作方式。在最近的一项研究中,科学家们为了深入了解如何高效地训练大型语言
    的头像 发表于 03-03 11:51 1211次阅读
    小白学大<b class='flag-5'>模型</b>:训练大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>的深度指南

    语言模型的解码策略与关键优化总结

    本文系统性地阐述了大型语言模型(LargeLanguageModels,LLMs)中的解码策略技术原理及其实践应用。通过深入分析各类解码算法的工作机制、性能特征和优化方法,为研究者和工程师提供了全面
    的头像 发表于 02-18 12:00 1074次阅读
    大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>的解码策略与关键优化总结

    一文详解视觉语言模型

    视觉语言模型(VLM)是一种多模态、生成式 AI 模型,能够理解和处理视频、图像和文本。
    的头像 发表于 02-12 11:13 3260次阅读
    一文详解视觉<b class='flag-5'>语言</b><b class='flag-5'>模型</b>

    腾讯公布大语言模型训练新专利

    近日,腾讯科技(深圳)有限公司公布了一项名为“大语言模型的训练方法、装置、计算机设备及存储介质”的新专利。该专利的公布,标志着腾讯在大语言模型训练领域取得了新的突破。 据专利摘要显示,
    的头像 发表于 02-10 09:37 717次阅读

    Deepseek上单片机?RT-Thread上跑通大语言模型

    前言单片机也能聊天?RT-Thread上跑通大语言模型在RT-Thread论坛上忽然看到了单片机和大模型对话的文章,想着春节期间看到大语言模型
    的头像 发表于 02-07 18:59 2368次阅读
    Deepseek上单片机?RT-Thread上跑通大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>

    基于Arm Ethos-U85 NPU部署小语言模型

    随着人工智能 (AI) 的演进,人们对使用小语言模型 (SLM) 在嵌入式设备上执行 AI 工作负载的兴趣愈发高涨。
    的头像 发表于 01-20 09:53 952次阅读

    【「基于大模型的RAG应用开发与优化」阅读体验】+大模型微调技术解读

    集对模型进行进一步训练的过程。 大模型微调是利用预训练模型权重和特征,通过在新任务数据集上的训练,对
    发表于 01-14 16:51

    望获实时Linux系统与大语言模型深度融合,开创实时智能无限可能!

    语言模型的崛起为智能化应用开辟了新的可能性。借助深度学习技术,这些模型能够理解和生成自然语言,处理复杂的文本和语义信息。这使得它们在诸如人机问答、内容生成和数据分析等领域展现出巨大的
    的头像 发表于 01-08 13:44 1040次阅读

    语言模型管理的作用

    要充分发挥语言模型的潜力,有效的语言模型管理非常重要。以下,是对语言模型管理作用的分析,由AI部
    的头像 发表于 01-02 11:06 573次阅读

    AI大语言模型开发步骤

    开发一个高效、准确的大语言模型是一个复杂且多阶段的过程,涉及数据收集与预处理、模型架构设计、训练与优化、评估与调试等多个环节。接下来,AI部落小编为大家详细阐述AI大语言
    的头像 发表于 12-19 11:29 1221次阅读