0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌提出Flan-T5,一个模型解决所有NLP任务

深度学习自然语言处理 来源:深度学习自然语言处理 作者:nghuyong 2022-11-24 11:21 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

d797167e-6ba6-11ed-8abf-dac502259ad0.jpg

「论文」: Scaling Instruction-Finetuned Language Models
「地址」: https://arxiv.org/abs/2210.11416
「模型」: https://huggingface.co/google/flan-t5-xxl

1. Flan-T5是什么

「Flan-T5」是Google最新的一篇工作,通过在超大规模的任务上进行微调,让语言模型具备了极强的泛化性能,做到单个模型就可以在1800多个NLP任务上都能有很好的表现。这意味着模型一旦训练完毕,可以直接在几乎全部的NLP任务上直接使用,实现「One model for ALL tasks」,这就非常有诱惑力!

这里的Flan指的是(Instruction finetuning),即"基于指令的微调";T5是2019年Google发布的一个语言模型了。注意这里的语言模型可以进行任意的替换(需要有Decoder部分,所以「不包括BERT这类纯Encoder语言模型」),论文的核心贡献是提出一套多任务的微调方案(Flan),来极大提升语言模型的泛化性。

d7ad732e-6ba6-11ed-8abf-dac502259ad0.png

Flat

例如下面文章中的例子,模型训练好之后,可直接让模型做问答:

「模型输入」是:"Geoffrey Hinton和George Washington这两个人有没有交谈过?在回答之前想一想原因。“

「模型返回」是:Geoffrey Hinton是一个计算机科学家,出生在1947年;而George Washington在1799年去世。所以这两个不可能有过交谈。所以答案时“没有”。

2. 怎么做的

d7bb88b0-6ba6-11ed-8abf-dac502259ad0.png

1800+微调任务

(1) 「任务收集」:工作的第一步是收集一系列监督的数据,这里一个任务可以被定义成<数据集,任务类型的形式>,比如“基于SQuAD数据集的问题生成任务”。需要注意的是这里有9个任务是需要进行推理的任务,即Chain-of-thought (CoT)任务。

(2) 「形式改写」:因为需要用单个语言模型来完成超过1800+种不同的任务,所以需要将任务都转换成相同的“输入格式”喂给模型训练,同时这些任务的输出也需要是统一的“输出格式”。

d7d6b630-6ba6-11ed-8abf-dac502259ad0.png

输入输出格式

如上图所示,根据 “是否需要进行推理 (CoT)” 以及 “是否需要提供示例(Few-shot)” 可将输入输出划分成四种类型:

  • chain-of-thought : and few-shot: (图中左上)
    • 输入:指令 + 问题
    • 输出:答案
  • chain-of-thought : and few-shot: (图中右上)
    • 输入:指令 + CoT引导(by reasoning step by step) + 问题
    • 输出:理由 + 答案
  • chain-of-thought: and few-shot: (图中左下)
    • 输入:指令 + 示例问题 + 示例问题回答 + 指令 + 问题
    • 输出:答案
  • chain-of-thought: and few-shot: (图中右下)
    • 输入:指令 + CoT引导 + 示例问题 + 示例问题理由 + 示例问题回答 + 指令 + CoT引导 + 问题
    • 输出:理由 + 答案

(3) 「训练过程」:采用恒定的学习率以及Adafactor优化器进行训练;同时会将多个训练样本“打包”成一个训练样本,这些训练样本直接会通过一个特殊的“结束token”进行分割。训练时候在每个指定的步数会在“保留任务”上进行模型评估,保存最佳的checkpoint。

d7f38ada-6ba6-11ed-8abf-dac502259ad0.png

保留任务

尽管微调的任务数量很多,但是相比于语言模型本身的预训练过程,计算量小了非常多,只有0.2%。所以通过这个方案,大公司训练好的语言模型可以被再次有效的利用,我们只需要做好“微调”即可,不用重复耗费大量计算资源再去训一个语言模型。

d81381dc-6ba6-11ed-8abf-dac502259ad0.png

微调过程与预训练本身的计算量对比

3. 一些结论

(1) 微调很重要

d923992c-6ba6-11ed-8abf-dac502259ad0.png

直接预测(红框)微调(绿框)

与不微调相比,通过基于指令的微调(flan)可以大幅度提高语言模型的效果。

(2) 模型越大效果越好

d9499398-6ba6-11ed-8abf-dac502259ad0.png

模型大小与任务数量对效果的影响

伴随模型体积的增加(上图左), 尤其是指数级的增加,比如从8B->62B,再从62B->540B,不论是否微调,效果都有非常显著的提升,而且还没有看到收敛的信号,可能如果有了 “万亿”参数的模型,效果还能继续提升。

(3) 任务越多效果越好

伴随任务数量的增加(上图右),模型的性能也会跟着增加,但是当任务数量超过282个之后,提升就不是很明显了。因为继续增加新的任务,尤其任务形式跟之前一样,不会给模型带来新的知识;多任务微调的本质是模型能够更好的把从预训练学到的知识进行表达,超过一定任务之后,继续新增相似的任务,知识的表达能力不会继续有很大的收益。进一步统计全部微调数据集的token数,发现只占到了预训练数据token数的0.2%,这表明还是有很多的知识没有在微调阶段重新被激发。

(4) 混杂CoT相关的任务很重要

d955b5a6-6ba6-11ed-8abf-dac502259ad0.png

保留任务中 CoT相关的任务 以及 非CoT相关的任务

尽管在1800多个任务中只有9个需要推理再给出回答的任务(CoT任务),但是混杂了这9个任务之后对整个模型的提升很大。在针对CoT相关任务的预测上,如果在微调中混淆CoT任务能带来明显的提升(左图中蓝色和绿色线);在针对非CoT相关任务的预测上,如果在微调中混淆了CoT任务也不会对模型带来伤害(右图中蓝色和绿色线)。

d966f668-6ba6-11ed-8abf-dac502259ad0.png

zero-shot上是否引入CoT的对比
(5) 整合起来

最终在多个不同尺寸的模型上进行实验,都可以获得一致性的结论:引入Flan微调方案,可以很好提高语言模型在超大规模任务上的整体效果。

d975968c-6ba6-11ed-8abf-dac502259ad0.png

不同版本的模型

总结一下,这篇工作提出了Flan的微调框架,核心有四点:统一的输入输出格式(4种类型),引入chain-of-thought,大幅提高任务数量,大幅提高模型体积;实现了用一个模型来解决超过1800种几乎全部的NLP任务,通过较低的成本,极大发掘了现有语言模型的泛化性能,让大家看到了通用模型的希望,即「One Model for ALL Tasks」


审核编辑 :李倩


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Google
    +关注

    关注

    5

    文章

    1820

    浏览量

    60713
  • 模型
    +关注

    关注

    1

    文章

    3877

    浏览量

    52352
  • nlp
    nlp
    +关注

    关注

    1

    文章

    491

    浏览量

    23379

原文标题:谷歌提出Flan-T5,一个模型解决所有NLP任务

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    谷歌开发者大会火力全开:AI全场景重构,搜索引擎迎最强升级!

    电子发烧友网综合报道  北京时间2026年5月20日凌晨1点,谷歌I/O 2026开发者大会在美国加州山景城开幕。与往年相比,今年这场发布会的重点,不是某一个模型或功能,而是
    的头像 发表于 05-21 11:33 4095次阅读

    谷歌发布Gemini for Science

    2026年5月20日,谷歌I/O开发者大会上,谷歌正式推出Gemini for Science——款专门面向科研场景的AI模型。这不是又
    的头像 发表于 05-21 10:42 1145次阅读

    谷歌推出Gemini 3.5系列模型

    2026年5月20日凌晨,谷歌I/O 2026开发者大会正式拉开帷幕。谷歌首席执行官桑达尔·皮查伊在舞台上抛出了枚重磅炸弹—— **Gemini 3.5 Flash** ,
    的头像 发表于 05-21 10:19 576次阅读

    学习FreeRTOS任务切换

    。 时间片切换,滴答定时器中断处理函数。 3. PendSV异常如何触发? 通过ICSR寄存器(中断控制状态寄存器)的PendSV位。 4. 如何确定下一个要运行的就绪任务? 使用硬件方法时通过
    发表于 05-06 13:30

    软硬全开源 + 扩展无边界!涂鸦 T5 AI 口袋机,让 AI + IoT 创意在掌心生长

    当AI大模型、游戏手柄、显示屏、音频系统、摄像头、传感器、4G蜂窝,以及涂鸦T5芯片被塞进同一个口袋,会激发出什么样的创造力?答案就在涂鸦T5AI口袋机(Tuya-
    的头像 发表于 01-22 18:08 888次阅读
    软硬全开源 + 扩展无边界!涂鸦 <b class='flag-5'>T5</b> AI 口袋机,让 AI + IoT 创意在掌心生长

    谷歌评论卡,碰碰即可完成谷歌评论 #谷歌评论卡 #NFC标签 #nfc卡

    谷歌
    深圳市融智兴科技有限公司
    发布于 :2026年01月15日 17:02:00

    每年10亿美元,苹果与谷歌官宣合作,Gemini大模型注入Siri

    该协议,下代苹果基础模型(Apple Foundation Models)将基于谷歌的Gemini模型和云技术。   苹果:借Gemini之力,加速AI追赶   长期以来,苹果在AI
    的头像 发表于 01-13 14:59 6015次阅读

    基于大模型的发射任务调度与过程保障分系统平台的应用与未来发展

    、智能决策算法及数字孪生等关键技术,实现发射任务效率、安全性与可靠性的三重跃升。    系统软件供应可以来这里,这个首肌开始是幺伍扒,中间是幺幺叁叁,最后一个是泗柒泗泗,按照数字顺序组合就可以找到。    应用案例    目前
    的头像 发表于 12-24 10:36 477次阅读

    模型驱动的发射任务智能调度分系统软件平台的应用与未来发展

    功能、应用案例及未来趋势四维度进行系统阐述。    应用案例    北京华盛恒辉科技和北京五木恒润科技推出的大模型驱动的发射任务智能调度分系统,广泛适用于各行业等领域,可出色完成大模型
    的头像 发表于 12-19 14:50 486次阅读

    谷歌正式推出最新Gemini 3 AI模型

    今天我们正式推出 Gemini 3,这是我们迄今为止最智能的模型,能够帮助用户实现任何创意。Gemini 3 Pro 基于最先进的推理技术,与之前的版本相比,它在所有主要的 AI 基准测试中都取得了无与伦比的结果,尤其是在编程方面也超越了 2.5 Pro,能够熟练地处理智
    的头像 发表于 11-24 11:10 1508次阅读
    <b class='flag-5'>谷歌</b>正式推出最新Gemini 3 AI<b class='flag-5'>模型</b>

    谷歌AlphaEarth和维智时空AI大模型的核心差异

    谷歌AlphaEarth和维智时空AI大模型在技术理念上存在诸多共性,但两者在目标尺度、数据来源、技术实现和应用模式上存在显著差异。
    的头像 发表于 10-22 14:50 1156次阅读

    谷歌AlphaEarth和维智时空AI大模型的技术路径

    谷歌AlphaEarth和维智时空AI大模型在应用场景和技术实现上各有侧重,但两者在底层技术理念上存在显著共性。
    的头像 发表于 10-22 14:48 1145次阅读

    小白学大模型:国外主流大模型汇总

    )领域。论文的核心是提出种名为Transformer的全新模型架构,它完全舍弃了以往序列模型(如循环神经网络RNNs和卷积神经网络CNNs)中常用的循环和卷积结构
    的头像 发表于 08-27 14:06 1254次阅读
    小白学大<b class='flag-5'>模型</b>:国外主流大<b class='flag-5'>模型</b>汇总

    【HZ-T536开发板免费体验】3 - Cangjie Magic调用视觉语言大模型(VLM)真香,是不是可以没有YOLO和OCR了?

    基于仓颉编程语言构建的 LLM Agent 开发框架,其主要特点包括:Agent DSL、支持 MCP 协议,支持模块化调用,支持任务智能规划。Cangjie Agent DSL 是
    发表于 08-01 22:15

    如何将FA模型开发的声明式范式应用切换到Stage模型

    模型切换概述 本文介绍如何将FA模型开发的声明式范式应用切换到Stage模型,您需要完成如下动作: 工程切换:新建
    发表于 06-04 06:22