0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

参数少近一半,性能逼近谷歌Minerva,又一个数学大模型开源了

智能感知与物联网技术研究所 来源:未知 2023-10-23 09:40 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

大模型家族来了一个专门解决数学问题的「新成员」——Llemma。

如今,在各种文本混合数据上训练出来的语言模型会显示出非常通用的语言理解和生成能力,可以作为基础模型适应各种应用。开放式对话或指令跟踪等应用要求在整个自然文本分布中实现均衡的性能,因此更倾向于通用模型。

不过如果想要在某一领域(如医学、金融或科学)内最大限度地提高性能,那么特定领域的语言模型可能会以给定的计算成本提供更优越的能力,或以更低的计算成本提供给定的能力水平。

普林斯顿大学、 EleutherAI 等的研究者为解决数学问题训练了一个特定领域的语言模型。他们认为:首先,解决数学问题需要与大量的专业先验知识进行模式匹配,因此是进行领域适应性训练的理想环境;其次,数学推理本身就是 AI 的核心任务;最后,能够进行强数学推理的语言模型是许多研究课题的上游,如奖励建模、推理强化学习和算法推理。

因此,他们提出一种方法,通过对 Proof-Pile-2 进行持续的预训练,使语言模型适应数学。Proof-Pile-2 是数学相关文本和代码的混合数据。将这一方法应用于 Code Llama,可以得到 LLEMMA:7B 和 34B 的基础语言模型,其数学能力得到了大幅提高。

wKgZomU10CaAfxDAAAFcpQH7b3o494.png

论文地址:https://arxiv.org/pdf/2310.10631.pdf

项目地址:https://github.com/EleutherAI/math-lm

LLEMMA 7B 的 4-shot Math 性能远超谷歌 Minerva 8B,LLEMMA 34B 在参数少近一半的情况下性能逼近 Minerva 62B。

wKgZomU10CaAZk_oAAKgLyxaIIM868.png

具体来说,本文贡献如下:

  • 1. 训练并发布了 LLEMMA 模型:专门用于数学的 7B 和 34B 语言模型。LLEMMA 模型是在 MATH 上公开发布的基础模型的最新水平。

  • 2. 发布了代数堆栈(AlgebraicStack),这是一个包含 11B 专门与数学相关的代码 token 的数据集。

  • 3. 证明了 LLEMMA 能够使用计算工具来解决数学问题,即 Python 解释器和形式定理证明器。

  • 4. 与之前的数学语言模型(如 Minerva)不同,LLEMMA 模型是开放式的。研究者开放了训练数据和代码。这使得 LLEMMA 成为未来数学推理研究的一个平台。

方法概览

LLEMMA 是专门用于数学的 70B 和34B 语言模型。它由 Proof-Pile-2 上继续对代码 Llama 进行预训练得到的。

wKgZomU10CaAe9GbAAG9tF6AKXA534.png

DATA: Proof-Pile-2

研究者创建了 Proof-Pile-2,这是一个 55B token 的科学论文、包含数学的网络数据和数学代码的混合物。除了 Lean proofsteps 子集之外,Proof-Pile-2 的知识截止日期为 2023 年 4 月。

wKgZomU10CaAbSQrAAH26m_Cmic200.png

数值模拟、计算机代数系统和形式定理证明器等计算工具对数学家的重要性与日俱增。因此,研究者创建了代数堆栈(AlgebraicStack),这是一个包含 17 种语言源代码的 11B token 数据集,涵盖数值数学、符号数学和形式数学。该数据集由来自 Stack、GitHub 公共资源库和形式证明步骤数据的过滤代码组成。表9显示了AlgebraicStack 中各语言的 token 数量。

wKgZomU10CeAPe9rAAL9Lu3uqdc489.png

AlgebraicStack 中各语言的 token 数。

研究者了使用 OpenWebMath,这是一个由高质量网页组成的 15B token 数据集,其中过滤了数学内容。OpenWebMath 根据数学相关关键词和基于分类器的数学评分过滤 CommonCrawl 网页,保留数学格式(如 LATEX、AsciiMath),并包含额外的质量过滤器(如 plexity、domain、length)和近似重复。

除此之外,研究者还使用了 RedPajama 的 ArXiv 子集,它是 LLaMA 训练数据集的开放再现。ArXiv 子集包含 29B 个词块。训练混合数据由少量一般领域数据组成,起到了正则化的作用。由于 LLaMA 2 的预训练数据集尚未公开,研究者使用 Pile 作为替代训练数据集。

模型和训练

每个模型都是从 Code Llama 初始化而来,该模型又初始化自 Llama 2,使用仅解码器(deconder only)的 transformer 结构,在 500B 的代码 token 上训练而成。研究者使用标准自回归语言建模目标,在 Proof-Pile-2 上继续训练 Code Llama 模型。这里,LLEMMA 7B 模型有 200B token,LLEMMA 34B 模型有 50B token。

研究者使用 GPT-NeoX 库在 256 个 A100 40GB GPU 上,以 bfloat16 混合精度来训练以上两个模型。他们为 LLEMMA-7B 使用了世界大小为 2 的张量并行,为 34B 使用了世界大小为 8 的张量并行,以及跨数据并行副本的 ZeRO Stage 1 分片优化器状态。此外还使用 Flash Attention 2 来提高吞吐量并进一步降低内存需求。

LLEMMA 7B 经过了 42000 步的训练,全局 batch 大小为 400 万个 token,上下文长度为 4096 个 token。这相当于 23000 个 A100 时。学习率在 500 步后预热到了 1・10^−4,然后在 48000 步后将余弦衰减到最大学习率的 1/30。

LLEMMA 34B 经过了 12000 步的训练,全局 batch 大小同样为 400 万个 token,上下文长度为 4096。这相当于 47000 个 A100 时。学习率在 500 步后预热到了 5・10^−5,然后衰减到峰值学习率的 1/30。

评估结果

在实验部分,研究者旨在评估 LLEMMA 是否可以作为数学文本的基础模型。他们利用少样本评估来比较 LLEMMA 模型,并主要关注没有在数学任务监督样本上进行微调的 SOTA 模型。

研究者首先使用思维链推理和多数投票(majority voting)方法来评估 LLEMMA 求解数学题的能力,评估基准包括了 MATH 和 GSM8k。然后探索使用少样本工具和定理证明。最后研究了内存和数据混合的影响。

使用思维链(CoT)求解数学题

这些任务包括为 LATEX 或自然语言表示的问题生成独立的文本答案,而无需使用外部工具。研究者使用到的评估基准有 MATH、GSM8k、 OCWCourses、SAT 和 MMLU-STEM。

结果如下表 1 所示,LLEMMA 在 Proof-Pile-2 语料库上的持续预训练在 5 个数学基准上均提升了少样本性能,其中 LLEMMA 34B 在 GSM8k 上比 Code Llama 提高了 20 个百分点,在 MATH 上比 Code Llama 提高了 13 个百分点。同时 LLEMMA 7B 优于专有的 Minerva 模型。

因此,研究者得到结论,在 Proof-Pile-2 上进行持续预训练有助于提升预训练模型求解数学题的能力。

wKgZomU10CeAPYmNAAO3NtutYDs350.png

使用工具求解数学题

这些任务包括使用计算工具来解题。研究者使用到的评估基准有 MATH+Python 和 GSM8k+Python。

结果如下表 3 所示,LLEMMA 在这两项任务上均优于 Code Llama。同时使用工具后在 MATH 和 GSM8k 上的性能也优于没有工具的情况。

wKgZomU10CeAQEzzAAHZi6G1Ss0371.png

形式数学

Proof-Pile-2 的 AlgebraicStack 数据集拥有 15 亿 token 的形式数学数据,包括提取自 Lean 和 Isabelle 的形式化证明。虽然对形式数学的全面研究超出了本文的探讨范围,但研究者在以下两个任务上评估了 LLEMMA 的少样本性能。

wKgZomU10CiAOFjoAAS1H2R2nlk848.png

非形式到形式证明任务,即在给定形式命题、非形式 LATEX 命题和非形式 LATEX 证明的情况下,生成一个形式证明;

形式到形式证明任务,即通过生成一系列证明步骤(或策略)来证明一个形式命题。

结果如下表 4 所示,LLEMMA 在 Proof-Pile-2 上的持续预训练在两个形式定理证明任务上提升了少样本性能。

数据混合的影响

训练语言模型时,一种常见的做法是根据混合权重对训练数据的高质量子集进行上采样。研究者在几个精心挑选的混合权重上进行了短期训练,以此选择混合权重。接着选择了在一组高质量 held-out 文本(这里使用了 MATH 训练集)上能够最小化困惑度的混合权重。

下表 5 显示了使用 arXiv、web 和代码等不同数据混合训练后,模型的 MATH 训练集困惑度。

wKgZomU10CiAdPjxAALJca0qrP0510.png

更多技术细节和评估结果参阅原论文。


原文标题:参数少近一半,性能逼近谷歌Minerva,又一个数学大模型开源了

文章出处:【微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 物联网
    +关注

    关注

    2939

    文章

    47317

    浏览量

    407762

原文标题:参数少近一半,性能逼近谷歌Minerva,又一个数学大模型开源了

文章出处:【微信号:tyutcsplab,微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    同样是管设备,为什么他们的维修成本比你低一半

    不少管理者困惑:设备型号、生产规模相近,为何部分企业维修成本能低一半?答案藏在设备管理的精细化与技术应用深度里。结合中设智控的行业实操案例,可找到降本关键路径。
    的头像 发表于 09-10 09:50 351次阅读
    同样是管设备,为什么他们的维修成本比你低<b class='flag-5'>一半</b>?

    OpenAI发布2款开源模型

    OpenAI开源两款高性能权重语言模型gpt-oss-120b和gpt-oss-20b,OpenAI CEO Sam Altman表示:「gpt-oss 发布
    的头像 发表于 08-06 14:25 878次阅读

    万亿参数!元脑企智体机率先支持Kimi K2大模型

    应用大模型提供高处理性能和完善的软件工具平台支持。   Kimi K2是月之暗面推出的开源万亿参数模型,创新使用了MuonClip优化器进
    的头像 发表于 07-22 09:27 401次阅读
    万亿<b class='flag-5'>参数</b>!元脑企智<b class='flag-5'>一</b>体机率先支持Kimi K2大<b class='flag-5'>模型</b>

    【VisionFive 2单板计算机试用体验】3、开源大语言模型部署

    , Gemma等开源模型。当然,些闭源的(类似chatgpt, gemini)是不支持部署的。如下图: 在端侧部署大模型,个人认为最大的好处:是可以避免因文本或图片上传而造成的信
    发表于 07-19 15:45

    华为正式开源盘古7B稠密和72B混合专家模型

    [中国,深圳,2025年6月30日] 今日,华为正式宣布开源盘古70亿参数的稠密模型、盘古Pro MoE 720亿参数的混合专家模型和基于昇
    的头像 发表于 06-30 11:19 1107次阅读

    看点:黄仁勋:全球一半AI人才都是中国人 富士康将在印度投资15亿美元

    。全球有一半AI人员都是中国人,美国是无法阻止中国AI发展的。而且盛赞我国的Deepseek R1;黄仁勋表示Deepseek R1是款非常棒的产品。Deepseek R1是献给世界的礼物 ;它还为世界各地的美国研究人员开辟
    的头像 发表于 05-21 11:40 589次阅读

    高速PCB设计过孔不添乱,乐趣一半

    计的阻抗有多夸张。 出人意料,Z轴有效长度123mil的长过孔,阻抗居然也呈容性特征! 怎么回事?本来憋足劲想要大展拳脚的雷豹,感觉像是拳擂在棉花上。 他的第反应是,Layout攻城狮熟读
    发表于 04-01 15:07

    模型数学能力或许直都在关键在于如何唤醒它

    却给出了令人震惊的答案:仅需 817 条精心设计的样本,就能让模型数学竞赛级别的题目上超越当前许多最先进模型。这
    的头像 发表于 02-17 17:44 940次阅读
    大<b class='flag-5'>模型</b>的<b class='flag-5'>数学</b>能力或许<b class='flag-5'>一</b>直都在关键在于如何唤醒它

    ADS7841测量范围减为一半是什么原因?

    ADS7841测量范围减为一半?ADS7841,4通道,12bit,VCC与Vref都是+5v,按说0-5v对应输出为0-4095,为啥我测得的是0-2.5v对应的0-4095?2.5v以上又
    发表于 01-21 06:49

    曝英伟达一半员工净资产破亿

    英伟达一半员工净资产破亿的消息引起了广泛关注;还冲上百度热搜。据最新的统计数据显示,英伟达已有78%的员工成为了百万(美元)富翁,这数字令人咋舌。而更令人震惊的是,其中一半员工的净资产更是达到
    的头像 发表于 01-14 18:15 892次阅读

    阿里云发布开源多模态推理模型QVQ-72B-Preview

    近日,阿里云宣布项重大技术突破,正式发布业界首个开源多模态推理模型——QVQ-72B-Preview。这
    的头像 发表于 12-27 10:28 857次阅读

    调试ADS5474时发现其输出的14bit数据中,Data13直是高电平导致其AD的输入范围只有原来的一半,怎么回事?

    最近调试ADS5474时发现其输出的14bit(Data13:0)数据中,Data13直是高电平,这样导致其AD的输入范围只有原来的一半,是怎么回事? 空采的情况下也是Data
    发表于 12-25 08:19

    AI模型部署边缘设备的奇妙之旅:目标检测模型

    的 one-shot 搜索的工作。目标检测模型搭配在分类上高性能的主干网络,可能会因为不同任务间的差异而性能下降。Picodet 没有去搜索
    发表于 12-19 14:33

    ADS1256第次上电的时候,采集的ADC信号是实际值的一半,为什么?

    最近在用ADS1256这款ADC芯片,出现很怪异的问题。当我第次上电的时候,采集的ADC信号是实际值的
    发表于 12-13 15:33

    关于逆变器的电流峰值控制,为啥电流波形只有一半

    我是用电流峰值控制方法去做反激式逆变器的。为啥我副边电流波形只有一半呢。硬件定是好的,软件是我自己写的,不知道是程序哪里出了问题,希望能解答
    发表于 12-10 16:24