0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

大模型帮陶哲轩解题、证明数学定理:数学真要成为首个借助AI实现突破的学科了?

智能感知与物联网技术研究所 来源:未知 2023-07-02 20:55 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

数学将成为第一门借助AI实现重大突破的学科?

去年 2 月份,DeepMind 发布了编程辅助利器 AlphaCode。它使用人工智能技术来帮助程序员更快地编写代码,可以自动完成代码、提供代码建议并检查错误,从而提高编程效率。AlphaCode 的问世意味着 AI 在解决现实世界问题的道路上又迈出了一大步。

巧合的是,在同一天,OpenAI 也展示了一项重要成果:他们开发的神经定理证明器成功解出了两道国际奥数题。这一成果是在微软打磨了多年的数学 AI——Lean 的基础上完成的。Lean 于 2013 年推出,数学家可以把数学公式转换成代码,再输入到 Lean 中,让程序来验证定理是否正确。OpenAI 的成功表明,AI 不仅可以用于解决编程等应用学科的问题,还能用来攻克数学等自然学科。

值得注意的是,这并不是 AI 研究者的「一厢情愿」。就像快速接受 AlphaCode 的软件工程师一样,数学家也在越来越频繁地使用 AI,比如获得过菲尔茨奖的陶哲轩。他甚至预言,到 2026 年,AI 将成为数学研究领域可信赖的合著者(co-author)。

与此同时,主攻数学问题的 AI 也在不断发展壮大:一个名为 LeanDojo 的开放平台提供了一套基于大型语言模型的开源定理证明器,消除了在机器学习方法用于定理证明时存在的私有代码、数据和大量计算需求等障碍,为机器学习方法在定理证明领域的研究提供了便利。

「我相信,数学将成为第一门通过人工智能实现重大突破的学科。」在看到这些进展之后,英伟达高级 AI 研究科学家 Jim Fan 在一篇推特中预言说。

b93d93d4-18d4-11ee-962d-dac502259ad0.png

除了以上种种进展,Jim Fan 还列出了以下推断依据:

  • 数学可以被方便地转化为编码问题,字符串在其中具有重要地位,这使得数学问题可以通过人工智能工具进行处理和分析;

  • 与依赖实证结果的学科不同,数学可以通过定理证明器(如 Lean)进行严格验证;

  • 与需要依赖物理实验的学科(如生物学和医学)不同,数学不需要进行物理实验,无需依赖尚未完全成熟的机器人技术或实验设备。

在数学与 AI 的这场交叉之旅中,数学家和 AI 研究科学家在共同探索更多可能性。或许,陶哲轩和 Jim Fan 的预言都将加速实现。

在陶哲轩手里,AI 成了数学家的得力助手

「我预计,如果使用得当,到 2026 年,AI 将成为数学研究和许多其他领域值得信赖的合著者。」数学家陶哲轩在前不久的一篇博客中说道。

在众多知名数学家中,陶哲轩是较早接受并发现 ChatGPT 这类 AI 大模型数学价值的一个。早在今年 3 月份 ChatGPT 连鸡兔同笼问题都搞不定的时候,陶哲轩就给予了它肯定的态度,认为这类大模型完全可以胜任一些辅助性质的工作,比如帮数学研究者进行语义搜索、生成一些提示。

b955d4e4-18d4-11ee-962d-dac502259ad0.png

在这个例子中,陶哲轩提出的问题是:「我在寻找一个关于 xx 的公式。我想这是一个经典的定理,但我不记得名字了。你有什么印象吗?」在这轮问答中,虽然 ChatGPT 没能给出正确答案(库默尔定理),但根据它给出的近似答案(Legendre 公式),我们可以结合传统搜索引擎轻松找到正确答案。

没过多久,OpenAI 就发布了数学能力显著提升的 GPT-4。陶哲轩也一直在尝试解锁这一强大的 AI 工具。

在使用过程中,他总结出了一些经验:不要试图让 AI 直接回答数学问题(这样得到的答案八成是废话),而是让它扮演合作者的角色,要求它提供策略建议。

b96c1f1a-18d4-11ee-962d-dac502259ad0.png

按照这种提示方法,陶哲轩在 GPT-4 的帮助下成功解决了一个数学证明题(GPT4 提出了 8 种方法,其中 1 种成功解决了问题)。

b97f74ac-18d4-11ee-962d-dac502259ad0.png

陶哲轩利用 GPT-4 解决的问题。

b9a3bfec-18d4-11ee-962d-dac502259ad0.png

陶哲轩为了解决上述证明题提供给 GPT-4 的 Prompt:「你好,我是一名数学教授,我希望你能扮演一位善于提出解题技巧的数学专家合作者。我正试图回答 MathOverflow 中的以下问题……」

b9ba5860-18d4-11ee-962d-dac502259ad0.png

GPT-4 给出的部分建议。

当然,除了这个证明题外,陶哲轩也在用 GPT-4 完成其他一些工作,包括但不限于:

  • 提出问题:他将最近一些数学预印本论文的前几页输入给 GPT-4,并让其生成一些与该论文相关的问题,就像同行提出的问题一样。这可以帮助他更好地进行演讲准备。

  • 回答问题:他现在经常使用 GPT-4 来回答随意和模糊的问题,以前他可能会通过精心准备的搜索引擎查询来尝试回答这些问题;

  • 辅助写作:他曾经让 GPT-4 给复杂文档提供初稿建议,以辅助写作。

不过,陶哲轩也指出,AI 在数学等学术领域的广泛应用对出版界和教育界来说都是一个考验:当人工智能指导的研究生入门级数学论文可以在不到一天的时间内生成时,研究期刊将如何改变其出版和引用机制?我们的研究生教育方式将如何改变?我们会积极鼓励和训练学生使用这些工具吗?对于这些问题,陶哲轩并没有给出答案。

拿下数学定理证明,这项研究或让陶哲轩预言早日成真

一直以来,形式化的定理证明都是机器学习的重要挑战。形式化证明本质上是一种计算机程序,但与 C++Python 中的传统程序不同,证明的正确性可以用证明助手(如开头提到的 Lean)来验证。定理证明是代码生成的一种特殊形式,在评估上非常严格,没有让模型产生幻觉的空间。

这对目前的大型语言模型(LLM)来说是有挑战性的,尽管 LLM 在代码生成方面表现出了优秀的能力,但在事实性和幻觉性方面还有缺陷。

以往,对于用于定理证明的 LLM 研究面临着许多障碍:比如,现有的基于 LLM 的证明器没有一个是开源的;它们都使用私有的预训练数据,而且计算要求可以达到数千个 GPU 时;此外,有些基础设施是依赖于为分布式训练和与证明助手的互动而定制的,如果没有开源代码,这两者是不可能完全复现的。

在最近的一项研究中,来自加州理工学院、英伟达等机构的研究者在该命题的解决进程上走出了重要一步,提出了开放平台 LeanDojo。

b9dc5ca8-18d4-11ee-962d-dac502259ad0.png

论文链接:https://arxiv.org/pdf/2306.15626.pdf

项目主页:https://leandojo.org/

总体来说,该研究有如下贡献:

  • 首先,介绍了从 Lean 中提取数据并与之交互的工具;

  • 第二,开发了第一个用于定理证明的检索增强的语言模型 ReProver;

  • 第三,为基于学习的定理证明构建了一个具有挑战性的基准,并利用它来验证 ReProver 的有效性;

  • 最后,公开发布数据、模型和代码,推动了对定理证明的 LLM 的研究。

LeanDojo 的诞生有望改变当前现状:从开源工具包、模型到基准,LeanDojo 让研究人员能够以适度的计算成本获得最先进的基于 LLM 的证明器。ReProver 不依赖私人数据集,并且可以在一周内在单个 GPU 上完成训练。

研究细节

Lean 是一种编程语言,既可以写传统的程序,也可以写定理和证明。它提供了两个机制:首先,基于具有依赖类型的函数式编程,Lean 为定义程序、数学对象、定理和证明提供了一种统一的语言;第二,Lean 提供了一个策略系统(tactic system),用于半自动地构建机器可检查的证明。

图 2 展示了一个简单的例子,以说明定理是如何在 Lean 中被形式化和证明的:

b9f34f44-18d4-11ee-962d-dac502259ad0.png

策略(tactic)的语法是相当灵活的,可以接受参数,也可以组合成复合策略。策略可以看作是特定领域语言(DSL)中的程序。用户可以通过定义新的策略来扩展 DSL。这种离散的、组合的和无界的行为空间使得定理证明对机器学习具有挑战性。

另一个挑战是前提的选择。前提是对证明一个定理有用的现有公理或定义,被用作策略的论据。证明不能使用尚未定义的前提,也不能使用未导入当前文件的前提。通常,前提是来自一个包含数十万个现有定义和定理的大型数学库,这使得人类和机器都很难在生成策略时选择正确的前提。这是定理证明中的一个关键瓶颈,也是研究者希望通过检索增强的 LLM 来解决的。

LeanDojo Benchmark

研究者使用 LeanDojo 构建了一个包含 96,962 条从 mathlib 提取的定理 / 证明的基准。该基准是目前最大的以数学为重点的定理证明数据集之一,涵盖了不同的主题,如分析、代数和几何。

与现有的 Lean 数据集不同,LeanDojo Benchmark 还包含了 128,163 个前提的定义,不仅包括定理,还包括可以作为前提的其他定义,例如图 2 中的 gcd。此外,该数据集有 212,787 个策略,其中 126,058 个策略至少有一个前提。在有前提的策略中,前提的平均数量为 2.12。

LeanDojo Benchmark 解决了两项关键问题:

  • 前提信息

Lean repos(例如,mathlib 或 lean-liquid)包含人写定理 / 证明的源代码。然而,原始代码并不适合用于训练验证器,它缺乏人类在使用 Lean 时可以获得的运行时信息,例如证明步骤之间的中间状态。

而 LeanDojo 可以从 Lean 的任何 GitHub repo 中提取数据,这些数据包含在原始 Lean 代码中无法直接看到的丰富信息,包括文件依赖关系、抽象语法树(AST)、证明状态、策略和前提。LeanDojo Benchmark 包含细粒度的前提注释(它们在证明中使用的位置和在库中定义的位置),为前提选择提供有价值的数据,也是定理证明的关键瓶颈。

  • 具有挑战性的数据分割

研究者发现,将定理随机分成训练 / 测试的常见做法导致了之前论文中高估了性能。LLM 只需在训练期间记住类似定理的证明,就能证明看似困难的定理。

在人类编写的 Lean 代码中,一个常见的惯用语法是为同一数学概念的略微不同的属性设置了一个类似的定理 / 证明块。例如,在图 3 中,最后两个定理不仅看起来相似,而且有相同的证明。如果其中一个在训练中,模型可以通过记忆轻松证明另一个。这种捷径使模型能够证明看似不简单的定理,包括那些需要前提才能证明的定理。

ba094eca-18d4-11ee-962d-dac502259ad0.png

在 LeanDojo Benchmark 中,研究者通过设计具有挑战性的数据分割 novel_premises 来缓解这个问题,它需要测试证明以使用至少一个从未在训练中使用过的前提。

例如,图 3 中的最后两个定理都使用了前提 conj_mul。如果一个定理在 novel_premises 分割的训练集中,另一个也必须在训练中。

以编程方式与 Lean 交互

LeanDojo 的另一个重要功能是以编程方式与 Lean 交互。它把 Lean 变成了一个类似健身房的环境,在这个环境中,证明器可以观察证明状态,运行策略来改变状态,并接收错误或证明完成的反馈。这个环境对于评估 / 部署验证器或通过 RL 训练证明器是不可缺少的。

下面是 LeanDojo 的主要形式,用于通过策略与 Lean 交互。Lean 同样支持不基于策略的其他证明风格,不过 LeanDojo 只支持策略风格的证明。但只要有足够的通用性,任何证明都可以转换为策略风格的证明。

ba2bfb32-18d4-11ee-962d-dac502259ad0.png

ReProver

随后,研究者使用 LeanDojo Benchmark 来训练和评估了 ReProver。其核心是一个由检索增强的策略生成器(图 1 底部)。

ba3ccbba-18d4-11ee-962d-dac502259ad0.png

根据当前的证明状态,它可以检索出少数可能有用的前提,并根据状态和检索出的前提的连接情况生成一个策略。在证明定理时,该模型在每一步都会生成多个策略候选者,这些候选者被用于标准的最优搜索算法来寻找证明。

值得注意的是,ReProver 的训练只需要在单 GPU 上花费五天时间(120 个 GPU 时),所需的计算量大大低于之前的方法(1000 小时以上)。

此前的基于 LLM 的证明器都在数学和编码的特定数据集上进行预训练,计算成本很高而且数据集是保密的。相比之下,ReProver 避免特定领域的预训练,建立在「google/byt5-small」之上,这是一个通用的、公开可用的、相对较小的模型检查点。

此外,ReProver 只在人类写的策略上进行了微调,没有辅助数据或通过与 Lean 在线互动收集的数据。虽然这些正交方向是有价值的,但会大大增加方法的复杂性和计算要求。

在评估实验中,ReProver 可以证明 51.4% 的定理,优于直接生成策略而不进行检索的 baseline(47.5%)和另一个使用 GPT-4 以零样本方式生成策略的 baseline(28.8%)。

ba56a8f0-18d4-11ee-962d-dac502259ad0.png

研究者还在 MiniF2F 和 ProofNet 两个数据集上测试了 ReProver。它可以在 MiniF2F 中证明 26.5% 的定理,在 ProofNet 中证明 13.8% 的定理,这几乎能够媲美强化学习的 SOTA 方法,且训练时使用的资源少得多。

此外,许多定理在 Lean 中没有 ground- truth 证明。而 ReProver 能够证明 65 个目前在 Lean 中没有得到证明的定理,其中 MiniF2F 发现了 33 条证明,ProofNet 中发现了 39 条。研究者表示,ReProver 也可以作为一个有效的工具来增强 Lean 中现有的数学库。

ChatGPT 插件

研究者还构建了一个 LeanDojo ChatGPT 插件,使 ChatGPT 能够通过与 Lean 交互来证明定理。与专门针对定理证明进行微调的 LLM(例如 ReProver)相比,ChatGPT 可以将非形式化数学与形式化证明步骤交织在一起,类似于人类与证明助手的交互方式。它可以解释来自 Lean 的错误消息,并且比专门的证明器更容易操纵。然而,由于搜索和规划方面的弱点,在大多数情况下很难找到正确的证明。

示例如下:

a + b + c = a + c + b

Stirling’s formula

Gauss' summation formula

团队信息

最后来认识一下这篇文章的作者们:

ba76f90c-18d4-11ee-962d-dac502259ad0.png

论文一作杨凯峪目前是加州理工学院计算和数学科学 (CMS) 系的博士后研究员 ,此前在普林斯顿大学获得博士学位。

Alex Gu 是麻省理工学院的一名博士生,导师为 Armando Solar-Lezama。此前,他在麻省理工学院获得了学士和硕士学位,拥有 Meta AI Research、Jane Street 和 pony.ai 多家公司的实习经历。

Peiyang Song 目前是加州大学圣巴巴拉分校(UCSB)创意研究学院(CCS)的计算机科学本科生。他的研究工作主要集中在两个方向:1)神经定理证明和自动推理,结合大型语言模型(LLMs)和交互式定理证明器(ITPs);2)用于能源效率机器学习推理的时间逻辑。

Shixing Yu 目前是美国康奈尔大学计算机科学专业博士生,此前在德州大学奥斯汀分校获硕士学位,本科就读于北京大学信息科学技术学院。

参考链接:

https://unlocked.microsoft.com/ai-anthology/terence-tao/

https://unlocked.microsoft.com/ai-anthology/terence-tao/

THE END


原文标题:大模型帮陶哲轩解题、证明数学定理:数学真要成为首个借助AI实现突破的学科了?

文章出处:【微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 物联网
    +关注

    关注

    2939

    文章

    47338

    浏览量

    408167

原文标题:大模型帮陶哲轩解题、证明数学定理:数学真要成为首个借助AI实现突破的学科了?

文章出处:【微信号:tyutcsplab,微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    旷视借助模型与智能体推动算法落地

    当下,AI技术繁荣无比,但无数企业却陷入“叫好不叫座”的困境:算法模型很先进,但一到真实的行业场景中就“水土不服”。问题究竟出在哪?大模型和智能体的兴起,又为我们提供怎样的新
    的头像 发表于 10-11 14:04 327次阅读

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的科学应用

    流体芯片 ⑤AI计算平台 ⑥基于AI的自主决策系统 ⑦基于AI的自主学习系统 2、面临的挑战 ①需要造就一个跨学科、全面性覆盖的知识库和科学基础模型
    发表于 09-17 11:45

    【「AI芯片:科技探索与AGI愿景」阅读体验】+可期之变:从AI硬件到AI湿件

    想到,除了研究大脑的抽象数学模型外,能否抛弃传统的芯片实现方式,以化学物质和生物组件、材料及相关现象来构建人工神经网络或提取其功能来用于AI处理,甚至直接用生物体来实现
    发表于 09-06 19:12

    企业部署AI模型怎么做

    当下,AI模型成为驱动决策自动化、服务智能化与产品创新的核心引擎。然而,企业面对动辄数百亿参数的大模型部署时,常陷入算力不足、响应延迟高、成本失控等困境。如何
    的头像 发表于 06-04 09:26 686次阅读

    用Manim动画生动演示勾股定理

    作者:算力魔方创始人/英特尔创新大使刘力 一,引言 勾股定理是初中数学中最重要的几何定理之一,它揭示直角三角形三条边之间的数量关系。传统的静态教学方式往往难以让学生直观理解这一
    的头像 发表于 04-27 16:36 616次阅读

    首创开源架构,天玑AI开发套件让端侧AI模型接入得心应手

    AI的演进正在逼近“终端智能涌现”的拐点,从通用模型向场景落地迁移成为关键议题。联发科以“AI随芯,应用无界”为主题召开天玑开发者大会2025(MDDC 2025),不仅聚合
    发表于 04-13 19:52

    (专家著作,建议收藏)电机的数学研究方法

    本鲁企圖系统地説明电机主要的、最新的数学研究方法。本需的材料在足够的程度上已包括用于研究电机过渡狀态和稳定 狀态的独特范圓。这些材料应用已經广泛流行的最新数学分析作为它 的湛础。电机过渡狀态和稳定狀
    发表于 04-01 15:02

    RK3588开发板上部署DeepSeek-R1大模型的完整指南

    DeepSeek作为国产AI大数据模型的代表,凭借其卓越的推理能力和高效的文本生成技术,在全球人工智能领域引发广泛关注。DeepSeek-R1作为该系列最新迭代版本,实现长文本处理效
    发表于 02-27 16:45

    模型数学能力或许一直都在关键在于如何唤醒它

    在追求人工智能极限的道路上,"更大即更强" 似乎已成为共识。特别是在数学推理这一被视为 AI 终极挑战的领域,业界普遍认为需要海量数据和复杂的强化学习才能获得突破。 然而,来自上海交通
    的头像 发表于 02-17 17:44 943次阅读
    大<b class='flag-5'>模型</b>的<b class='flag-5'>数学</b>能力或许一直都在关键在于如何唤醒它

    了解DeepSeek-V3 和 DeepSeek-R1两个大模型的不同定位和应用选择

    场景 针对逻辑推理、符号操作、数学解题的深度优化 2. 关键能力对比 能力维度 DeepSeek-V3 DeepSeek-R1 数学推理 基础数学问题处理 显著强化(复杂方程、几何
    发表于 02-14 02:08

    DeepSeek最新AI模型现已登陆IBM watsonx.ai平台

    DeepSeek-R1 是一款先进的 AI 模型,以卓越的推理能力著称,可广泛应用于编程、规划和数学问题求解等领域,从而驱动智能代理应用、代码生成,调试支持及优化建议、解决复杂数学问题
    的头像 发表于 02-08 09:21 1045次阅读

    数学专业转人工智能方向:考研/就业前景分析及大学四年学习路径全揭秘

    随着AI技术的不断进步,专业人才的需求也日益增长。数学作为AI的基石,为机器学习、深度学习、数据分析等提供理论基础和工具,因此越来越多的数学
    的头像 发表于 02-07 11:14 1710次阅读
    <b class='flag-5'>数学</b>专业转人工智能方向:考研/就业前景分析及大学四年学习路径全揭秘

    当我用大模型外国人做数学作业,神秘的东方力量原来是AI…… 

    模型
    脑极体
    发布于 :2025年01月22日 21:48:53

    科大讯飞星火大模型升级发布会回顾

    发布首个基于全国产算力平台训练的具备深度思考和推理能力的大模型——讯飞星火深度推理模型X1,联合华为首次攻克国产算力训练深度推理模型难关
    的头像 发表于 01-16 14:51 2233次阅读

    Kimi发布视觉思考模型k1,展现卓越基础科学能力

    ,其能力还成功扩展到了物理、化学等基础科学领域。这标志着Kimi在视觉思考模型的技术研发上取得了重大突破,为用户在多个学科领域提供强大的支持。 在针对
    的头像 发表于 12-17 09:59 1082次阅读