DeepMind论文登上Nature：困扰数学家几十年的难题，大模型发现全新解-电子发烧友网

除了模仿人类说话、写作、写代码，大模型还能用来发现新知识。

作为今年 AI 圈的顶流，大型语言模型（LLM）擅长的是组合概念，并且可以通过阅读、理解、写作和编码来帮助人们解决问题。但它们能发现全新的知识吗？

由于 LLM 已被证明存在「幻觉」问题，即生成与事实不符的信息，因此利用 LLM 来做可验证的正确发现是一项挑战。

现在，来自 Google DeepMind 的研究团队提出了一种为数学和计算机科学问题搜索解决方案的新方法 ——FunSearch。FunSearch 的工作原理是将预训练的 LLM（以计算机代码的形式提供创造性解决方案）与自动「评估器」配对，以防止产生幻觉和错误思路。通过在这两个组件之间来回迭代，最初的解决方案演变成了「新的知识」。相关论文发表在《自然》杂志上。

论文地址：https://www.nature.com/articles/s41586-023-06924-6

这项工作是首次利用 LLM 在科学或数学的挑战性开放问题方面取得新发现。

FunSearch 发现了 cap set 问题的全新解决方案，这是数学中一个长期存在的开放问题。此外，为了展示 FunSearch 的实际用途，DeepMind 还用它来发现更有效的算法来解决「装箱」问题，该问题应用广泛，比如可以用于提高数据中心的效率。

研究团队认为 FunSearch 将成为一个特别强大的科学工具，因为它输出的程序揭示了其解决方案是如何构建的，而不仅仅是解决方案是什么。这将会激发科学家的进一步见解，从而形成科学改进与发现的良性循环。

通过语言模型的进化推动发现

FunSearch 采用由 LLM 支持的进化方法，鼓励并推动得分最高的思路想法。这些想法被表达成计算机程序，以便它们可以自动运行和评估。

首先，用户需要以代码的形式编写问题的描述。该描述包括评估程序的过程和用于初始化程序池的种子程序。

FunSearch 是一个迭代过程，在每次迭代中，系统都会从当前的程序池中选择一些程序，并将其馈送到 LLM。LLM 创造性地在此基础上进行构建，生成新的程序，并自动进行评估。最好的程序将被添加回现有程序库中，从而创建一个自我改进的循环。FunSearch 使用 Google 的 PaLM 2，但对其他接受过代码训练的方法兼容。

LLM 会从程序数据库中检索出生成的最佳程序，并被要求生成一个更好的程序。

众所周知，在不同领域发现新的数学知识和算法是一项艰巨的任务，很大程度上超出了当前最先进人工智能系统的能力。为了让 FunSearch 做到这一点，该研究引入了多个关键组件。FunSearch 不是从头开始，而是从关于问题的常识开始一个进化过程，让 FunSearch 专注于寻找最关键的想法以获得新的发现。

此外，FunSearch 的进化过程使用一种策略来提高想法的多样性，以避免出现停滞情况。最后，为了提高系统效率，进化过程是并行运行的。

在数学领域开辟新天地

DeepMind 表示，他们首先要解决的是 Cap set 问题，这是一个开放性难题，几十年来一直困扰着多个研究领域的数学家。知名数学家陶哲轩曾把它描述为自己最喜欢的开放性问题。DeepMind 选择与威斯康星大学麦迪逊分校的数学教授 Jordan Ellenberg 合作，他是 Cap set 问题的重要突破者。

这个问题包括在一个高维网格中找到最大的点集（称为 cap set），其中没有三个点位于一条直线上。这个问题之所以重要，是因为它可以作为极值组合学中其他问题的模型。极值组合学研究的是数字、图或其他对象的集合可能有多大或多小。暴力破解方法无法解决这个问题 —— 要考虑的可能性数量很快就会超过宇宙中原子的数量。

FunSearch 以程序形式生成的解决方案在某些情况下发现了有史以来最大的 cap set。这代表了过去 20 年中 cap set 规模的最大增长。此外，FunSearch 的性能超过了最先进的计算求解器，因为这个问题的规模远远超出了它们目前的能力。

交互式图表显示了从种子程序（上）到新的高分函数（下）的演变。每个圆圈都代表一个程序，其大小与分配给它的分数成正比。图中仅显示底部程序的上级。FunSearch 为每个节点生成的相应函数如右侧所示。

这些结果表明，FunSearch 技术可以让人类超越困难组合问题的既定结果，而在这些问题上很难建立直觉。DeepMind 期望这种方法能够在组合学中类似理论问题的新发现中发挥作用，并在未来为通信理论等领域带来新的可能性。

FunSearch 偏好简洁、可由人类理解的程序

尽管发现新的数学知识本身意义重大，但与传统的计算机搜索技术相比，FunSearch 方法还展现出了其他的优势。这是因为，FunSearch 并不是一个只会生成问题解决方案的黑箱。相反，它生成的程序会描述出这些解决方案是如何得出的。这种「show-your-working」通常是科学家的工作方式，他们通过阐述产生新发现或新现象的过程来解释这些发现或现象。

FunSearch 更倾向于寻找高度紧凑的程序所代表的解决方案，即具有较低 Kolmogorov 复杂度的解决方案（Kolmogorov 复杂度是输出解的最短计算机程序的长度）。简短的程序可以描述非常大的对象，从而使 FunSearch 能够扩展到非常复杂的问题。此外，这也让研究人员更容易理解 FunSearch 的程序输出。Ellenberg 说：「FunSearch 为制定攻击策略提供了一种全新的机制。FunSearch 生成的解决方案在概念上要比单纯的数字列表丰富得多。当我研究它们时，我学到了一些东西。」

更重要的是，FunSearch 程序的这种可解释性可以为研究人员提供可操作的见解。例如，DeepMind 在使用 FunSearch 的过程中注意到，它的一些高分输出的代码中存在耐人寻味的对称性。这让 DeepMind 对问题有了新的认识，他们利用这种认识改进了引入 FunSearch 的问题，从而找到了更好的解决方案。DeepMind 认为，这是人类与 FunSearch 在数学领域的许多问题上进行合作的典范。

左图：通过检查 FunSearch 生成的代码，DeepMind 获得了更多可操作的见解（高亮部分）。右图：使用（更短的）左图程序构造的原始「可接受」集合。

解决一个众所周知的计算难题

在理论 cap set 问题取得成功的鼓舞下，DeepMind 决定将 FunSearch 应用于计算机科学中一个重要的实际挑战 —— 装箱问题（bin packing），以探索它的灵活性。装箱问题关注的是如何将不同尺寸的物品打包到最少数量的箱子中。它是许多现实世界问题的核心，从装载物品的集装箱到数据中心的计算工作分配，这些场景都需要最大限度地降低成本。

在线装箱问题通常使用基于人类经验的算法规则（启发式）来解决。但是，要为每种特定情况（大小、时间或容量各不相同）找到一套规则是非常具有挑战性的。尽管与 cap set 问题非常不同，但为这个问题设置 FunSearch 很容易。FunSearch 提供了一个自动定制的程序（适应数据的具体情况），优于现有的启发式方法 —— 可以使用更少的箱子来打包相同数量的物品。

使用现有启发式 ——Best-fit 启发式（左）和 FunSearch 发现的启发式（右）进行装箱的示例。

像在线装箱这样的复杂组合问题可以使用其他人工智能方法来解决，比如神经网络和强化学习。这些方法也被证明是有效的，但也可能需要大量的资源来部署。另一方面，FunSearch 输出的代码易于检查和部署，这意味着它的解决方案有可能被应用到各种现实工业系统中，从而迅速带来效益。

DeepMind：用大模型应对科学挑战将成普遍做法

FunSearch 证明，如果能防止 LLM 产生幻觉，那么这些模型的力量不仅可以用来产生新的数学发现，还可以用来揭示重要现实问题的潜在解决方案。

DeepMind 认为，对于科学和工业领域的许多问题 —— 无论是长期存在的问题还是新问题 —— 使用 LLM 驱动的方法生成有效和量身定制的算法将成为普遍做法。

其实，这仅仅是一个开始。随着 LLM 不断取得进展，FunSearch 也将不断完善。DeepMind 表示，他们还将努力扩展其功能，以应对社会上各种紧迫的科学和工程挑战。

参考链接：https://deepmind.google/discover/blog/funsearch-making-new-discoveries-in-mathematical-sciences-using-large-language-models/

原文标题：DeepMind论文登上Nature：困扰数学家几十年的难题，大模型发现全新解

文章出处：【微信公众号：智能感知与物联网技术研究所】欢迎添加关注！文章转载请注明出处。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

物联网

物联网

+关注

关注
2870

文章
41671

浏览量
358463

原文标题：DeepMind论文登上Nature：困扰数学家几十年的难题，大模型发现全新解

文章出处：【微信号：tyutcsplab，微信公众号：智能感知与物联网技术研究所】欢迎添加关注！文章转载请注明出处。

AI撰写高考作文，好比让数学家制作预制菜

电子发烧友网报道（文/黄山明）又到了一年高考季，每当这个时候，随着语文科目考试结束，各卷高考作文题目又登上了许多社交平台的热搜榜单，引来各路“大神”一展身手。与往年不同的是，今年在高考作文上大展拳脚

发表于 06-09 00:15 •1298次阅读

三相SVPWM电压型逆变器的数学模型

通过前面得出的dq坐标系下的数学模型，进一步可以得到dq坐标系下的变压器模型。通过这种模型可以帮助我们更好的去理解dq坐标系下的数学模型。

发表于 04-06 04:27 •153次阅读

三相SVPWM电压型逆变器的<b class='flag-5'>数学模型</b>

谷歌DeepMind推新AI模型Genie，能生成2D游戏平台

据报道，谷歌公司的DeepMind团队近期发布了AI模型Genie，此模型拥有多达110亿个参数，能够依据用户提供的图片及提示词创建出相当完整的2D游戏场景。

发表于 02-27 14:53 •353次阅读

谷歌DeepMind科学家欲建AI初创公司

据知情人士透露，谷歌人工智能部门DeepMind的两名杰出科学家Laurent Sifre和Karl Tuyls正在与投资者商讨在巴黎成立一家新的人工智能初创公司的事宜。

发表于 01-22 14:41 •205次阅读

再登Nature！DeepMind大模型突破60年数学难题，解法超出人类已有认知

用大模型解决困扰数学家60多年的问题，谷歌DeepMind最新成果再登 Nature。作者之一、谷歌D

发表于 12-24 21:40 •344次阅读

百度蛋白大语言模型研究成果登上Nature子刊封面

百度最新研究成果登上Nature子刊封面，文心生物计算大模型获国际顶刊认可！

发表于 11-25 11:25 •669次阅读

大语言模型无损压缩方面超越PNG和FLAC

Google DeepMind 和 Meta 的研究人员发表论文《Language Modeling Is Compression》，他们发现 DeepMind 的大语言

发表于 10-08 11:24 •558次阅读

解决医疗大模型训练数据难题，商汤最新研究成果登「Nature」子刊

》 (MiningMulti-Center Heterogeneous Medical Data with Distributed Synthetic Learning) ，登上国际顶级学术期刊 Nature

发表于 09-12 18:50 •606次阅读

CPU调用PID软件功能和DSP PID库之间的性能差异

: Nutiny-EVB-M451-LQFP100 V1.3 几十年来,成比例整体-整体-诊断(PID)控制器一直是运动和流程控制的主干,文件显示了CPU调用 PID 软件功能和 DSP PID 库之间的性能差异

发表于 08-30 08:18

CPU调用PID软件功能和DSP PID库之间的性能差异

: Nutiny-EVB-M451-LQFP100 V1.3 几十年来,成比例整体-整体-诊断(PID)控制器一直是运动和流程控制的主干,文件显示了CPU调用 PID 软件功能和 DSP PID 库之间的性能差异

发表于 08-22 07:20

语言模型做先验，统一强化学习智能体，DeepMind选择走这条通用AI之路

体的发展，从最早的 AlphaGo、AlphaZero 到后来的多模态、多任务、多具身 AI 智能体 Gato，智能体的训练方法和能力都在不断演进。从中不难发现，随着大模型越来越成为人工智能发展的主流趋势，DeepMind 在

发表于 07-24 16:55 •337次阅读

人工智能进军数学领域，数学家们准备好迎接了吗？

卡内基梅隆大学逻辑学家Jeremy Avigad说：「众所周知，欧几里得以近乎诗意的 [定义] 开始。然后，他在此基础上建立了当时的数学，使用基本概念、定义和先验定理，以这样一种方式证明事物，即每一步都 [清晰地遵循] 前一步。」

发表于 07-06 16:47 •422次阅读

创造历史！商汤联合团队斩获CVPR最佳论文，推出首个“感知决策一体化”自动驾驶通用大模型

及联合实验室2篇论文登上最佳论文候选名单（Award Candidate），其中自动驾驶研究论文《Planning-oriented Autonomous Driving 》（以路径规划为导向的自

发表于 06-22 06:15 •256次阅读

谷歌DeepMind发现更快排序算法，已集成到C++库

AlphaDev 基于 AlphaZero。DeepMind 向来以开发能自学游戏规则的 AI 软件而闻名。这种思路被证明效果拔群，也先后攻克了国际象棋、围棋和《星际争霸》等诸多游戏难题。虽然具体

发表于 06-09 17:11 •556次阅读

光伏组件仿真模型、半物理模型与数学模型构建及示例

组件输出仿真模型可以通过半物理模型或数学模型实现，根据应用场景的不同可以选择不同模型观察和研究组件特性。

发表于 06-01 16:18 •2916次阅读