0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

再登Nature!DeepMind大模型突破60年数学难题,解法超出人类已有认知

智能感知与物联网技术研究所 来源:未知 2023-12-24 21:40 次阅读

用大模型解决困扰数学家60多年的问题,谷歌DeepMind最新成果再登Nature。

作者之一、谷歌DeepMind研究副总裁Pushmeet Kohli表示:训练数据中不会有这个方案,它之前甚至根本不为人类所知。wKgaomWINd2AezVoAAKzsiAJhHY279.png

论文链接:

https://www.nature.com/articles/s41586-023-06924-6这项技术名为FunSearch,其中的Fun是函数(Function)一词的简写。利用大模型解决长期存在的科学难题,产生以前不存在可验证有价值*的新信息。在Nature论文配套的新闻解读中,DeepMind负责人称“我们使用大模型的方式是当做创造力引擎”。这是第一次有人证明基于大模型的系统可以超越数学家和计算机科学家的认知。它不仅新颖,而且比当今存在的任何其他东西都更有效。wKgaomWINd2ATrXzAACn_ApD4vE962.png针对这项成果,有网友感慨:

如果这是真的,那可是人类自火之后最重要的发现了。

wKgaomWINd6AFdrTAAIyhtwYDJ0069.png

那么,FunSearch都解决了哪些问题呢?

wKgaomWINd6ALN2nAAAl6LOgh3c829.png

找到NP-hard问题更优解法

DeepMind具体展示了两类问题,它们都属于NP-hard问题。在学界看来,没有而且可能永远也不会有一种算法能在所有情况下都在多项式时间内找到NP-hard问题的精确解。面对这样的问题,研究者通常会寻找近似解或适用于特定情况的有效算法。具体到FunSearch,它解决的第一类NP-hard问题是Cap set问题,是上限集问题的一种,它的描述是这样的:在一个n维空间中的每个维度上都有等距的n个点(共n^n个,比如3维就是3*3*3),从中找出尽可能多的点构成一个集合,要求集合中任选3个点均不共线,这样的集合中最多有多少个点?wKgaomWINd6AfWzhAAGVmc8zTCA668.png如果看上去有些难以理解,不妨再了解一下Cap set问题的前身——上世纪70年代遗传学家Marsha Falco发明的一套卡牌游戏。这套卡牌游戏中一共有81张牌,每张牌中都有1至3个颜色图案,同一张牌中的图案颜色、形状和阴影完都全相同。这套牌一共有3种颜色、3种形状和3种阴影,加上图案数量的不同,一共有3*3*3*3=81张,玩家需要翻开一些纸牌,找到3张牌的特殊组合。 如果把这种“特殊组合”的具体方式用离散几何形式进行表达,就得到了Cap set问题。Cap set问题同样诞生于70年代,由牛津大学数学家Ron Graham提出,而第一个重要结果直到90年代才出现。2007年,陶哲轩在一篇博客文章中提到,这是他最喜欢的开放式数学问题。wKgaomWINd6ANGmdAATRFNvFFsM883.png在FunSearch出现之前,Cap set问题最重大的突破是美国数学家Jordan Ellenberg和荷兰数学家Dion Gijswijt于2016年提出的。通过多项式方法,Ellenberg和Gijswijt将n>6时(n≤6时可精确找到最大集合)此类问题解的上确界缩小到了2.756^n。wKgaomWINd-AMH1sAAGS1qWJbUU236.png同样在n>6时,下确界的较新数字则是2.218^n,由布里斯托大学博士生Fred Tyrrell在2022年提出。但这个下确界仅仅存在于理论上——当n=8时,人类能构建出的最大集合中只有496个点,而按照Tyrrell的结论,点的数量应不少于585.7个。FunSearch则将集合规模扩大到了512个点——虽然和理论值依旧存在差距,但仍被视为20年来在此问题上最重大的突破wKgaomWINd-AXxlmAABalEG3QJs762.png同时,Cap set集合大小的下确界也被FunSearch提高到了2.2202^n。wKgaomWINd-AQXMeAAFk5UQIuSs213.png第二类是在线装箱问题假设有一组容量为C的标准集装箱和n个物品序列(物品大小不超过C),这些物品按一定顺序到达。“在线”是指操作者无法事先看到所有的物品,但必须在物品到达时立刻决定将物品装入哪个集装箱。最终的目标,是使所用集装箱数量尽可能小。在线装箱问题引起广泛研究是从上世纪70年代开始的,最早更是可以追溯到1831年高斯所研究的布局问题。 经过近200年的研究,仍然没有成熟的理论和有效的数值计算方法。传统上常用的贪心算法包括First Fit和Best Fit两种:
  • First Fit是指将每个物品放入第一个能容纳它的箱子中。
  • Best Fit则是将每个物品放入能容纳它的且箱子中剩余空间最小的箱子。
而FunSearch则提出了新的算法,该算法在OR和Weibull两个测试数据集中,所用集装箱的数量均大幅下降。wKgaomWINd-AdgfgAAesLHq5nv8241.gif特别是在当测试集物品数目达到10万时,FunSearch找到的方案,消耗集装箱数量只比理论下界多出了0.03%。(下表中的数据表示与理论下界的差异,数字越小表现越好)wKgaomWINeCAU4KQAAFMoCupzj8777.png那么,FunSearch是如何实现的呢? wKgaomWINeCAVv2sAAAuhh9-KLM271.png搜索“程序”而不是“答案”整体上看,FunSearch的工作流程是一个迭代过程,核心是搜索能解决问题的程序,而不是问题答案本身。搜索,正是DeepMind自AlphaGo以来一直坚持探索的路线。联合创始人Shane Legg曾在一次访谈中作出解释:AlphaGo击败李世石的关键“第37步”从何而来?不是来自人类对弈数据,而是来自对概率空间的搜索。当前大模型只是模仿、混合不同的训练数据,要想产生真正的创造力并超越目前的架构,就需要结合搜索。 回到最新成果FunSearch,系统当中有一个程序库,每次迭代时,系统会从其中搜索初始程序并输入大模型(实验用PaLM2,其他只要支持代码也兼容)。大模型在此基础上构建生成新的程序,并交给自动评估系统,得分最高的程序会被加入程序库,从而实现自我循环。wKgaomWINeCAcWR5AAGq8R37CCg920.png其中,评估系统会根据用户的问题生成测试用例,然后判断候选程序的输出是否正确。根据复杂程度不同,判断正误的方法既包括直接检查输出值,也包括对相关函数进行调用。同时评估系统还设置有容错逻辑,避免超时等问题影响整体流程。最终,系统会根据备选程序在这些测试用例上的行为给出整体评分,为结果生成和后续程序库更新提供依据。论文合著者威斯康星大学麦迪逊分校的Jordan Ellenberg认为,FunSearch的一个重要特点是,人们可以看到AI产生的成功解决方案并从中学习,与之前AI的黑箱模式完全不同。对我来说最令人兴奋的是建立人机协作的新模式,我不希望用它们来替代人类数学家,而是作为力量倍增器。 wKgaomWINeGAPe9GAAAC0jQz1zo609.svg

参考文献

wKgaomWINeGAPe9GAAAC0jQz1zo609.svg  

[1]https://deepmind.google/discover/blog/funsearch-making-new-discoveries-in-mathematical-sciences-using-large-language-models/
[2]https://www.technologyreview.com/2023/12/14/1085318/google-deepmind-large-language-model-solve-unsolvable-math-problem-cap-set/
[3]https://www.nature.com/articles/d41586-023-04043-w

· ·


原文标题:再登Nature!DeepMind大模型突破60年数学难题,解法超出人类已有认知

文章出处:【微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 物联网
    +关注

    关注

    2870

    文章

    41639

    浏览量

    358410

原文标题:再登Nature!DeepMind大模型突破60年数学难题,解法超出人类已有认知

文章出处:【微信号:tyutcsplab,微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    三相SVPWM电压型逆变器的数学模型

    通过前面得出的dq坐标系下的数学模型,进一步可以得到dq坐标系下的变压器模型。通过这种模型可以帮助我们更好的去理解dq坐标系下的数学模型
    发表于 04-06 04:27 147次阅读
    三相SVPWM电压型逆变器的<b class='flag-5'>数学模型</b>

    谷歌DeepMind推新AI模型Genie,能生成2D游戏平台

    据报道,谷歌公司的DeepMind团队近期发布了AI模型Genie,此模型拥有多达110亿个参数,能够依据用户提供的图片及提示词创建出相当完整的2D游戏场景。
    的头像 发表于 02-27 14:53 350次阅读

    科大讯飞发布星火认知模型V3.5

    科大讯飞近日发布了星火认知模型V3.5版本,该版本基于全国产化算力底座“飞星一号”平台进行训练。与讯飞星火V3.0相比,V3.5在逻辑推理、文本生成、数学答题及小样本学习能力等方面均实现了显著提升。
    的头像 发表于 01-31 14:40 460次阅读

    DeepMind论文登上Nature:困扰数学家几十年的难题,大模型发现全新解

    除了模仿人类说话、写作、写代码,大模型还能用来发现新知识。 作为今年 AI 圈的顶流,大型语言模型(LLM)擅长的是组合概念,并且可以通过阅读、理解、写作和编码来帮助人们解决问题。但它们能发现全新
    的头像 发表于 12-18 15:55 160次阅读

    百度蛋白大语言模型研究成果登上Nature子刊封面

    百度最新研究成果登上Nature子刊封面,文心生物计算大模型获国际顶刊认可!
    的头像 发表于 11-25 11:25 666次阅读
    百度蛋白大语言<b class='flag-5'>模型</b>研究成果登上<b class='flag-5'>Nature</b>子刊封面

    光伏电池数学模型概述

    太阳能光伏电池简称光伏电池,用于把太阳光能直接转化为电能。本文学习介绍其数学模型,光生伏特效应暂不讨论。
    发表于 10-18 16:13 2341次阅读
    光伏电池<b class='flag-5'>数学模型</b>概述

    解决医疗大模型训练数据难题,商汤最新研究成果登「Nature」子刊

    生成式AI正为医疗大模型迭代按下加速键。 近日,商汤科技联合行业合作伙伴,结合生成式人工智能和医疗图像数据的多中心联邦学习发表的最新研究成果 《通过分布式合成学习挖掘多中心异构医疗数据
    的头像 发表于 09-12 18:50 605次阅读
    解决医疗大<b class='flag-5'>模型</b>训练数据<b class='flag-5'>难题</b>,商汤最新研究成果登「<b class='flag-5'>Nature</b>」子刊

    GPT-5正秘密训练!DeepMind联创爆料,这模型比GPT-4大100倍

    另外,采访中,Suleyman还爆出了很多自己在DeepMind和Inflection AI工作时的内部信息,包括了谷歌当时收购DeepMind和之后的抓马,某种程度上解释了为什么DeepMind相比于OpenAI「起了个大早,
    的头像 发表于 09-04 16:28 468次阅读
    GPT-5正秘密训练!<b class='flag-5'>DeepMind</b>联创爆料,这<b class='flag-5'>模型</b>比GPT-4大100倍

    开发者如何使用讯飞星火认知模型API?

    之前我们使用网页文本输入的方式体验了讯飞星火认知模型的功能(是什么让科大讯飞1个月股价翻倍?),本篇博文将从开发者角度来看看如何使用讯飞星火认知模型API。
    的头像 发表于 08-15 12:22 4407次阅读
    开发者如何使用讯飞星火<b class='flag-5'>认知</b>大<b class='flag-5'>模型</b>API?

    谷歌DeepMind发布机器人大模型RT-2,提高泛化与涌现能力

    7月28日,谷歌DeepMind推出了一款新的机器人模型Robotics Transformer 2(RT-2)。
    发表于 08-02 14:22 273次阅读
    谷歌<b class='flag-5'>DeepMind</b>发布机器人大<b class='flag-5'>模型</b>RT-2,提高泛化与涌现能力

    语言模型做先验,统一强化学习智能体,DeepMind选择走这条通用AI之路

    在智能体的开发中,强化学习与大语言模型、视觉语言模型等基础模型的进一步融合究竟能擦出怎样的火花?谷歌 DeepMind 给了我们新的答案。 一直以来,
    的头像 发表于 07-24 16:55 334次阅读
    语言<b class='flag-5'>模型</b>做先验,统一强化学习智能体,<b class='flag-5'>DeepMind</b>选择走这条通用AI之路

    模型帮陶哲轩解题、证明数学定理:数学真要成为首个借助AI实现突破的学科了?

    数学将成为第一门借助AI实现重大突破的学科? 去年 2 月份,DeepMind 发布了编程辅助利器 AlphaCode。它使用人工智能技术来帮助程序员更快地编写代码,可以自动完成代码、提供代码建议
    的头像 发表于 07-02 20:55 295次阅读
    大<b class='flag-5'>模型</b>帮陶哲轩解题、证明<b class='flag-5'>数学</b>定理:<b class='flag-5'>数学</b>真要成为首个借助AI实现<b class='flag-5'>突破</b>的学科了?

    讯飞机器人超脑平台正式接入星火认知模型

    作为新一代认知智能大模型,星火认知模型拥有跨领域的知识和语言理解能力,能够基于自然对话方式理解与执行任务。在与人自然对话互动中,可同时提供语言理解、知识问答、逻辑推理、
    的头像 发表于 06-02 15:54 1551次阅读
    讯飞机器人超脑平台正式接入星火<b class='flag-5'>认知</b>大<b class='flag-5'>模型</b>

    光伏组件仿真模型、半物理模型数学模型构建及示例

    组件输出仿真模型可以通过半物理模型数学模型实现,根据应用场景的不同可以选择不同模型观察和研究组件特性。
    的头像 发表于 06-01 16:18 2890次阅读
    光伏组件仿真<b class='flag-5'>模型</b>、半物理<b class='flag-5'>模型</b>与<b class='flag-5'>数学模型</b>构建及示例

    认知模型眼中的「泛自动驾驶」| 行业理解专题

    的大模型如何看待人类所处的时代,如何分析未来的发展?作为泛自动驾驶领域光电感知专家,灵途科技与几款主流认知模型针对行业进行了探讨。 文 | 灵途科技、ChatGPT、文心一言、讯飞星
    的头像 发表于 05-23 10:57 364次阅读