0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

为什么要做AI研究器

深度学习自然语言处理 来源:李rumor 2023-08-23 15:56 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

对于怎么实现AGI这个玄学的目标,感觉大家都是差不多的状态:咱也不知道怎么做,但就是觉得现在的LLM技术还远远不够。

所以之前看到OpenAI说要用模型去做对齐研究[1],以及最近发话要4年内做出SuperAlignment[2]时,我都是一脸问号,觉得没什么新东西,get不到他们的思路。

为什么要做AI研究器

直到最近断断续续刷了两遍Jan Leike的访谈,我突然有种悟了的感觉,原来核心思想就这么简单。而且回过头看,OpenAI近几年其实就是在遵循这个思想,却做出了看似「暴力」的一个个突破。

OpenAI所选择的路径就是:「Turn compute into alignment」,通过计算的量变产生智能的质变。计算需要数据、算力、模型框架的共同作用,拆解成具体的步骤,则是自动化->规模化->迭代。

以前我们总以「范式」这个词来划分NLP的发展,比如监督学习->预训练+精调->预训练+RLHF。其实这些范式只是增加有效计算量的方法:

自动化:有监督 -> 自监督,摆脱人的依赖,更高效地获取监督信号

规模化:在更多的数据、更大的模型上进行更多的计算

迭代:不断基于新的case迭代模型,形成数据飞轮

自动化和规模化所带来的质变不用多说,GPT系列足以证明。但最后一步的「迭代」却经常被忽视,而这可能是通向Superalignment重要的一步,Alpha GO就是最好的栗子。它从最开始模仿人类棋手落子,到具备基本能力后不断自我博弈,最终超越人类棋手。

那么问题来了:目前我们所做的「迭代」,不管是RLHF还是纯SFT,仍旧需要人工提供监督信号,无法做到自动化和规模化,迭代速度就会很慢。同时人类也无法监督超越自身水平的任务,不可能训出超智能的模型。这就是为什么OpenAI从22年就开始说,要用AI来辅助人类进行评估[3]。

继续思考,如果有个模型可以给出等同人类水平的监督信号,我们除了评估还可以用它干什么?当然是顺着量变产生质变的思想,让它自动化、规模化地帮忙迭代出AGI呀!

自动化:让AI研究器自动规划实验、提供监督信号训练模型

规模化:把上述自动流程扩展

迭代:AI研究器本身也是一个模型,让它们鸡生蛋蛋生鸡,不断互相训练

想到这里,OpenAI为什么要构建「a roughly human-level automated alignment researcher」的思路就水到渠成了。不知道Jan Leike大佬的思考逻辑是怎样的,反正我自己这么捋下来还挺顺,欢迎讨论。

如何做AI研究器

找到「AI研究器」这个启动点之后,接下来就是怎么实现的问题了。相比于如何训练出这个模型,Jan大佬把主要的中心都放在了如何构建自动化、全面化的评估上,其实跟上面的道理一样,好的评估可以提供监督反馈,从而指导模型的迭代方向。

首先,需要能验证模型可以达到人类水平。其实要真正评估出这个还是很难的,就像现在业内这么多模型,没人能给出一个真的排行榜一样。而且最好是自动化的,避免人来提供ground truth,才能进行更全面的评估。这里大佬提供了一个discriminator-critique gap的测量方法,比如我们做了一个编程模型,想利用ChatGPT自动评估他的效果,最简单的做法是直接命令ChatGPT判断某道编程题做的对不对。那问题就来了,我们怎么确定ChatGPT评估结果是否置信?都人工看一遍太浪费时间了。自动化的做法是直接基于ChatGPT训练一个判断变成结果是否正确的判别模型,然后我们专门用一些有label的难样本,去看判别模型的准确率和ChatGPT的准确率,如果差的不多,就说明不用训练也可以用它直接评估编程结果的好坏。

其次,自动化地进行鲁棒性检测、可解释性分析。为啥非要做可解释性呢?

可以为我们指出解决问题的途径

现有很多研究是在做知识和神经元的关联性,大佬认为更有意义的是自动化、规模化地去做,从而探究更高维度(模型整体)的可解释性

最后,故意训练不对齐的模型进行对抗测试,验证评估方法的有效性。从而避免出现假对齐的情况。最极端的就是真训出了一个超级智能,他可能会想办法备份自己的权重,逃脱人类控制,需要专门通过其他代理任务(比如让模型去hack某台机器)看一下这个程度有多难,评估系统能否检测出来。

投入成本的考量

OpenAI未来4年内将会在Superalignment上组建30-100人规模的团队,投入20%的算力。其实20%个人感觉主要是先表个决心,这个数量Jan大佬说已经是对齐方向上最大的单笔投入了,做得好以后还会再加。

倒是4年这个规划,说近不近说远不远,还关乎于其他从业者要经历多久的红利衰退期(狗头),Jan给出了如下规划:

2年内搞清楚用什么技术实现AI对齐研究器,把问题拆的足够细,剩下就是工程问题了

3年内实现AI对齐研究器

剩下一年探索超级对齐

这么一看时间还是挺紧的,后面两个计划略显乐观,Jan给出的信心是85%,而且表示有很多实验已经在实验中了(至少从22年8月那个博文发出前就开始研究了)。他的信心主要来自于5方面:

语言模型的成功:LLM可以理解自然语言,让我们可以向模型表达我们希望他们怎么做,操控起来更加容易

RLHF的效果超出预期:只用了很少的计算,甚至还没尝试收集数据,就可以在小模型上得到比大模型更好的效果

在评估度量方面已经取得了很多进展,可以提供改进的方向

评估比生成更简单:如果人类只做评估,而不做生成,那么开发速度就会加快,还是自动化监督信号的思想

对语言模型的信念:语言模型很适合做超级对齐,任何任务都可以表述为文本的输入输出,不管是做实验和理解结果都可以做

目前的技术还有用吗

对于预训练,Jan Leike认为预测下一个token这种方式并不一个长期目标,可能需要更好的任务。个人认为互联网上视频、图像、文字数据迟早会被消耗殆尽,所以目前的预训练主要是提供一个较好的基模型,后续高质量的监督信号应该会来源于模型本身,就像前文一直说的「自动化」。但这样是否还能称作「预训练」就不一定了。

对于RLHF,Jan Leike也持怀疑态度,因为目前的监督信号来源于人工评判,但人工并不擅长区分看起来都很好的答案,各种论文显示人类之间的一致率有70%就不错了,这个监督信号本身自己都不一定对的齐。同时,需要人工就导致无法规模化扩展,也不符合我们增加计算量的需求。

目前预训练+RLHF的范式大概率也只是AI发展中的一个版本,按照OpenAI的AI研究器思路,后续模型训练的系统复杂度可能会提升很多,估计会有N多个擅长不同任务的AI研究器来训一个模型,人工只需要提供少量监督信号,告诉系统要做什么,就可以让他们自动运转,训完了自动同步权重,不断升级。

总结

整个Jan Leike的采访看下来,真的收获颇丰,不知道有没有清晰地表达出来,其实就是:

计算是核心,计算的量变产生智能的质变

加速有效计算量的方法是:自动化->规模化->迭代

就像人类百万年来,从石器时代进化到现在的信息时代,科技的进步不是一蹴而就,而是螺旋上升,由几代人的智慧凝结而成。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    89

    文章

    38157

    浏览量

    296830
  • 模型
    +关注

    关注

    1

    文章

    3649

    浏览量

    51719
  • nlp
    nlp
    +关注

    关注

    1

    文章

    491

    浏览量

    23193
  • OpenAI
    +关注

    关注

    9

    文章

    1238

    浏览量

    9816

原文标题:总结

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    当我们谈AI时 我们要做什么?

    这样高度重合,在过去的几年里,AI技术的创新速度惊人,小规模的企业也以前所未有的速度成长。 有研究机构断言,定制AI芯片、IoT与AI在边缘计算的融合、神经网络的互操作性、自动化机器学
    发表于 01-15 15:03 2392次阅读

    AI for Science:人工智能驱动科学创新》第二章AI for Science的技术支撑学习心得

    人工智能在科学研究中的核心技术,包括机器学习、深度学习、神经网络等。这些技术构成了AI for Science的基石,使得AI能够处理和分析复杂的数据集,从而发现隐藏在数据中的模式和规律。 2. 高性能
    发表于 10-14 09:16

    AI for Science:人工智能驱动科学创新》第4章-AI与生命科学读后感

    人们对AI for Science的关注推向了高潮。 2. 跨学科融合与科学研究新范式 AI与生命科学的结合,不仅推动了生命科学本身的进步,还促进了多个学科之间的交叉融合。这种跨学科的合作模式,打破
    发表于 10-14 09:21

    【「AI芯片:科技探索与AGI愿景」阅读体验】+内容总览

    、集成芯片、分子器件与分子忆阻,以及打印类脑芯片等。 第五章至第八章分别探讨用化学或生物方法实现AIAI在科学发现中创新应用、实现神经形态计算与类脑芯片的创新方法,以及具身智能芯片。 第九章
    发表于 09-05 15:10

    【「AI芯片:科技探索与AGI愿景」阅读体验】+可期之变:从AI硬件到AI湿件

    生物化学计算机,它通过离子、分子间的相互作用来进行复杂的并行计算。因而未来可期的前景是AI硬件将走向AI湿件。 根据研究,估算出大脑的功率是20W,在进行智力活动时,其功率会增大到25~50W。在大脑进化
    发表于 09-06 19:12

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的科学应用

    和关联性 AI驱动科学:研究和模拟人类思维和认识过程。 本章节作者为我们讲解了第五范式,介绍了科学发现的一般方法和流程等。一、科学发现的5个范式 第一范式:产生于公元1000年左右的阿拉伯世界和欧洲
    发表于 09-17 11:45

    基于CPLD的SPI控制研究与实现

    要做基于CPLD的SPI控制研究与实现,有没有会的人,求教,有什么资料推荐点也行
    发表于 04-27 14:37

    要做一套水质监测系统,想请问一下各位大神有研究得能提供一下方案不

    现在想要做一套水质监测系统,系统的实现,关于传感的选型,想要请教一下各位大神,请大家有研究的分享一下,谢谢
    发表于 04-08 17:03

    AI研究所:指甲上有问题,去医院该挂什么科?

    科学研究,智能算法能挖掘变量相关性,激发论文思路,同时提供针对临床科研的专业统计分析支持。3 诊后可以让AI在检查和就诊后,评估愈后状况,甚至给出建议。同时这些数据也可以更好的用于科研,给医生提供这样的科研
    发表于 08-07 09:17

    【免费直播】让AI芯片拥有最强大脑—AI芯片的操作系统设计介绍.

    、深度学习推断处理(DPU)运行时设计介绍3、如何加速优化,提高系统并行执行效率1、AI芯片中的操作系统管理原则2、操作系统运行时设计准则3、多核多线程加速计算效率方法主讲老师:陈小柏,男,中山大学
    发表于 11-07 14:18

    【HarmonyOS HiSpark AI Camera】基于HiSpark AI Camera HarmonyOS 智能巡检机器人开发

    Camera HarmonyOS 鸿蒙OS开发板首先介绍一下,我叫abner,本科湖北工业大学,硕士在合肥工业大学,参与导师国家级重大科研项目。现在供职于上海**智能科技有限公司,现在项目主要做AI赋能toB
    发表于 11-18 18:15

    AI是什么呢?AI应用又会给人们带来哪些改变

    Intelligence的缩写,即人工智能。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。AI研究工作已取得惊人进展,经过学习后,机器在操作某些环节时比人类更快、更精
    发表于 12-20 06:42

    Ai 部署的临界考虑电子指南

    虽然GPU解决方案对训练,AI部署需要更多。 预计到2020年代中期,人工智能行业将增长到200亿美元,其中大部分增长是人工智能推理。英特尔Xeon可扩展处理约占运行AI推理的处理
    发表于 08-04 07:25

    AI ready是什么?文明的发展需要做好准备

    接入”那么简单,还需要做好“AI ready”。 AI ready及其重要性 AI ready这个概念最早是由飞书提出的,在去年11月末的飞书7发布会上,飞书CEO谢欣提到:“在
    的头像 发表于 01-17 10:19 1399次阅读
    <b class='flag-5'>AI</b> ready是什么?文明的发展需<b class='flag-5'>要做</b>好准备

    世界荣耀,做AI时代的海

    齐聚全球5大AI巨头,荣耀要做AI时代的海
    的头像 发表于 02-28 18:23 1737次阅读
    世界荣耀,做<b class='flag-5'>AI</b>时代的海