0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

击败LLaMA?史上最强「猎鹰」排行存疑,符尧7行代码亲测,LeCun转赞

AI智胜未来 来源:新智元 2023-06-09 16:43 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

【导读】前几天公布的LLM排行榜引发业内人士广泛讨论,新模型Falcon在性能上真的能打过LLaMA吗?符尧实测来了!

前段时间,初出茅庐的猎鹰(Falcon)在LLM排行榜碾压LLaMA,在整个社区激起千层浪。

但是,猎鹰真的比LLaMA好吗?

简短回答:可能不是。

19efeaf0-069d-11ee-962d-dac502259ad0.png

符尧团队对模型做了更深入的测评:

「我们在MMLU上复现了LLaMA 65B的评估,得到了61.4的分数,接近官方分数(63.4),远高于其在Open LLM Leaderboard上的分数(48.8),而且明显高于猎鹰(52.7)。」

没有花哨的提示工程,没有花哨的解码,一切都是默认设置。

19ff18c2-069d-11ee-962d-dac502259ad0.png

目前,Github上已经公开了代码和测试方法。

对于猎鹰超越LLaMA存疑,LeCun表态,测试脚本的问题...

1a1bd62e-069d-11ee-962d-dac502259ad0.png

LLaMA真·实力

目前在OpenLLM排行榜上,Falcon位列第一,超过了LLaMA,得到了包括Thomas Wolf在内的研究人员的力荐。

1a426a1e-069d-11ee-962d-dac502259ad0.png

然而,有些人对此表示疑虑。

先是一位网友质疑,LLaMA这些数字从哪来,看起来与论文数字不一致...

1a7e2be4-069d-11ee-962d-dac502259ad0.png

随后,OpenAI科学家Andrej Karpathy也对LLaMA 65B为什么在Open LLM排行榜上的分数明显低于官方(48.8 v.s. 63.4)表示关注。

并发文,到目前为止,我一直避免在推特上发表关于猎鹰的文章,因为这一点,不确定。

为了弄清楚这个问题,符尧和团队成员决定对LLaMA 65B进行一次公开的测试,结果得到61.4分。

1a8b56de-069d-11ee-962d-dac502259ad0.png

在测试中,研究者没有使用任何特殊机制,LLaMA 65B就能拿到这个分数。

这一结果恰恰证明了,如果想要模型实现接近GPT-3.5的水平,最好是在LLaMA 65B上使用RLHF。

根据就是,近来符尧团队发表的一篇Chain-of-Thought Hub论文的发现。

1ac61ce2-069d-11ee-962d-dac502259ad0.png

当然,符尧表示,他们这一测评并非想要引起LLaMA和Falcon之间的争端,毕竟这些都是伟大的开源模型,都为这个领域做出了重大的贡献!

另外,Falcon还有更加方便的使用许可,这也让它有很大的发展潜力。

对于这一最新测评,网友BlancheMinerva指出,公平的比较应该在默认设置下运行猎鹰(Falcon)在MMLU上。

对此,符尧称这是正确的,并正进行这项工作,预计在一天后可以得到结果。

1ad20016-069d-11ee-962d-dac502259ad0.png

不管最终的结果怎样,要知道GPT-4这座山峰才是开源社区真正想要追求的目标。

OpenLLM排行榜问题

来自Meta的研究人员称赞,符尧很好地再现了LLaMa的结果,并指出了OpenLLM排行榜的问题。

与此同时,他还分享了关于OpenLLM排行榜的一些问题。

1b14caa4-069d-11ee-962d-dac502259ad0.png

首先,MMLU的结果:LLaMa 65B MMLU结果在排行榜上是15分,但对7B模型来说是一样的。13B、30B模型也存在较小的性能差距。

OpenLLM真的需要在公布哪个模型是最好的之前看看这个。

1b268e92-069d-11ee-962d-dac502259ad0.png

基准:这些基准是如何选择的?

ARC 25 shot和Hellaswag 10 shot似乎与LLM并不特别相关。如果能在其中加入一些生成式基准就更好了。虽然生成式基准有其局限性,但它们仍然是有用的。

1b4a6f6a-069d-11ee-962d-dac502259ad0.png

单一平均分:将结果减少到单一分数总是很吸引人的,平均分是最容易的。

但在这种情况下,4个基准的平均值真的有用吗?在MMLU上获得1分和在HellaSwag上获得1分是一样的吗?

在LLM快速迭代的世界里,开发这样一个排行榜肯定有一定的价值。

1b574910-069d-11ee-962d-dac502259ad0.png

还有来自谷歌研究人员Lucas Beyer也发表了自己的观点,

疯狂的是,NLP研究人员对同一个基准有不同的理解,因此导致了完全不同的结果。同时,每当我的同事实现一个指标时,我都会立即问他们是否真的检查将官方代码的完美重现,如果没有,就放弃他们的结果。

1b7a43ca-069d-11ee-962d-dac502259ad0.png

另外,他还表示,据我所知,无论模型如何,它实际上都不会重现原始基准测试的结果。

1b844f0a-069d-11ee-962d-dac502259ad0.png

网友附和道,这就是LLM基准的现实...

1bb7ef18-069d-11ee-962d-dac502259ad0.png

Falcon——开源、可商用、性能强

说到Falcon,其实值得我们再好好回顾一下。

按LeCun的说法,大模型时代,开源最重要。

1be27c1a-069d-11ee-962d-dac502259ad0.png

而在Meta的LLaMA代码遭泄之后,各路开发者都开始跃跃欲试。

Falcon正是由阿联酋阿布扎比的技术创新研究所(TII)开发的一支奇兵。

刚发布时从性能上看,Falcon比LLaMA的表现更好。

目前,「Falcon」有三个版本——1B、7B和40B。

TII表示,Falcon迄今为止最强大的开源语言模型。其最大的版本,Falcon 40B,拥有400亿参数,相对于拥有650亿参数的LLaMA来说,规模上还是小了一点。

不过,此前TII曾表示,别看咱Falcon规模虽小,性能却很能打。

先进技术研究委员会(ATRC)秘书长Faisal Al Bannai认为,「Falcon」的发布将打破LLM的获取方式,并让研究人员和创业者能够以此提出最具创新性的使用案例。

1c0db22c-069d-11ee-962d-dac502259ad0.png

FalconLM的两个版本,Falcon 40B Instruct和Falcon 40B在Hugging Face OpenLLM排行榜上位列前两名,而Meta的LLaMA则位于第三。

而前文所讲的有关排行榜的问题也正是这个。

尽管「Falcon」的论文目前还没公开发布,但Falcon 40B已经在经过精心筛选的1万亿token网络数据集的上进行了大量训练。

研究人员曾透露,「Falcon」在训练过程非常重视在大规模数据上实现高性能的重要性。

我们都知道的是,LLM对训练数据的质量非常敏感,这就是为什么研究人员会花大量的精力构建一个能够在数万个CPU核心上进行高效处理的数据管道。

目的就是,在过滤和去重的基础上从网络中提取高质量的内容。

目前,TII已经发布了精炼的网络数据集,这是一个经过精心过滤和去重的数据集。实践证明,非常有效。

仅用这个数据集训练的模型可以和其它LLM打个平手,甚至在性能上超过他们。这展示出了「Falcon」卓越的质量和影响力。

1c1aa720-069d-11ee-962d-dac502259ad0.png

此外,Falcon模型也具有多语言的能力。

它理解英语、德语、西班牙语和法语,并且在荷兰语、意大利语、罗马尼亚语、葡萄牙语、捷克语、波兰语和瑞典语等一些欧洲小语种上也懂得不少。

Falcon 40B还是继H2O.ai模型发布后,第二个真正开源的模型。

另外,还有一点非常重要——Falcon是目前唯一的可以免费商用的开源模型。

在早期,TII要求,商业用途使用Falcon,如果产生了超过100万美元以上的可归因收入,将会收取10%的「使用税」。

可是财大气粗的中东土豪们没过多长时间就取消了这个限制。

至少到目前为止,所有对Falcon的商业化使用和微调都不会收取任何费用。

土豪们表示,现在暂时不需要通过这个模型挣钱。

而且,TII还在全球征集商用化方案。

对于有潜力的科研和商业化方案,他们还会提供更多的「训练算力支持」,或者提供进一步的商业化机会。

1c5e3bf2-069d-11ee-962d-dac502259ad0.png

这简直就是在说:只要项目好,模型免费用!算力管够!钱不够我们还能给你凑!

对于初创企业来说,这简直就是来自中东土豪的「AI大模型创业一站式解决方案」。

根据开发团队称,FalconLM 竞争优势的一个重要方面是训练数据的选择。

研究团队开发了一个从公共爬网数据集中提取高质量数据并删除重复数据的流程。

在彻底清理多余重复内容后,保留了 5 万亿的token——足以训练强大的语言模型。

40B的Falcon LM使用1万亿个token进行训练, 7B版本的模型训练token达到 1.5 万亿。

1cc787a6-069d-11ee-962d-dac502259ad0.png

(研究团队的目标是使用RefinedWeb数据集从Common Crawl中仅过滤出质量最高的原始数据)

此外,Falcon的训练成本相对来说更加可控。

TII称,与GPT-3相比,Falcon在只使用75%的训练计算预算的情况下,就实现了显著的性能提升。

1cd32034-069d-11ee-962d-dac502259ad0.png

1cfd8810-069d-11ee-962d-dac502259ad0.png

而且在推断(Inference)时只需要只需要20%的计算时间,成功实现了计算资源的高效利用。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    3648

    浏览量

    51712
  • 代码
    +关注

    关注

    30

    文章

    4941

    浏览量

    73148
  • GitHub
    +关注

    关注

    3

    文章

    484

    浏览量

    18424

原文标题:击败LLaMA?史上最强「猎鹰」排行存疑,符尧7行代码亲测,LeCun转赞

文章出处:【微信号:AI智胜未来,微信公众号:AI智胜未来】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    小米史上最强年报!单季度千亿营收!SU7全年产能已售罄!

    电子发烧友网报道(文/梁浩斌)如日中天的小米,发布了史上最强年报!   2024年,小米集团总收入达到3659亿元,同比增长35%,创下历史新高。其中第四季度的数据更为炸裂,收入1090亿元,同比
    的头像 发表于 03-20 00:13 7566次阅读
    小米<b class='flag-5'>史上</b><b class='flag-5'>最强</b>年报!单季度千亿营收!SU<b class='flag-5'>7</b>全年产能已售罄!

    小红书获取笔记正文和点数的API接口

    API访问步骤、代码示例和最佳实践。 1. API接口介绍 小红书提供开发者API,允许授权用户访问平台数据。获取笔记正文和点数通常涉及以下步骤: 认证 :首先,注册为小红书开发者,获取API密钥(API Key)和访问令牌(Access Token)。这需要在小红
    的头像 发表于 11-18 16:27 595次阅读
    小红书获取笔记正文和点<b class='flag-5'>赞</b>数的API接口

    EtherNet/IP从站CC-Link IEFB从站协议转换网关,建议点收藏

    EtherNet/IP从站CC-Link IEFB从站协议转换网关,建议点收藏 一,设备主要功能 疆鸿智能JH-EIP-CCLKIE型网关实现CC-Link IE Field Basic网络
    的头像 发表于 11-18 15:32 179次阅读
    EtherNet/IP从站<b class='flag-5'>转</b>CC-Link IEFB从站协议转换网关,建议点<b class='flag-5'>赞</b>收藏

    ProfinetCC-Link IE总线协议转换网关建议点收藏

    ProfinetCC-Link IE总线协议转换网关建议点收藏 一,主要功能 1、Profinet从CC-Link IE从工业级Profinet网关。‌这种网关设备允许将Profinet网络中
    的头像 发表于 11-13 16:32 653次阅读
    Profinet<b class='flag-5'>转</b>CC-Link IE总线协议转换网关建议点<b class='flag-5'>赞</b>收藏

    代码开发平台推荐:2025国内低代码开发平台排名TOP10

    代码开发平台排行榜 在企业数字化转型的浪潮中,低代码开发平台正逐渐成为企业实现高效开发和快速迭代的重要工具。随着技术的不断进步和市场需求的持续增长,低代码开发平台的市场竞争也日益激烈
    的头像 发表于 10-28 10:22 312次阅读

    HarmonyOSAI编程智能代码解读

    CodeGenie提供智能AI能力对框选的代码片段进行逐条解释,总结代码段含义,帮助开发者提升阅读代码的速度和效率。 选中.ets文件或者.cpp文件中需要被解释的代码
    发表于 09-02 16:29

    HarmonyOS AI辅助编程工具(CodeGenie)代码智能解读

    。 选中.ets文件或者.cpp文件中需要被解释的代码代码片段,右键选择CodeGenie > Explain Code,开始解读当前代码内容。 说明 最多支持解读2000
    发表于 07-17 17:02

    使用 NPU 插件对量化的 Llama 3.1 8b 模型进行推理时出现“从 __Int64 转换为无符号 int 的错误”,怎么解决?

    安装了 OpenVINO™ GenAI 2024.4。 使用以下命令量化 Llama 3.1 8B 模型: optimum-cli export openvino -m meta-llama
    发表于 06-25 07:20

    今日看点丨台积电、Intel合资运营代工业务;韩国计划向当地汽车行业注入3万亿韩元援助

    1. Meta 发布人工智能新模型系列 Llama 4 ,首次采用“混合专家”架构   当地时间周六(4月5日),美国科技巨头Meta推出了其最强大的开源人工智能(AI)模型Llama 4
    发表于 04-07 11:26 590次阅读

    锐成芯微荣登2025中国IC设计Fabless100排行榜之TOP10 IP公司

    近日,国际电子技术领域头部媒体AspenCore发布了《2025中国IC设计Fabless100排行榜》,锐成芯微凭借自主创新实力、技术生态布局及行业贡献,再度荣登“TOP10 IP公司”榜单!
    的头像 发表于 03-31 17:49 1265次阅读

    墨芯荣登2025中国IC设计Fabless100排行榜之TOP10 AI芯片公司

    国际电子技术领域头部媒体AspenCore近日公布了最新2025 China Fabless 100排行榜。墨芯人工智能继去年成功上榜之后,再次凭借其出色的技术实力和市场表现,荣膺Top 10 AI芯片公司。
    的头像 发表于 03-31 15:18 2122次阅读

    纪荣登2025中国IC设计Fabless100排行榜之TOP10 EDA公司

    近日,由AspenCore 主办的2025 国际集成电路展览会暨研讨会(IIC Shanghai)重磅揭晓了2025中国IC设计Fabless100排行榜,其中芯纪科技有限公司(以下简称“芯
    的头像 发表于 03-31 15:15 2527次阅读

    史上最强财报!小米2024年营收飙涨35%,2025年汽车交付超35万辆

    3月18日晚间,小米集团发布2024年财报,2024年公司营收达到3659亿元,同比增长35%。全年经调整净利润272亿元,同比增长41.3%。2024年第四季度营收突破千亿,达到1090亿元,同比增长48.8%。智能电动汽车等创新业务328亿元,雷军称这是历史上最强财报
    的头像 发表于 03-19 10:10 3306次阅读
    <b class='flag-5'>史上</b><b class='flag-5'>最强</b>财报!小米2024年营收飙涨35%,2025年汽车交付超35万辆

    青岛市委书记曾荣一莅临中科亿海微考察调研

    、构建创新型产业体系进行洽谈交流。中科亿海微公司总裁魏育成热情接待了曾荣书记一,并陪同参观了公司展厅和研发中心。曾荣书记听取了魏育成总裁关于公司历程、核心技
    的头像 发表于 03-12 21:25 955次阅读
    青岛市委书记曾<b class='flag-5'>赞</b>荣一<b class='flag-5'>行</b>莅临中科亿海微考察调研

    NVIDIA推出开放式Llama Nemotron系列模型

    作为 NVIDIA NIM 微服务,开放式 Llama Nemotron 大语言模型和 Cosmos Nemotron 视觉语言模型可在任何加速系统上为 AI 智能体提供强效助力。
    的头像 发表于 01-09 11:11 1189次阅读