0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

分析自动评测器的工具包

深度学习自然语言处理 来源:深度学习自然语言处理 2023-06-17 14:11 次阅读

除了各类开源模型外,还有GPT-4、PaLM 2等众多「闭源」模型,甚至还开设了一个「准中文」排行榜。

最近,来自斯坦福的团队,也发布了一款LLM自动评测系统——AlpacaEval,以及对应的AlpacaEval Leaderboard。

在斯坦福的这个排行榜中,GPT-4依然以绝对领先的优势夺得第一,胜率超过了95%。

紧随其后的是,胜率都在80%以上的Claude和ChatGPT。其中,Claude以不到3%的优势拿下第二,而ChatGPT则位列第三。

此次获得第四名的,则是一位排位赛新人——微软华人团队发布的WizardLM。

UC伯克利的Vicuna发挥依然稳定,凭借着超过70%的胜率排在第六。

相比之下,斯坦福自己的Alpaca却只排到了第16……

其实,团队自从原始的Alpaca推出以来,已经做了不小的改进——胜率从26%提升到了44%,但依然距离领奖台很远。

对此,其中一位作者有些无奈地表示:「是不是我们哪里做的不对?」

AlpacaEval:易使用、速度快、成本低、经过人类标注验证

AlpacaEval把AlpacaFarm和Aviary进行了结合。

一方面使用与AlpacaFarm相同的代码(缓存/随机排列/超参数),另一方面则使用类似于Aviary的排序提示。

与此同时,还对Aviary的提示进行了修改,从而减少对较长输出的偏见。

团队表示,AlpacaEval有着拔群的效果:

与人类多数票的一致性,高于单个人类标注者

胜率与人类标注高度相关(0.94)

相比于lmsys评测器,有显著提升(从63%提高到69%)

685d061e-0cd3-11ee-962d-dac502259ad0.png

胜率

模型的输出在每个指令上优于text-davinci-003(即参考文本)的比例。

具体而言,首先从AlpacaEval数据集中收集了期望模型在每个指令上的输出对,并将每个输出与相同指令下的参考模型(text-davinci-003)的输出进行配对。

随后,把这些输出同时喂给自动评测器,让它去判断哪一个更好(也就是评测器的偏好)。

最后,将数据集中所有指令的偏好进行平均,从而得到模型相对于text-davinci-003的胜率。如果两个模型打平,那么就算半个偏好。

686540ea-0cd3-11ee-962d-dac502259ad0.png

论文地址:
https://arxiv.org/pdf/2305.14387.pdf

标准误差

胜率的标准误差(通过N-1进行归一化),即不同指令上的平均偏好。

686f295c-0cd3-11ee-962d-dac502259ad0.png

不同评测器的对比

团队通过与收集的2.5K个人工标注(每个指令平均包含4个人工标注)进行比较,评测了AlpacaEval数据集上的不同自动标注程序。

687ad73e-0cd3-11ee-962d-dac502259ad0.png▲斯坦福的评测器(alpaca_eval_gpt4)、之前的自动评测器(alpaca_farm_greedy_gpt4、aviary_gpt4、lmsys_gpt4)、人类(humans)以及不同基准模型(gpt4、claude、text_davinci_003、guanaco_33b、chatgpt)的测试结果

人类一致性:标注者与交叉标注集中人类多数票之间的一致性

为了估计单个人类标注者(表格中的humans行)与多数人类之间的一致性,首先需要选取一个标注,并计算其在预测其他3个标注的众数时的准确率。

然后,将所有4个标注和650个指令上的准确率求平均,得到人类一致性,即计算预期的(对于人类和样本)留一法一致性。如果众数不唯一,我们随机选择其中一个众数。

对于自动标注器,我们进行完全相同的计算,以便最终的结果可以进行比较。

价格:每1000个标注的平均价格

对于人类来说,这是支付众包工人进行这些标注的价格(每小时18美元)。如果价格取决于用于计算标注的机器(例如Guanaco),则将其留空。

时间:计算1000个标注所需的平均时间

对于人类来说,这是每个众包工人标注1000个示例所需时间的中位数。

对于自动标注器,这是运行标注所需的平均时间。值得注意的是,这可能取决于不同用户的API限制以及集群正在处理的请求数量。

6887ceda-0cd3-11ee-962d-dac502259ad0.png

最后,为了进一步改善自动评测流程,团队发布了:

一个易于定制的流程

模型和自动评测器的排行榜

分析自动评测器的工具包

18K人类标注

2K人类交叉标注

局限性

虽然AlpacaEval提供了一个有用的比较模型,但它并不是一个全面的的模型能力评测系统,其局限性可以概括为以下三点:

指令比较简单

评分时可能更偏向于风格而非事实

没有衡量模型可能造成的危害
责任编辑:彭菁

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 微软
    +关注

    关注

    4

    文章

    6246

    浏览量

    103077
  • 代码
    +关注

    关注

    30

    文章

    4555

    浏览量

    66767
  • 工具包
    +关注

    关注

    0

    文章

    45

    浏览量

    9458

原文标题:斯坦福最新LLM排行榜发布!自家Alpaca垫底,华人团队WizardLM开源第一,GPT-4、Claude稳居前二

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    LabVIEW 2011模块和工具包(图像和信号处理)

    `将数百种特定应用程序的图像和信号处理函数集成到NI LabVIEW应用程序中。 可将NI LabVIEW扩展至特定的应用,如:声音和振动测量、机器视觉、RF通信、瞬时与短时信号分析等。 包括NI LabVIEW高级信号处理工具包、数字滤波
    发表于 08-02 15:27

    LabVIEW 2011模块和工具包(软件开发与发布)

    `使用各种软件工程工具,开发并配置高质量的NI LabVIEW专业应用程序。包括NI LabVIEW应用程序生成器 (Windows版)、NI LabVIEW VI分析工具包、NI LabVIEW状态图模块、NI需求网关 (R
    发表于 08-02 15:28

    LabVIEW 2011模块和工具包(控制设计和仿真)

    `NI 提供完整的系统辨识,控制设计,仿真和控制执行模块工具,利用这些模块和工具包能方便客户进行算法开发、分析和验证`
    发表于 08-02 15:33

    PID工具包

    新手求助:PID工具包怎么用?
    发表于 05-06 09:57

    Labview2010如何加载工具包

    本帖最后由 eehome 于 2013-1-5 09:41 编辑 Labview2010如何加载工具包?安装了2010以后没看到工具包的激活选项或者安装选项请教前辈下如何选择加载工具包
    发表于 12-31 15:36

    PIC 语言工具包问题

    大家好,PIC 我是新手,有个简单的问题请教一下,就是我导入一个mcp的,mplab会报语言工具包不对,这个要如何处理,因我导的是网上下下来的,所以不知道之前用的是什么语言工具包
    发表于 04-19 14:00

    基于声音与振动工具包的振动测量分析

    本帖最后由 xiaogengniu 于 2013-5-4 12:38 编辑 基于声音与振动工具包的振动测量分析
    发表于 05-04 12:37

    fastrbf工具包

    求matlab中fastrbf的工具包 ,有谁有这个工具包呢?求分享?急需
    发表于 03-05 20:05

    工具包

    谁有 Excel和MS Office Report专用工具包
    发表于 04-08 19:55

    关于labview工具包

    请问各位大神一个问题,LabVIEW的工具包如何下载,比如声音和振动工具包,官网上只有下载界面。
    发表于 09-04 19:27

    STK (卫星工具包

    STK是Satellite Tool Kit的简称,即卫星工具包。STK提供分析引擎用于计算数据、并可显示多种形式的二维地图,显示卫星和其它对象如运载火箭、导弹、飞机、地面车辆、目标等。STK的核心
    发表于 04-15 20:02

    工具包

    谁有labview视觉工具包2013适用的??分享一下,不胜感激
    发表于 04-27 23:28

    SAM9G45-EK评测工具包怎么样?

    爱特梅尔公司(Atmel® Corporation)宣布推出SAM9G45-EK评测工具包,支持基于爱特梅尔400 MHz ARM926™之嵌入式微处理(MPU)并带有DDR2存储
    发表于 09-19 07:14

    labview 2015 开发环境以及机器视觉工具包

    4.分析内存泄漏的桌面追踪工具包。链接:https://pan.baidu.com/s/1s2dwtwn4o-5HfaECT_n3vw提取码:hxxn
    发表于 12-04 18:56

    SAM9G45评测工具包(Atmel)

    SAM9G45评测工具包(Atmel) 爱特梅尔公司(Atmel® Corporation)宣布推出SAM9G45-EK评测工具包,支持基于爱特梅尔400 MHz ARM92
    发表于 11-02 09:35 983次阅读