0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

13B模型全方位碾压GPT-4?这背后有什么猫腻

智能感知与物联网技术研究所 来源:未知 2023-11-20 09:15 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

你的测试集信息在训练集中泄漏了吗?


一个参数量为 13B 的模型竟然打败了顶流 GPT-4?就像下图所展示的,并且为了确保结果的有效性,这项测试还遵循了 OpenAI 的数据去污方法,更关键的是没有发现数据污染的证据。

如果你细细查看图中的模型,发现只要带有「rephraser」这个单词,模型性能都比较高。
这背后到底有何猫腻?原来是数据污染了,即测试集信息在训练集中遭到泄漏,而且这种污染还不易被检测到。尽管这一问题非常关键,但理解和检测污染仍然是一个开放且具有挑战性的难题。
现阶段,去污最常用的方法是 n-gram 重叠和嵌入相似性搜索:N-gram 重叠依赖于字符串匹配来检测污染,是 GPT-4、PaLM 和 Llama-2 等模型常用方法;嵌入相似性搜索使用预训练模型(例如 BERT)的嵌入来查找相似且可能受到污染的示例。
然而,来自 UC 伯克利、上海交通大学的研究表明测试数据的简单变化(例如,改写、翻译)就可以轻松绕过现有的检测方法。他们并将测试用例的此类变体称为「改写样本(Rephrased Samples)」。
下面演示了 MMLU 基准测试中的改写样本。结果证明,如果训练集中包含此类样本,13B 模型可以达到极高的性能 (MMLU 85.9)。不幸的是,现有的检测方法(例如,n-gram 重叠、嵌入相似性)无法检测到这种污染。比如嵌入相似性方法很难将改写的问题与同一主题(高中美国历史)中的其他问题区分开来。

通过类似的改写技术,本文在广泛使用的编码和数学基准测试中观察到一致的结果,例如 HumanEval 和 GSM-8K(如文章开头图中所示)。因此,能够检测此类改写样本变得至关重要。
接下来,我们看看这项研究是如何进行的。


  • 论文地址:https://arxiv.org/pdf/2311.04850.pdf

  • 项目地址:https://github.com/lm-sys/llm-decontaminator#detect


论文介绍
文中表示,大模型(LLM)在快速发展的同时,关于测试集污染的问题被越来越多的重视起来,很多人对公共基准的可信度表示担忧。
为了解决这一问题,有些人采用传统的去污方法如字符串匹配(例如,n-gram 重叠)来删除基准数据,但这些操作还远远不够,因为对测试数据进行一些简单的更改(例如,改写、翻译)就可以轻松绕过这些净化措施。
更重要的是,如果不消除测试数据的这种更改,13B 模型很容易过度拟合测试基准并实现与 GPT-4 相当的性能。他们在 MMLU、GSK8k 和 HumanEval 等基准测试中验证了这些观察结果。
同时为了解决这些日益增长的风险,本文还提出了一种更为强大的基于 LLM 的去污方法 LLM decontaminator,并将其应用于流行的预训练和微调数据集,结果表明,本文提出的 LLM 方法在删除改写样本方面明显优于现有方法。
这一做法也揭露了一些先前未知的测试重叠(test overlap)。例如,在 RedPajamaData-1T 和 StarCoder-Data 等预训练集中,本文发现 HumanEval 基准有 8-18% 重叠。此外,本文还在 GPT-3.5/4 生成的合成数据集中发现了这种污染,这也说明了在 AI 领域存在潜在的意外污染风险。
本文希望,社区在使用公共基准时采取更强有力的净化方法,并呼吁社区积极开发新的一次性测试(one-time exams)案例来准确评估模型。
改写样本
本文的目标是调查训练集中包含测试集的简单变化是否会影响最终的基准性能,并将测试用例的这种变化称为「改写样本」。实验中考虑了基准的各个领域,包括数学、知识和编码。示例 1 是来自 GSM-8k 的改写样本,其中有 10-gram 重叠无法检测到,修改后和原始文本保持相同的语义。

基准污染具有不同的形式,因此改写技术存在一些细微的差异。对于基于文本的基准,本文在不改变语义的情况下改写测试用例,例如通过重新排列词序或用同义术语替换;对于基于代码的基准测试,本文改变编码风格、命名方式等。
如下所示,算法 1 中针对给定的测试集提出了一种简单的算法。该方法可以帮助测试样本逃避检测。

接下来本文提出了一种新的污染检测方法,可以准确地从相对于基准的数据集中删除改写样本。
具体而言,本文引入了 LLM decontaminator。首先,对于每个测试用例,它使用嵌入相似度搜索来识别具有最高相似度的 top-k 训练项,之后通过 LLM(例如 GPT-4)评估每一对是否相同。这种方法有助于确定数据集中有多少改写样本。
图 4 展示了不同污染以及不同检测方法的维恩图。

实验
在第 5.1 节中,实验证明了在改写样本上训练的模型可以取得显着的高分,在三个广泛使用的基准(MMLU、HumanEval 和 GSM-8k)中实现与 GPT-4 相当的性能,这表明改写样本应被视为污染,应从训练数据中删除。在第 5.2 节中,本文根据 MMLU/HumanEval 中改写样本评估不同的污染检测方法。在第 5.3 节中,本文将 LLM decontaminator 应用于广泛使用的训练集并发现以前未知的污染。
接下来我们看看一些主要结果。
改写样本污染基准
如表 2 所示,在改写样本上训练的 Llama-2 7B 和 13B 在 MMLU 上取得显着的高分,从 45.3 到 88.5。这表明经过改写的样本可能会严重扭曲基准数据,应被视为污染。

本文还对 HumanEval 测试集进行了改写,并将其翻译成五种编程语言:C、JavaScript、Rust、Go 和 Java。结果显示,在改写样本上训练的 CodeLlama 7B 和 13B 在 HumanEval 上可以取得极高的分数,分别从 32.9 到 67.7 以及 36.0 到 81.1。相比之下,GPT-4 在 HumanEval 上只能达到 67.0。

下表 4 取得了同样的效果:

对检测污染方法的评估
如表 5 所示,除 LLM decontaminator 外,所有其他检测方法都会引入一些误报。改写和翻译的样本都不会被 n-gram 重叠检测到。使用 multi-qa BERT,嵌入相似性搜索被证明对翻译样本完全无效。

数据集污染情况
表 7 显示了每个训练数据集中不同基准的数据污染百分比。

LLM decontaminator 揭示了 79 个自改写样本的实例,占 MATH 测试集的 1.58%。示例 5 是 MATH 训练数据中 MATH 测试的改写示例。




原文标题:13B模型全方位碾压GPT-4?这背后有什么猫腻

文章出处:【微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 物联网
    +关注

    关注

    2950

    文章

    48132

    浏览量

    418530

原文标题:13B模型全方位碾压GPT-4?这背后有什么猫腻

文章出处:【微信号:tyutcsplab,微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    ST72324B-Auto:汽车级8位MCU的全方位解析

    ST72324B-Auto:汽车级8位MCU的全方位解析 在汽车电子领域,微控制器(MCU)扮演着至关重要的角色。ST72324B-Auto作为一款专为汽车应用设计的8位MCU,具有诸多出色的特性
    的头像 发表于 04-16 13:00 127次阅读

    AD7386 - 4/AD7387 - 4/AD7388 - 4:高性能SAR ADC的全方位解析

    AD7386 - 4/AD7387 - 4/AD7388 - 4:高性能SAR ADC的全方位解析 在电子设计领域,模数转换器(ADC)是连接模拟世界和数字世界的关键桥梁。今天,我们就
    的头像 发表于 03-25 15:00 175次阅读

    LPC1111/12/13/14 32位 ARM Cortex - M0 微控制器全方位剖析

    LPC1111/12/13/14 32位 ARM Cortex - M0 微控制器全方位剖析 在嵌入式系统设计领域,微控制器的选择至关重要,它直接影响着产品的性能、功耗、成本等多个关键指标。今天我们
    的头像 发表于 03-24 17:20 616次阅读

    SGM2077B:高性能CMOS电压调节器的全方位解析

    SGM2077B:高性能CMOS电压调节器的全方位解析 在电子设计领域,电压调节器是不可或缺的关键组件,它对于保障电子设备的稳定运行起着至关重要的作用。SGMICRO推出的SGM2077B是一款采用
    的头像 发表于 03-20 09:30 300次阅读

    SGM61131B:高性能同步降压转换器的全方位解析

    SGM61131B:高性能同步降压转换器的全方位解析 在电子工程师的日常设计工作中,电源管理芯片是不可或缺的关键组件。今天,我们就来深入探讨SGM61131B这款4.5V至17V输入、3A输出的同步
    的头像 发表于 03-19 10:00 371次阅读

    GPT-5.1发布 OpenAI开始拼情商

    OpenAI正式上线了 GPT-5.1 Instant 以及 GPT-5.1 Thinking 模型;有网友实测发现OpenAI新发布的GPT-5.1大
    的头像 发表于 11-13 15:49 820次阅读

    技术升级焕新体验!RV1126B全方位突破

    技术升级焕新体验!RV1126B全方位突破,赋能多领域智能发展 当嵌入式AI硬件市场还在为RV1126的停产议论纷纷时,全新升级的RV1126B横空出世,瞬间吸引了行业的目光。这款产品并非对前代产品
    的头像 发表于 10-22 17:49 1045次阅读

    政策加码加氢站,背后有哪些考量与机遇?

    加氢站是兑现氢能源价值的出口,在整个氢能源供应体系中,加氢站是链接上游制备、运输与终端应用的关键节点,2025 年上半年,从顶层设计到地方实践,众多支持氢能产业的政策红利持续释放,其中涉及加氢站建设、运营等方面的支持力度更胜以往,政策加码加氢站背后有哪些考量呢?而围绕加氢站又会有哪些产业机遇呢?
    的头像 发表于 09-04 14:59 597次阅读
    政策加码加氢站,<b class='flag-5'>背后有</b>哪些考量与机遇?

    NVIDIA从云到边缘加速OpenAI gpt-oss模型部署,实现150万TPS推理

      自 2016 年推出 NVIDIA DGX 以来,NVIDIA 与 OpenAI 便开始共同推动 AI 技术的边界。此次 OpenAI gpt-oss-20bgpt-oss-120b 模型
    的头像 发表于 08-15 20:34 2500次阅读
    NVIDIA从云到边缘加速OpenAI <b class='flag-5'>gpt</b>-oss<b class='flag-5'>模型</b>部署,实现150万TPS推理

    讯飞星辰MaaS平台率先上线OpenAI最新开源模型

    8月6日凌晨,OpenAI 时隔六年再次回归开源,发布两款全新的大语言模型gpt-oss-120bgpt-oss-20b,性能与o4-mini 水平相当,并且可以在消费级硬件上运行
    的头像 发表于 08-13 16:43 1919次阅读

    阿里通义千问发布小尺寸模型Qwen3-4B,手机也能跑

    电子发烧友网综合报道 8月7日,阿里通义千问宣布发布更小尺寸新模型——Qwen3-4B-Instruct-2507和Qwen3-4B-Thinking-2507。目前新模型已在魔搭社区
    的头像 发表于 08-12 17:15 7025次阅读
    阿里通义千问发布小尺寸<b class='flag-5'>模型</b>Qwen3-<b class='flag-5'>4B</b>,手机也能跑

    OpenAI或在周五凌晨发布GPT-5 OpenAI以低价向美国政府提供ChatGPT

    外界一直在期待的OpenAI新一代大语言模型GPT-5或将发布。据外媒的报道,GPT-5很可能在周五凌晨发布。这是OpenAI在2023年的3月份推出自然语言处理模型
    的头像 发表于 08-07 14:13 1.5w次阅读

    OpenAI发布2款开源模型

    OpenAI开源了两款高性能权重语言模型gpt-oss-120bgpt-oss-20b,OpenAI CEO Sam Altman表示:「gpt-oss 发布了!我们做了一个开放
    的头像 发表于 08-06 14:25 1149次阅读

    具有载波聚合的 RX 分集 FEM(B26、B8、B12/13B2/25、B4B7) skyworksinc

    电子发烧友网为你提供()具有载波聚合的 RX 分集 FEM(B26、B8、B12/13B2/25、B4
    发表于 06-19 18:35
    具有载波聚合的 RX 分集 FEM(<b class='flag-5'>B</b>26、<b class='flag-5'>B</b>8、<b class='flag-5'>B</b>12/<b class='flag-5'>13</b>、<b class='flag-5'>B</b>2/25、<b class='flag-5'>B4</b> 和 <b class='flag-5'>B</b>7) skyworksinc

    GPT-5即将面市 性能远超GPT-4

    行业芯事
    电子发烧友网官方
    发布于 :2025年06月04日 13:38:23