0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

沐曦联合香港科技大学登上AI顶会

沐曦MetaX 来源:沐曦MetaX 2025-10-14 09:46 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日,沐曦PDE-AI Solution团队与香港科技大学合作,在两大人工智能顶级会议NeurIPS2025与EMNLP 2025上发表重要研究成果,涵盖大语言模型(LLM)的多样化解码与高效训练优化方向,展现了中国企业在AI基础研究领域的持续创新力。

顶会背景:AI研究的全球高地

关于NeurIPS

定位与声誉:人工智能和机器学习领域的“天花板”级会议,与ICML并列为全球最顶尖的两大会议。被工业界(如Google, Meta, OpenAI等)视为技术风向标。NeurIPS的论文录用,是全球学术界与工业界评估机构与个人在人工智能基础研究领域核心竞争力的黄金标准,是通往全球顶尖AI研究机构的关键履历。

特点:非常注重论文的理论深度、算法创新和基础性贡献。涵盖深度学习、强化学习、概率模型、计算机视觉、人工智能伦理等广泛而核心的机器学习方向。

难度:历年录用率极低(通常在20%-25%左右),2025年投稿数20000+, 竞争极为激烈。

关于EMNLP

定位与声誉:自然语言处理领域的世界顶级会议之一,由国际计算语言学协会(ACL)主办, NLP领域的三大顶会之一。在EMNLP上发表论文,是展现研究机构在自然语言处理领域具备世界级创新与应用能力的权威证明,已成为全球头部科技公司及实验室争相吸纳高端人才的重要依据。

特点:侧重于具有坚实实证基础的自然语言处理研究,强调通过实验和数据分析来验证新方法、新模型的有效性。覆盖机器翻译、文本生成、信息抽取、情感分析、大语言模型等热门方向。

难度:作为NLP领域的旗舰会议,EMNLP吸引了全球顶尖高校和科技公司的投稿,2025年投稿数接近10000,历年录用率极低(通常在15%-20%左右)。

Semantic-guided Diverse Decoding for Large Language Model (NeurIPS 2025)

论文链接:https://arxiv.org/pdf/2506.23601

摘要

在大语言模型(LLM)的实际应用中,生成多样且有意义的回答始终是关键需求 —— 无论是 Best-of-N 策略中通过多候选提升小模型性能,还是 RLHF 训练中通过多样本优化奖励信号,亦或是数据合成时构建丰富训练集,都需要模型跳出换词不换义的局限。

然而,当前主流的解码方法如温度采样、多样化束搜索等,大多只能实现表层词汇的多样性,生成的回答看似不同,核心语义却高度重合。这一痛点严重制约了大模型在复杂任务中的潜力。

香港科技大学联合沐曦研究团队提出了SemDiD(Semantic-guided Diverse Decoding)—— 一种直接在语义嵌入空间操作的解码算法,通过三大核心机制实现质量与多样性的平衡,在 Best-of-N 和 RLHF 任务中均实现显著性能提升。

核心痛点:现有解码方法的

语义多样性陷阱

为什么现有多样化解码方法效果有限?研究团队通过实验指出了两大关键问题:

多样性停留在词汇层面:温度采样通过调整概率分布增加随机性,多样化束搜索通过 n-gram 惩罚避免重复,但这些方法均未触及语义层面。例如,对于如何解决数学应用题的问题,模型可能生成先算 A 再算 B和先计算 A 然后计算 B这类表层差异,而非不同解题思路。

概率评估的固有偏见:传统方法用 token 概率衡量回答质量,但存在严重的位置偏差和长度偏差 —— 序列越靠后的 token 因上下文更确定,概率往往更高;句子中远离标点的 token 也会获得更高置信度。这导致长回答被过度高估,短回答被不公平扣分,质量评估失真。

SemDiD:三大机制实现

语义级多样化解码

SemDiD 的核心思路是直接在语义嵌入空间引导解码过程,而非在 token 层面做文章。它通过正交方向引导、动态组间排斥、去偏概率评估三大机制,同时保证回答质量与语义多样性,整体架构如图 1 所示。

实验:在 Best-of-N 和 RLHF 中

全面领先

研究团队在 9 个基准任务(涵盖推理、问答、机器翻译)和 3 种 RLHF 算法(Iterative-RLHF、GRPO、RLOO)上验证了 SemDiD 的效果,对比了温度采样、算术采样、多样化束搜索等主流方法。

1. Best-of-N 任务:覆盖度提升 1.4%-5.2%

Best-of-N 的核心指标是「覆盖度」(测试集中至少有一个正确回答的样本比例)和「准确率」(通过投票 / LLM-Judge 选出正确回答的比例)。结果显示:

在推理任务中,SemDiD 用 25 个样本实现 82.4%(ARC-Challenge)、85.6%(BBH)、98.1%(GSM8K)的覆盖度,较最佳基线提升 1.8%-4.3%。

在问答任务中,MMLU-Pro + 的覆盖度提升最为显著,达 5.2%(25 个样本时 82.63% vs 77.43%)。

即使是小嵌入模型(0.5B 参数),SemDiD 的语义聚类效果也优于基于 n-gram 的聚类,25 个样本时覆盖度达 95%,远超概率选择的 92%。

2. RLHF 任务:训练收敛加速 15%,准确率提升 2.1%

在 RLHF 训练中,多样化的候选能提供更丰富的奖励信号,避免策略坍缩。实验显示:

在 TLDR 摘要任务中,SemDiD 使 GRPO 算法的 win rate(GPT-o1-mini 评估)达 73.4%,较最佳基线提升 3.2%。

在 GSM8K 数学推理任务中,SemDiD 帮助 Iterative-RLHF、GRPO、RLOO 的准确率分别达 85.5%、88.2%、82.4%,最高提升 2.1%。

更重要的是,SemDiD 使 RLHF 训练收敛速度加快 15%—— 在 60 次 rollout 时就能达到其他方法 100 次 rollout 的性能,大幅降低训练成本。

Domain Impact-aware Data Sampling for Large Language Model Training (EMNLP 2025)

论文链接:https://arxiv.org/pdf/2504.13227

摘要

在大语言模型(LLM)训练中,数据选择始终是决定效率与性能的关键 —— 海量多领域训练数据(如代码、学术论文、网页文本)中,不同领域对下游任务的贡献差异巨大,且这种贡献会随训练过程动态变化。传统静态采样策略(如均匀采样、固定比例混合)要么浪费算力在低效数据上,要么无法适应训练动态,导致模型性能难以最大化。

香港科技大学联合沐曦的研究团队提出DIDS(Domain Impact-aware Data Sampling)—— 一种基于领域影响的动态数据采样框架。它通过梯度聚类重划分领域、FIM 引导评估领域影响、结合学习轨迹动态调整采样比例三大核心步骤,在仅使用 10% 训练数据的情况下,实现平均 3.4% 的性能提升,同时保持训练效率与基线相当。

核心痛点:传统领域采样策略的

两大局限

现有领域级数据采样方法难以平衡领域内一致性与动态影响评估,导致训练效率低下:

领域划分缺乏训练相关性:传统方法要么按数据源(如 “代码数据”“数学数据”)划分领域,要么用 BERT 语义聚类,但这些方式无法保证同一领域内的数据对模型训练有相似影响。例如,数学证明与编程实现虽属不同数据源,却因共享逻辑推理特性,对模型参数更新的模式高度相似;反之,同一数据源的网页文本也可能因内容差异触发完全不同的梯度变化。

领域影响评估失真且静态:现有方法要么依赖计算昂贵的网格搜索(如 MM1),无法适应训练过程中领域重要性的动态变化;要么仅通过梯度相似度衡量领域影响(如 DGA、Doge),却忽略了参数更新对模型下游任务预测行为的实际影响。例如,梯度相似的两个领域,可能对模型在数学推理任务上的输出分布改变程度完全不同。

DIDS:三步实现动态领域采样优化

DIDS 的核心思路是从 “训练影响” 出发定义领域,并动态评估领域对下游任务的实际价值,最终实现资源向高价值领域倾斜。其整体流程分为 “领域重划分”“领域影响评估”“采样比例更新” 三步(图 2),形成闭环优化。

实验:10% 数据实现 3.4%

性能提升,多场景验证有效性

研究团队在 Llama-3.1-8B/70B、Mixtral-7B 等模型上,基于 Tulu-3(93.9 万样本)和 OpenHermes-2.5 数据集,在 9 个下游任务(涵盖推理、数学、指令跟随、生物医学问答等)上验证了 DIDS 的效果,对比了均匀采样、Random、Doremi、Velocitune、Doge、DGA 等主流基线。

多任务优化:DIDS 仅用 10 万样本(约 10% 全量数据),平均得分 62.3,不仅超过所有基线(如最强基线 Doge 得 60.2),还超越了全量数据训练的模型(61.2)。其中数学推理任务提升最显著,Minerva-MathQA 从 17.8 提升至 20.5(+2.7),TruthfulQA 从 37.2 提升至 43.0(+5.8)。

单任务优化:DIDS 平均得分 63.7,较第二好的 DGA(61.6)提升 2.1,在知识密集型任务上优势明显 ——IFEval(指令跟随)从 53.2 提升至 57.5(+4.3),TruthfulQA 从 38.5 提升至 44.8(+6.3)。

关于沐曦

沐曦致力于自主研发全栈高性能GPU芯片及计算平台,为智算、通用计算、云渲染等前沿领域提供高能效、高通用性的算力支撑,助力数字经济发展。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    89

    文章

    38153

    浏览量

    296804
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136236
  • 沐曦
    +关注

    关注

    0

    文章

    56

    浏览量

    1659

原文标题:沐曦联合香港科技大学登上AI顶会

文章出处:【微信号:沐曦MetaX,微信公众号:沐曦MetaX】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    香港科技大学(广州)与奇异摩尔联合实验室揭牌

    近日,香港科技大学(广州)-奇异摩尔联合实验室揭牌仪式在香港科技大学(广州)学生活动中心成功举行。本次仪式备受行业瞩目,吸引了来自产、投、学
    的头像 发表于 11-06 09:09 552次阅读

    强强联合:之江实验室与股份共建智算集群联合实验室

    2025年10月22日, 之江实验室与集成电路(上海)股份有限公司(以下简称“股份”)正式签署合作协议,共同组建“智算集群联合实验室
    的头像 发表于 10-23 10:50 1031次阅读

    土耳其中东科技大学科技园到访智行者

    近日,智行者迎来土耳其中东科技大学科技园总经理Serdar Alemdar先生到访。中东科技大学成立于1956年,是土耳其最负盛名的大学之一。中东科技大学科技园作为土耳其乃至整个中东地
    的头像 发表于 09-24 17:23 899次阅读

    华中科技大学与东风汽车首批6个科研项目签约

    8月30日,华中科技大学-东风汽车联合研究院管委会召开第一次会议,首批6个科研项目签约,标志着联合研究院在华中科技大学军山校区正式落地校企合作进入新阶段。
    的头像 发表于 09-01 10:12 607次阅读

    福耀科技大学与洲明科技达成战略合作

    2025年8月5日,福建福耀科技大学与洲明科技正式签署校企战略合作协议。
    的头像 发表于 08-06 18:18 1301次阅读

    硅基流动携手首发基于云的Kimi K2推理服务

    今天,硅基流动联合集成电路(上海)股份有限公司(简称“”),全球首发基于
    的头像 发表于 07-23 17:33 1566次阅读

    比亚迪与香港科技大学成立具身智能实验室

    近日,比亚迪汽车工业有限公司与香港科技大学(以下简称“港科大”)签署合作框架协议,共同成立“香港科技大学-比亚迪具身智能联合实验室”。本次合
    的头像 发表于 07-10 18:08 877次阅读

    电子科技大学OpenHarmony技术俱乐部正式揭牌成立

    2025年6月9日上午,由OpenAtom OpenHarmony(以下简称“OpenHarmony”)项目群技术指导委员和电子科技大学信息与软件工程学院共同举办的“电子科技大学
    的头像 发表于 06-16 16:20 1144次阅读
    电子<b class='flag-5'>科技大学</b>OpenHarmony技术俱乐部正式揭牌成立

    华宝新能与电子科技大学(深圳)高等研究院共建联合实验室

    为加速新能源技术创新与产业转化,助力国家“双碳”目标实现与粤港澳大湾区国际科创中心建设,近日,华宝新能与电子科技大学(深圳)高等研究院成立“华宝新能光伏储能电子联合实验室”,并在电子科技大学(深圳
    的头像 发表于 05-30 19:58 652次阅读

    香港科技大学商学院一行走进大普技术

    近日,香港科技大学商学院一行走进大普技术,开启东莞高端智造交流之旅。双方聚焦AI驱动产业升级,共话科技企业创新发展与未来布局,以思想碰撞激发产业变革新动能。
    的头像 发表于 05-30 17:04 1351次阅读

    PaddleScience完成与AI芯片适配

    当前,PaddleScience已与展开深度合作,涵盖智能仿真、高性能计算、科学建模等多个方向。这一趋势正加速形成面向"Al for Science"的国产智算生态新格局。
    的头像 发表于 05-06 14:49 1364次阅读

    大学计划 | 同星智能赞助电子科技大学 Fury 电动方程式赛车队

    FURYFURY电动方程式赛车队电子科技大学Fury电动方程式赛车队成立于2016年,是电子科技大学智能驾驶联合研究中心面向FSC组建的一支大学生创新科研团队,旨在培养电动汽车研究领域
    的头像 发表于 02-10 19:36 891次阅读
    <b class='flag-5'>大学</b>计划 | 同星智能赞助电子<b class='flag-5'>科技大学</b> Fury 电动方程式赛车队

    澎峰科技与完成联合测试,实现全面兼容

    近日,澎峰科技与科技宣布,双方已完成对PerfXLM推理引擎、PerfXCloud大模型服务平台与云系列通用计算GPU的
    的头像 发表于 01-21 15:20 969次阅读

    澎峰科技计算软件栈与GPU完成适配和互认证

    ‍近期,澎峰科技与完成了对PerfXLM(推理引擎)、PerfXCloud(大模型服务平台)与云系列通用计算GPU的
    的头像 发表于 01-21 09:51 1195次阅读

    南方科技大学OpenHarmony技术俱乐部正式揭牌成立

    1月4日,由OpenAtom OpenHarmony(以下简称“OpenHarmony”)项目群技术指导委员会与南方科技大学共同举办的“南方科技大学OpenHarmony技术俱乐部成立大会”在南方
    的头像 发表于 01-05 19:32 1612次阅读
    南方<b class='flag-5'>科技大学</b>OpenHarmony技术俱乐部正式揭牌成立