0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

摩尔线程新一代大语言模型对齐框架URPO入选AAAI 2026

摩尔线程 来源:摩尔线程 2025-11-17 16:03 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日,摩尔线程在人工智能前沿领域取得重要突破,其提出的新一代大语言模型对齐框架——URPO统一奖励与策略优化,相关研究论文已被人工智能领域的国际顶级学术会议AAAI 2026收录。这一成果标志着摩尔线程在大模型基础技术探索上迈出了关键一步,为简化大模型训练流程、突破模型性能上限提供了全新的技术路径。

0f552dbe-c07a-11f0-8c8f-92fbcf53809c.jpg

图示:URPO统一奖励与策略优化框架

在题为《URPO:A Unified Reward & Policy Optimization Framework for Large Language Models》的论文中,摩尔线程AI研究团队提出了URPO统一奖励与策略优化(Unified Reward & Policy Optimization,URPO)框架,创新地将“指令遵循”(选手)和“奖励评判”(裁判)两大角色融合于单一模型中,并在统一训练阶段实现同步优化。URPO从以下三方面攻克技术挑战:

数据格式统一:将异构的偏好数据、可验证推理数据和开放式指令数据,统一重构为适用于GRPO训练的信号格式。

自我奖励循环:针对开放式指令,模型生成多个候选回答后,自主调用其“裁判”角色进行评分,并将结果作为GRPO训练的奖励信号,形成一个高效的自我改进循环。

协同进化机制:通过在同一批次中混合处理三类数据,模型的生成能力与评判能力得以协同进化。生成能力提升带动评判更精准,而精准评判进一步引导生成质量跃升,从而突破静态奖励模型的性能瓶颈。

实验结果显示,基于Qwen2.5-7B模型,URPO框架显著超越依赖独立奖励模型的传统基线:在AlpacaEval指令跟随榜单上,得分从42.24提升至44.84;在综合推理能力测试中,平均分从32.66提升至35.66。尤为突出的是,作为训练的“副产品”,该模型内部自然涌现出卓越的评判能力,在RewardBench奖励模型评测中取得85.15的高分,表现甚至优于其替代的专用奖励模型(83.55分)。

除了卓越的性能表现,URPO框架在工程落地方面同样展现出显著优势。该技术基于GRPO算法进行轻量化迭代实现,在代码层面仅需添加少量补丁即可完成部署,大幅降低了技术迁移与应用门槛。目前,URPO已在摩尔线程自研计算卡上实现稳定高效运行,充分发挥软硬件协同优化的底层优势;同时,摩尔线程已完成VERL等主流强化学习框架的深度适配,让这一简洁高效的对齐方案能快速融入现有研发体系,既保留了技术延续性,又为行业提供了兼具性能、效率与兼容性的一体化解决方案。

URPO框架的成功,是摩尔线程坚持底层技术创新、攻坚大模型核心挑战的重要成果。该研究不仅提供了一种更简洁、高效、性能更强的对齐方案,更通过“选手-裁判”一体化的设计,为大模型实现持续自我进化开辟了新路径。未来,摩尔线程将继续深耕大模型等前沿技术领域,以坚实的创新成果推动人工智能产业实现跨越式发展。

关于摩尔线程

摩尔线程以全功能GPU为核心,致力于向全球提供加速计算的基础设施和一站式解决方案,为各行各业的数智化转型提供强大的AI计算支持。

我们的目标是成为具备国际竞争力的GPU领军企业,为融合人工智能和数字孪生的数智世界打造先进的加速计算平台。我们的愿景是为美好世界加速。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1821

    文章

    50542

    浏览量

    267899
  • 摩尔线程
    +关注

    关注

    2

    文章

    299

    浏览量

    6691
  • 大模型
    +关注

    关注

    2

    文章

    3877

    浏览量

    5301

原文标题:摩尔线程大模型对齐研究获顶会认可:URPO框架入选 AAAI 2026

文章出处:【微信号:moorethreads,微信公众号:摩尔线程】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    商汤科技发布并开源新一代原生理解生成统模型SenseNova U1系列

    近日,商汤科技发布并开源新一代原生理解生成统模型SenseNova U1系列,随后壁仞科技、寒武纪、昆仑芯、摩尔线程、中科海光等10家国产
    的头像 发表于 05-08 16:26 682次阅读

    摩尔线程完成DeepSeek-V4全链路工程化适配:S5000基于MUSA+SGLang实现复杂MoE模型快速落地

    近日,摩尔线程依托旗舰级AI训推体智算卡MTT S5000与自研MUSA软件栈,基于SGLang 开源推理框架,成功完成DeepSeek-V4的完整运行验证。该成果表明,面向
    发表于 05-02 09:01 860次阅读

    摩尔线程发布季报:营收7.38亿元,已有45万开发者

    4月26日,国产GPU龙头摩尔线程(688795.SH)披露了2025年报及2026季报。根据公告,摩尔
    发表于 04-26 16:04 781次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>发布<b class='flag-5'>一</b>季报:营收7.38亿元,已有45万开发者

    摩尔线程快速完成对Qwen3.5模型全面适配

    2月17日,摩尔线程宣布已在旗舰级AI训推体全功能GPU MTT S5000上完成对阿里最新大模型Qwen3.5的全方位适配。此次支持充分展示了
    发表于 02-18 08:32 1163次阅读

    Day-0支持|摩尔线程完成MiniMax M2.5模型极速适配

    2月14日,摩尔线程在其旗舰级AI训推体全功能GPU MTT S5000上,成功实现了对MiniMax新一代模型MiniMax M2.5
    发表于 02-15 08:01 1630次阅读

    摩尔线程MTT S5000率先完成对GLM-5的适配

    2月11日,智谱正式发布新一代模型GLM-5。摩尔线程基于SGLang推理框架,在旗舰级AI训推
    的头像 发表于 02-12 10:34 1112次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>MTT S5000率先完成对GLM-5的适配

    Day-0支持|摩尔线程MTT S5000率先完成对GLM-5的适配

    2月11日,智谱正式发布新一代模型GLM-5。摩尔线程基于SGLang推理框架,在旗舰级AI训推
    发表于 02-12 09:15 1729次阅读
    Day-0支持|<b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>MTT S5000率先完成对GLM-5的适配

    摩尔线程正式开源TileLang-MUSA项目

    近日,摩尔线程正式开源TileLang-MUSA项目,实现对TileLang编程语言的完整支持。该项目已成功在摩尔线程
    的头像 发表于 02-11 16:57 1857次阅读

    Nullmax DiffRefiner轨迹预测框架入选AAAI 2026

    1月20日至27日,第40届 (AAAI 2026) 于新加坡召开,汇聚世界顶尖学者与先锋研究者,以智慧碰撞共绘人工智能的未来图景。
    的头像 发表于 01-22 16:16 634次阅读
    Nullmax DiffRefiner轨迹预测<b class='flag-5'>框架入选</b><b class='flag-5'>AAAI</b> <b class='flag-5'>2026</b>

    小鹏汽车与北京大学研究论文成功入选AAAI 2026

    近日,AAAI 2026公布了论文录用结果,该会议是人工智能领域的国际顶级会议之。据悉,AAAI 2026共收到23,680份论文投稿,其
    的头像 发表于 01-04 11:22 869次阅读
    小鹏汽车与北京大学研究论文成功<b class='flag-5'>入选</b><b class='flag-5'>AAAI</b> <b class='flag-5'>2026</b>

    摩尔线程新一代GPU架构即将揭晓

    12月19日至20日,摩尔线程首届MUSA开发者大会(MUSA Developer Conference,简称MDC 2025)将在北京中关村国际创新中心拉开帷幕。作为国内首个聚焦全功能GPU
    的头像 发表于 12-13 15:14 2283次阅读

    地平线五篇论文入选NeurIPS 2025与AAAI 2026

    近日,两大顶级学术会议录用结果相继揭晓,地平线凭借在机器人算法领域的深度钻研,共有5篇论文从全球数万份投稿中脱颖而出,分别入选NeurIPS 2025与AAAI 2026
    的头像 发表于 11-27 11:39 1474次阅读
    地平线五篇论文<b class='flag-5'>入选</b>NeurIPS 2025与<b class='flag-5'>AAAI</b> <b class='flag-5'>2026</b>

    Nullmax端到端轨迹规划论文入选AAAI 2026

    11月8日,全球人工智能顶会 AAAI 2026 公布论文录用结果,Nullmax 研发团队的端到端轨迹规划论文成功入选。该论文创新提出种由粗到精的轨迹预测
    的头像 发表于 11-12 10:53 1201次阅读

    摩尔线程“AI工厂”:五大核心技术支撑,打造大模型训练超级工厂

    演讲中表示,为应对生成式AI爆发式增长下的大模型训练效率瓶颈,摩尔线程将通过系统级工程创新,构建新一代AI训练基础设施,致力于为AGI时代打造生产先进
    的头像 发表于 07-28 11:28 4960次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>“AI工厂”:五大核心技术支撑,打造大<b class='flag-5'>模型</b>训练超级工厂

    摩尔线程“AI工厂”:以系统级创新定义新一代AI基础设施

    演讲中表示,为应对生成式AI爆发式增长下的大模型训练效率瓶颈,摩尔线程将通过系统级工程创新,构建新一代AI训练基础设施,致力于为AGI时代打造生产先进
    发表于 07-28 10:34 2991次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>“AI工厂”:以系统级创新定义<b class='flag-5'>新一代</b>AI基础设施