0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

摩尔线程新一代大语言模型对齐框架URPO入选AAAI 2026

摩尔线程 来源:摩尔线程 2025-11-17 16:03 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日,摩尔线程在人工智能前沿领域取得重要突破,其提出的新一代大语言模型对齐框架——URPO统一奖励与策略优化,相关研究论文已被人工智能领域的国际顶级学术会议AAAI 2026收录。这一成果标志着摩尔线程在大模型基础技术探索上迈出了关键一步,为简化大模型训练流程、突破模型性能上限提供了全新的技术路径。

0f552dbe-c07a-11f0-8c8f-92fbcf53809c.jpg

图示:URPO统一奖励与策略优化框架

在题为《URPO:A Unified Reward & Policy Optimization Framework for Large Language Models》的论文中,摩尔线程AI研究团队提出了URPO统一奖励与策略优化(Unified Reward & Policy Optimization,URPO)框架,创新地将“指令遵循”(选手)和“奖励评判”(裁判)两大角色融合于单一模型中,并在统一训练阶段实现同步优化。URPO从以下三方面攻克技术挑战:

数据格式统一:将异构的偏好数据、可验证推理数据和开放式指令数据,统一重构为适用于GRPO训练的信号格式。

自我奖励循环:针对开放式指令,模型生成多个候选回答后,自主调用其“裁判”角色进行评分,并将结果作为GRPO训练的奖励信号,形成一个高效的自我改进循环。

协同进化机制:通过在同一批次中混合处理三类数据,模型的生成能力与评判能力得以协同进化。生成能力提升带动评判更精准,而精准评判进一步引导生成质量跃升,从而突破静态奖励模型的性能瓶颈。

实验结果显示,基于Qwen2.5-7B模型,URPO框架显著超越依赖独立奖励模型的传统基线:在AlpacaEval指令跟随榜单上,得分从42.24提升至44.84;在综合推理能力测试中,平均分从32.66提升至35.66。尤为突出的是,作为训练的“副产品”,该模型内部自然涌现出卓越的评判能力,在RewardBench奖励模型评测中取得85.15的高分,表现甚至优于其替代的专用奖励模型(83.55分)。

除了卓越的性能表现,URPO框架在工程落地方面同样展现出显著优势。该技术基于GRPO算法进行轻量化迭代实现,在代码层面仅需添加少量补丁即可完成部署,大幅降低了技术迁移与应用门槛。目前,URPO已在摩尔线程自研计算卡上实现稳定高效运行,充分发挥软硬件协同优化的底层优势;同时,摩尔线程已完成VERL等主流强化学习框架的深度适配,让这一简洁高效的对齐方案能快速融入现有研发体系,既保留了技术延续性,又为行业提供了兼具性能、效率与兼容性的一体化解决方案。

URPO框架的成功,是摩尔线程坚持底层技术创新、攻坚大模型核心挑战的重要成果。该研究不仅提供了一种更简洁、高效、性能更强的对齐方案,更通过“选手-裁判”一体化的设计,为大模型实现持续自我进化开辟了新路径。未来,摩尔线程将继续深耕大模型等前沿技术领域,以坚实的创新成果推动人工智能产业实现跨越式发展。

关于摩尔线程

摩尔线程以全功能GPU为核心,致力于向全球提供加速计算的基础设施和一站式解决方案,为各行各业的数智化转型提供强大的AI计算支持。

我们的目标是成为具备国际竞争力的GPU领军企业,为融合人工智能和数字孪生的数智世界打造先进的加速计算平台。我们的愿景是为美好世界加速。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1813

    文章

    49734

    浏览量

    261393
  • 摩尔线程
    +关注

    关注

    2

    文章

    256

    浏览量

    6198
  • 大模型
    +关注

    关注

    2

    文章

    3440

    浏览量

    4960

原文标题:摩尔线程大模型对齐研究获顶会认可:URPO框架入选 AAAI 2026

文章出处:【微信号:moorethreads,微信公众号:摩尔线程】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    摩尔线程高开468% 中签赚27万 国产GPU第摩尔线程高开468%

    “国产GPU第股”上市了!今天是万众瞩目的摩尔线程正式上市的日子;摩尔线程A股总股本47002.8217万股,本次公开发行的股票数量为70
    的头像 发表于 12-05 11:03 954次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>高开468% 中<b class='flag-5'>一</b>签赚27万 国产GPU第<b class='flag-5'>一</b>股<b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>高开468%

    地平线五篇论文入选NeurIPS 2025与AAAI 2026

    近日,两大顶级学术会议录用结果相继揭晓,地平线凭借在机器人算法领域的深度钻研,共有5篇论文从全球数万份投稿中脱颖而出,分别入选NeurIPS 2025与AAAI 2026
    的头像 发表于 11-27 11:39 454次阅读
    地平线五篇论文<b class='flag-5'>入选</b>NeurIPS 2025与<b class='flag-5'>AAAI</b> <b class='flag-5'>2026</b>

    Nullmax端到端轨迹规划论文入选AAAI 2026

    11月8日,全球人工智能顶会 AAAI 2026 公布论文录用结果,Nullmax 研发团队的端到端轨迹规划论文成功入选。该论文创新提出种由粗到精的轨迹预测
    的头像 发表于 11-12 10:53 524次阅读

    【内测活动同步开启】这么小?这么强?新一代模型MCP开发板来啦!

    【内测活动同步开启】这么小?这么强?新一代模型MCP开发板来啦! 聆思全新一代六合芯片「LS26系列」,搭载WIFI / BLE & BT / NPU,与「小聆AI」强强
    发表于 09-25 11:47

    摩尔线程发布大模型训练仿真工具SimuMax v1.0

    近日,摩尔线程正式发布并开源大模型分布式训练仿真工具SimuMax 1.0版本。该版本在显存和性能仿真精度上实现突破性提升,同时引入多项关键功能,进步增强了
    的头像 发表于 09-11 18:19 3327次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>发布大<b class='flag-5'>模型</b>训练仿真工具SimuMax v1.0

    摩尔线程“AI工厂”:五大核心技术支撑,打造大模型训练超级工厂

    演讲中表示,为应对生成式AI爆发式增长下的大模型训练效率瓶颈,摩尔线程将通过系统级工程创新,构建新一代AI训练基础设施,致力于为AGI时代打造生产先进
    的头像 发表于 07-28 11:28 3949次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>“AI工厂”:五大核心技术支撑,打造大<b class='flag-5'>模型</b>训练超级工厂

    摩尔线程“AI工厂”:以系统级创新定义新一代AI基础设施

    演讲中表示,为应对生成式AI爆发式增长下的大模型训练效率瓶颈,摩尔线程将通过系统级工程创新,构建新一代AI训练基础设施,致力于为AGI时代打造生产先进
    发表于 07-28 10:34 2385次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>“AI工厂”:以系统级创新定义<b class='flag-5'>新一代</b>AI基础设施

    摩尔线程率先支持腾讯混元-A13B模型

    近日,腾讯正式开源基于专家混合(MoE)架构的大语言模型混元-A13B。同日,摩尔线程团队凭借技术前瞻性,率先完成该模型在全功能GPU的深度
    的头像 发表于 07-04 14:10 674次阅读

    摩尔线程GPU成功适配Deepseek-V3-0324大模型

    近日,DeepSeek正式发布了其大语言模型的全新小版本迭代——DeepSeek-V3-0324,这版本在推理能力、代码生成、中文写作以及搜索能力等多个维度实现了显著提升。凭借其先进的MUSA
    的头像 发表于 03-31 11:34 1104次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>GPU成功适配Deepseek-V3-0324大<b class='flag-5'>模型</b>

    摩尔线程与当虹科技达成深度合作

    近日,摩尔线程与当虹科技达成深度合作,基于国产GPU成功完成了与BlackEye多模态视听大模型的深度融合。双方联手打造专业级视听“引擎”,并在超高清GPU算力场景中成功落地。
    的头像 发表于 03-20 15:22 1277次阅读

    摩尔线程GPU原生FP8计算助力AI训练

    近日,摩尔线程正式开源MT-MegatronLM与MT-TransformerEngine两大AI框架。通过深度融合FP8混合训练策略和高性能算子库,这两大框架在国产全功能GPU上实现
    的头像 发表于 03-17 17:05 1206次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>GPU原生FP8计算助力AI训练

    摩尔线程支持阿里云通义千问QwQ-32B开源模型

    近日,阿里云团队正式开源全新推理模型——通义千问QwQ-32B。摩尔线程在该模型发布后2小时内,迅速且高效完成了对千问QwQ-32B的支持。
    的头像 发表于 03-07 17:48 1098次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>支持阿里云通义千问QwQ-32B开源<b class='flag-5'>模型</b>

    摩尔线程图形显卡MTT S80实现DeepSeek模型部署

    摩尔线程“全功能”图形显卡MTT S80,不仅游戏渲染性能强大,能玩《黑神话:悟空》,现在还能本地部署DeepSeek R1蒸馏模型。搭配最新发布的MUSA SDK RC3.1.1版本,开发者直接用开源
    的头像 发表于 02-21 15:46 4013次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>图形显卡MTT S80实现DeepSeek<b class='flag-5'>模型</b>部署

    摩尔线程宣布成功部署DeepSeek蒸馏模型推理服务

    步。 据悉,DeepSeek开源模型在多语言理解与复杂推理任务中直表现出卓越的性能,其V3、R1等系列模型更是备受业界关注。而此次摩尔
    的头像 发表于 02-06 13:49 1182次阅读

    语言模型开发框架是什么

    语言模型开发框架是指用于训练、推理和部署大型语言模型的软件工具和库。下面,AI部落小编为您介绍大语言
    的头像 发表于 12-06 10:28 820次阅读