摩尔线程新一代大语言模型对齐框架URPO入选AAAI 2026-电子发烧友网

近日，摩尔线程在人工智能前沿领域取得重要突破，其提出的新一代大语言模型对齐框架——URPO统一奖励与策略优化，相关研究论文已被人工智能领域的国际顶级学术会议AAAI 2026收录。这一成果标志着摩尔线程在大模型基础技术探索上迈出了关键一步，为简化大模型训练流程、突破模型性能上限提供了全新的技术路径。

图示：URPO统一奖励与策略优化框架

在题为《URPO:A Unified Reward & Policy Optimization Framework for Large Language Models》的论文中，摩尔线程AI研究团队提出了URPO统一奖励与策略优化（Unified Reward & Policy Optimization，URPO）框架，创新地将“指令遵循”（选手）和“奖励评判”（裁判）两大角色融合于单一模型中，并在统一训练阶段实现同步优化。URPO从以下三方面攻克技术挑战：

数据格式统一：将异构的偏好数据、可验证推理数据和开放式指令数据，统一重构为适用于GRPO训练的信号格式。

自我奖励循环：针对开放式指令，模型生成多个候选回答后，自主调用其“裁判”角色进行评分，并将结果作为GRPO训练的奖励信号，形成一个高效的自我改进循环。

协同进化机制：通过在同一批次中混合处理三类数据，模型的生成能力与评判能力得以协同进化。生成能力提升带动评判更精准，而精准评判进一步引导生成质量跃升，从而突破静态奖励模型的性能瓶颈。

实验结果显示，基于Qwen2.5-7B模型，URPO框架显著超越依赖独立奖励模型的传统基线：在AlpacaEval指令跟随榜单上，得分从42.24提升至44.84；在综合推理能力测试中，平均分从32.66提升至35.66。尤为突出的是，作为训练的“副产品”，该模型内部自然涌现出卓越的评判能力，在RewardBench奖励模型评测中取得85.15的高分，表现甚至优于其替代的专用奖励模型（83.55分）。

除了卓越的性能表现，URPO框架在工程落地方面同样展现出显著优势。该技术基于GRPO算法进行轻量化迭代实现，在代码层面仅需添加少量补丁即可完成部署，大幅降低了技术迁移与应用门槛。目前，URPO已在摩尔线程自研计算卡上实现稳定高效运行，充分发挥软硬件协同优化的底层优势；同时，摩尔线程已完成VERL等主流强化学习框架的深度适配，让这一简洁高效的对齐方案能快速融入现有研发体系，既保留了技术延续性，又为行业提供了兼具性能、效率与兼容性的一体化解决方案。

URPO框架的成功，是摩尔线程坚持底层技术创新、攻坚大模型核心挑战的重要成果。该研究不仅提供了一种更简洁、高效、性能更强的对齐方案，更通过“选手-裁判”一体化的设计，为大模型实现持续自我进化开辟了新路径。未来，摩尔线程将继续深耕大模型等前沿技术领域，以坚实的创新成果推动人工智能产业实现跨越式发展。

关于摩尔线程

摩尔线程以全功能GPU为核心，致力于向全球提供加速计算的基础设施和一站式解决方案，为各行各业的数智化转型提供强大的AI计算支持。

我们的目标是成为具备国际竞争力的GPU领军企业，为融合人工智能和数字孪生的数智世界打造先进的加速计算平台。我们的愿景是为美好世界加速。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉