众智FlagOS适配面壁智能开源全模态大模型MiniCPM-o 4.5-电子发烧友网

2月3日，面壁智能正式发布并开源了集语言、视觉、语音于一体的全模态大模型 MiniCPM-o 4.5。作为首个全双工全模态大模型，MiniCPM-o 4.5 首次实现“类人”感知交互，从“一问一答”变为“即时自由对话”。

众智 FlagOS 社区跟面壁智能深度技术协同，通过统一开源的 AI 系统软件栈 FlagOS 的跨芯片能力，快速实现了 MiniCPM-o 4.5 模型在 6 家主流硬件平台(天数智芯、华为昇腾、平头哥、海光、沐曦等)适配、对齐评测和开源上线。澎峰科技作为社区成员积极参与了vLLM-plugin-FL等关键组件的构建与优化工作。在保证模型精度完全一致的前提下，基于 FlagOS 版本的 MiniCPM-o 4.5 在 6 种芯片上均获得端到端推理性能提升(硬件一致下，FlagOS 版本相比 CUDA 版本提升端到端推理效率 6.10%)，不同场景下平均加速比为7.76%—22.4%。这是业界首次实现 “跨芯适配规模化、推理效率高效化”双重目标的典范，为多元 AI 芯片生态下的模型部署树立全新标杆。

FlagOS：面向多种 AI 芯片的系统软件栈

FlagOS Inside：

实现 MiniCPM-o 4.5 在多家芯片的快速适配

MiniCPM-o 4.5 能在较短时间被适配到 6 种不同 AI 芯片，得益于众智 FlagOS 的多芯片统一 AI 系统软件栈能力。

统一多芯片接入插件 vLLM-plugin-FL：在不改变 vLLM 原有接口和使用习惯的情况下，丝滑实现 MiniCPM-o 4.5 的多芯片推理部署。

高性能算子库FlagGems：全覆盖 MiniCPM-o 4.5 的主流 PyTorch Aten 算子，并支持多种 AI 芯片。

统一 AI 编译器FlagTree：将 MiniCPM-o 4.5 主流算子编译成 6 种 AI 芯片后端理解的硬件指令。

vllm-plugin-FL 是一个为 vLLM 推理/服务框架构建的插件，它基于 FlagOS 的统一多芯片后端开发，旨在扩展 vLLM 在多种硬件环境下的功能和性能表现。此次，面壁智能一共发布了2个推理引擎版本的 MiniCPM-o 4.5 模型，分别是 Transformer 和 vLLM。使用 vLLM 推理引擎的 MiniCPM-o 4.5 模型中，vLLM-plugin-FL 基于 Python 的 EntryPoint 机制把 MiniCPM-o 4.5 模型结构注册到 vLLM 支持的模型中，利用统一多芯片高性能算子库 FlagGems 和统一多后端通信库 FlagCX，实现同一套代码流程多芯片执行 MiniCPM-o 4.5。

在代码实现层面，众智 FlagOS 将 FlagGems 算子库及其运行依赖的编译器 FlagTree 前置性内置，并集成到MiniCPM-o 4.5 的模型代码框架。开发者在使用 MiniCPM-o 4.5 时，无需手动添加任何启用 FlagOS 的初始化代码，就能实现对核心计算模块(如 RMSNorm等)的无缝替换。这意味着，使用者在加载官方模型时，FlagOS 系统软件栈代码已在底层自动生效，真正做到 “开箱即用” 。

开发者无需关心底层硬件适配与算子优化的复杂细节，只需正常调用模型，即可在保持精度完全一致的同时，获得端到端推理的性能提升。为开发者提供了更流畅、更高效的模型部署体验。

FlagOS 软件代码内置于 MiniCPM-o 4.5 模型框架：

Python
importtorch
importflag_gems
importtorch.nnasnn
fromflag_gems.experimental_opsimportrmsnormasgems_rmsnorm




classGemsRMSNorm(nn.Module):
 def__init__(self, hidden_size, eps=1e-6):
super().__init__()
   self.weight = nn.Parameter(torch.ones(hidden_size))
   self.variance_epsilon = eps
 
 defforward(self, hidden_states):
returngems_rmsnorm(hidden_states,self.weight,self.variance_epsilon)
 
 
 defextra_repr(self):
returnf"{tuple(self.weight.shape)}, eps={self.variance_epsilon}"




fromtransformers.models.qwen3importmodeling_qwen3
fromtransformers.models.llamaimportmodeling_llama
modeling_qwen3.Qwen3RMSNorm = GemsRMSNorm
modeling_llama.LlamaRMSNorm = GemsRMSNorm




flag_gems.only_enable(record=True, once=True, path="/root/gems.txt", include=["cumsum","gather","scatter","clamp"])

基于 FlagOS 跨平台能力，MiniCPM-o 4.5 实现在 6 家硬件平台的兼容适配，涵盖 NPU、GPGPU、DSA等多种芯片架构。FlagOS 作为开源、统一的 AI 系统技术栈，能够高效解决大模型因硬件生态碎片化导致的“跨平台兼容难”行业难题，展示出加速模型“一次开发，多芯使用”的巨大潜力。

针对不同硬件平台优化后的 MiniCPM-o 4.5 模型，众智 FlagOS 社区已通过FlagRelease项目在 HuggingFace、魔搭社区、魔乐社区等主流开源社区平台发布(后续将陆续上线阿里云、腾讯云、焕新平台等平台)。

随着芯片硬件的持续适配，FlagOS 将加速大模型获得更广泛的硬件支持，帮助用户实现更低的成本、更灵活的硬件选型方案。

通过 vLLM-plugin-FL 直接使用多芯版 MiniCPM-o 4.5 模型(vLLM 推理引擎)

利用 vLLM-plugin-FL 启动 MiniCPM-o 4.5 模型的部署步骤可以参考以下一站式文档。当前 vLLM-plugin-FL已经在英伟达、华为昇腾和平头哥真武810E进行验证。

gitcode：https://gitcode.com/flagos-ai/vllm-plugin-FL/blob/main/examples/minicpm/README.md

github：https://github.com/flagos-ai/vllm-plugin-FL/blob/main/examples/minicpm/README.md

为解决芯片硬件生态割裂、模型迁移效率不足和大模型应用落地难等行业痛点，面向多种 AI 芯片的统一、开源系统软件栈 “众智 FlagOS” 形成了具备高性能通用 AI 算子库FlagGems/FlagAttention、统一 AI 编译器 FlagTree、大模型训推一体框架 FlagScale 和统一通信库 FlagCX 的完整核心技术库，并基于 4 个核心技术库搭建面向开发者用户的一站式工具平台 KernelGen、FlagRelease 和 FlagPerf。为推动 AI 系统软件迈入“一次开发、跨芯片运行、多框架支持”的新阶段，众智 FlagOS 进一步加强技术创新，加快生态使能 vllm-plugin-FL、Megatron-LM-FL 和 TransformerEngine-FL 的建设，逐步整合算力与开源生态，加速 AI 从实验室走向规模化应用。

关于众智 FlagOS 社区

为解决不同 AI 芯片大规模落地应用，北京智源研究院联合众多科研机构、芯片企业、系统厂商、算法和软件相关单位等国内外机构共同发起并创立了众智 FlagOS 社区。成员单位包括北京智源研究院、中科院计算所、中科加禾、安谋科技、北京大学、北京师范大学、百度飞桨、硅基流动、寒武纪、海光信息、华为、基流科技、摩尔线程、沐曦科技、澎峰科技、清微智能、天数智芯、先进编译实验室、移动研究院、中国矿业大学(北京)等多家在 FlagOS 软件栈研发中做出卓越贡献的单位。

FlagOS 是一款专为异构 AI 芯片打造的开源、统一系统软件栈，支持 AI 模型一次开发即可无缝移植至各类硬件平台，大幅降低迁移与适配成本。它包括大型算子库、统一AI编译器、并行训推框架、统一通信库等核心开源项目，致力于构建「模型-系统-芯片」三层贯通的开放技术生态，通过“一次开发跨芯迁移”释放硬件计算潜力，打破不同芯片软件栈之间生态隔离。

未来，澎峰科技将持续投入，积极参与并推动更多开源及商业模型基于FlagOS的适配与性能优化工作。我们坚信，开源协作是构建繁荣、高效算力生态的核心。澎峰科技期待与所有社区伙伴及产业同仁继续并肩，将FlagOS打造为支撑AI创新的坚实底座，共同推动多元算力生态走向深度融合与开放共赢。

官网：https://flagos.io

GitHub 项目地址：https://github.com/flagos-ai

GitCode 项目地址：https://gitcode.com/flagos-ai

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉