0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

众智FlagOS适配面壁智能开源全模态大模型MiniCPM-o 4.5

perfxlab 来源:perfxlab 2026-02-09 14:45 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

2月3日,面壁智能正式发布并开源了集语言、视觉、语音于一体的全模态大模型 MiniCPM-o 4.5。作为首个全双工全模态大模型,MiniCPM-o 4.5 首次实现“类人”感知交互,从“一问一答”变为“即时自由对话”。

众智 FlagOS 社区跟面壁智能深度技术协同,通过统一开源的 AI 系统软件栈 FlagOS 的跨芯片能力,快速实现了 MiniCPM-o 4.5 模型在 6 家主流硬件平台(天数智芯、华为昇腾、平头哥、海光、沐曦等)适配、对齐评测和开源上线。澎峰科技作为社区成员积极参与了vLLM-plugin-FL等关键组件的构建与优化工作。在保证模型精度完全一致的前提下,基于 FlagOS 版本的 MiniCPM-o 4.5 在 6 种芯片上均获得端到端推理性能提升(硬件一致下,FlagOS 版本相比 CUDA 版本提升端到端推理效率 6.10%),不同场景下平均加速比为7.76%—22.4%。这是业界首次实现 “跨芯适配规模化、推理效率高效化”双重目标的典范,为多元 AI 芯片生态下的模型部署树立全新标杆。

5c383780-0269-11f1-90a1-92fbcf53809c.png

FlagOS:面向多种 AI 芯片的系统软件栈

FlagOS Inside:

实现 MiniCPM-o 4.5 在多家芯片的快速适配

MiniCPM-o 4.5 能在较短时间被适配到 6 种不同 AI 芯片,得益于众智 FlagOS 的多芯片统一 AI 系统软件栈能力。

统一多芯片接入插件 vLLM-plugin-FL:在不改变 vLLM 原有接口和使用习惯的情况下,丝滑实现 MiniCPM-o 4.5 的多芯片推理部署。

高性能算子库FlagGems:全覆盖 MiniCPM-o 4.5 的主流 PyTorch Aten 算子,并支持多种 AI 芯片。

统一 AI 编译器FlagTree:将 MiniCPM-o 4.5 主流算子编译成 6 种 AI 芯片后端理解的硬件指令。

vllm-plugin-FL 是一个为 vLLM 推理/服务框架构建的插件,它基于 FlagOS 的统一多芯片后端开发,旨在扩展 vLLM 在多种硬件环境下的功能和性能表现。此次,面壁智能一共发布了2个推理引擎版本的 MiniCPM-o 4.5 模型,分别是 Transformer 和 vLLM。使用 vLLM 推理引擎的 MiniCPM-o 4.5 模型中,vLLM-plugin-FL 基于 Python 的 EntryPoint 机制把 MiniCPM-o 4.5 模型结构注册到 vLLM 支持的模型中,利用统一多芯片高性能算子库 FlagGems 和统一多后端通信库 FlagCX,实现同一套代码流程多芯片执行 MiniCPM-o 4.5。

在代码实现层面,众智 FlagOS 将 FlagGems 算子库及其运行依赖的编译器 FlagTree 前置性内置,并集成到MiniCPM-o 4.5 的模型代码框架。开发者在使用 MiniCPM-o 4.5 时,无需手动添加任何启用 FlagOS 的初始化代码,就能实现对核心计算模块(如 RMSNorm等)的无缝替换。这意味着,使用者在加载官方模型时,FlagOS 系统软件栈代码已在底层自动生效,真正做到 “开箱即用” 。

开发者无需关心底层硬件适配与算子优化的复杂细节,只需正常调用模型,即可在保持精度完全一致的同时,获得端到端推理的性能提升。为开发者提供了更流畅、更高效的模型部署体验。


FlagOS 软件代码内置于 MiniCPM-o 4.5 模型框架:

Python
importtorch
importflag_gems
importtorch.nnasnn
fromflag_gems.experimental_opsimportrmsnormasgems_rmsnorm




classGemsRMSNorm(nn.Module):
 def__init__(self, hidden_size, eps=1e-6):
super().__init__()
   self.weight = nn.Parameter(torch.ones(hidden_size))
   self.variance_epsilon = eps
 
 defforward(self, hidden_states):
returngems_rmsnorm(hidden_states,self.weight,self.variance_epsilon)
 
 
 defextra_repr(self):
returnf"{tuple(self.weight.shape)}, eps={self.variance_epsilon}"




fromtransformers.models.qwen3importmodeling_qwen3
fromtransformers.models.llamaimportmodeling_llama
modeling_qwen3.Qwen3RMSNorm = GemsRMSNorm
modeling_llama.LlamaRMSNorm = GemsRMSNorm




flag_gems.only_enable(record=True, once=True, path="/root/gems.txt", include=["cumsum","gather","scatter","clamp"])

基于 FlagOS 跨平台能力,MiniCPM-o 4.5 实现在 6 家硬件平台的兼容适配,涵盖 NPU、GPGPU、DSA等多种芯片架构。FlagOS 作为开源、统一的 AI 系统技术栈,能够高效解决大模型因硬件生态碎片化导致的“跨平台兼容难”行业难题,展示出加速模型“一次开发,多芯使用”的巨大潜力。

针对不同硬件平台优化后的 MiniCPM-o 4.5 模型,众智 FlagOS 社区已通过FlagRelease项目在 HuggingFace、魔搭社区、魔乐社区等主流开源社区平台发布(后续将陆续上线阿里云、腾讯云、焕新平台等平台)。

随着芯片硬件的持续适配,FlagOS 将加速大模型获得更广泛的硬件支持,帮助用户实现更低的成本、更灵活的硬件选型方案。

通过 vLLM-plugin-FL 直接使用多芯版 MiniCPM-o 4.5 模型(vLLM 推理引擎)

利用 vLLM-plugin-FL 启动 MiniCPM-o 4.5 模型的部署步骤可以参考以下一站式文档。当前 vLLM-plugin-FL已经在英伟达、华为昇腾和平头哥真武810E进行验证。

gitcode:https://gitcode.com/flagos-ai/vllm-plugin-FL/blob/main/examples/minicpm/README.md

github:https://github.com/flagos-ai/vllm-plugin-FL/blob/main/examples/minicpm/README.md

为解决芯片硬件生态割裂、模型迁移效率不足和大模型应用落地难等行业痛点,面向多种 AI 芯片的统一、开源系统软件栈 “众智 FlagOS” 形成了具备高性能通用 AI 算子库FlagGems/FlagAttention、统一 AI 编译器 FlagTree、大模型训推一体框架 FlagScale 和统一通信库 FlagCX 的完整核心技术库,并基于 4 个核心技术库搭建面向开发者用户的一站式工具平台 KernelGen、FlagRelease 和 FlagPerf。为推动 AI 系统软件迈入“一次开发、跨芯片运行、多框架支持”的新阶段,众智 FlagOS 进一步加强技术创新,加快生态使能 vllm-plugin-FL、Megatron-LM-FL 和 TransformerEngine-FL 的建设,逐步整合算力与开源生态,加速 AI 从实验室走向规模化应用。

关于众智 FlagOS 社区

为解决不同 AI 芯片大规模落地应用,北京智源研究院联合众多科研机构、芯片企业、系统厂商、算法和软件相关单位等国内外机构共同发起并创立了众智 FlagOS 社区。成员单位包括北京智源研究院、中科院计算所、中科加禾、安谋科技、北京大学、北京师范大学、百度飞桨、硅基流动、寒武纪、海光信息、华为、基流科技、摩尔线程、沐曦科技、澎峰科技、清微智能、天数智芯、先进编译实验室、移动研究院、中国矿业大学(北京)等多家在 FlagOS 软件栈研发中做出卓越贡献的单位。

FlagOS 是一款专为异构 AI 芯片打造的开源、统一系统软件栈,支持 AI 模型一次开发即可无缝移植至各类硬件平台,大幅降低迁移与适配成本。它包括大型算子库、统一AI编译器、并行训推框架、统一通信库等核心开源项目,致力于构建「模型-系统-芯片」三层贯通的开放技术生态,通过“一次开发跨芯迁移”释放硬件计算潜力,打破不同芯片软件栈之间生态隔离。

未来,澎峰科技将持续投入,积极参与并推动更多开源及商业模型基于FlagOS的适配与性能优化工作。我们坚信,开源协作是构建繁荣、高效算力生态的核心。澎峰科技期待与所有社区伙伴及产业同仁继续并肩,将FlagOS打造为支撑AI创新的坚实底座,共同推动多元算力生态走向深度融合与开放共赢。

官网:https://flagos.io

GitHub 项目地址:https://github.com/flagos-ai

GitCode 项目地址:https://gitcode.com/flagos-ai

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    91

    文章

    41054

    浏览量

    302561
  • AI芯片
    +关注

    关注

    17

    文章

    2164

    浏览量

    36865
  • 大模型
    +关注

    关注

    2

    文章

    3764

    浏览量

    5269

原文标题:业界首次!众智FlagOS实现面壁新模型MiniCPM-o 4.5 “发布即6芯适配”,性能普遍超过原生

文章出处:【微信号:perfxlab,微信公众号:perfxlab】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    沐曦股份Day 0适配阿里千问Qwen3.6-35B-A3B大模型

    阿里巴巴千问模型团队最新宣布,开源旗下多模态智能体小钢炮” Qwen3.6-35B-A3B模型。沐曦股份与
    的头像 发表于 04-22 11:13 451次阅读
    沐曦股份Day 0<b class='flag-5'>适配</b>阿里千问Qwen3.6-35B-A3B大<b class='flag-5'>模型</b>

    海光信息DCU平台适配阿里通义Qwen3.6-35B-A3B大模型

      近日,阿里通义正式开源模态智能体大模型Qwen3.6-35B-A3B,发布不到24小时,海光信息联合众智
    的头像 发表于 04-21 17:40 1469次阅读

    天数智芯Day 0适配MiniMax最新开源M2.7大模型

      4月12 日,MiniMax 最新开源 M2.7 大模型正式发布,凭借自主迭代能力与优异的工程、办公性能引发行业关注。天数智芯与FlagOS 统一开源技术栈合作实现Day0落地,在
    的头像 发表于 04-15 15:42 760次阅读

    海光DCU完成Qwen3.5多模态MoE模型适配

    近日,海光DCU完成Qwen3.5-397B MoE旗舰多模态模型、Qwen3.5-35B-A3B MoE多模态模型
    的头像 发表于 03-26 09:35 675次阅读

    天数智芯完成阿里云通义千问Qwen3.5系列多模态模型适配

    近日,天数智芯携手众智FlagOS 社区完成阿里云通义千问 Qwen3.5 系列多模态模型适配
    的头像 发表于 03-26 09:25 1566次阅读

    华为昇腾深度适配智谱AI全新开源模型GLM-5

    ,在真实编程场景的使用体验逼近Claude Opus 4.5,更擅长复杂系统工程与长程Agent任务。昇腾一直同步支持智谱GLM系列模型,此次GLM-5模型一经开源发布,昇腾AI基础软
    的头像 发表于 02-25 14:41 1313次阅读
    华为昇腾深度<b class='flag-5'>适配</b>智谱AI全新<b class='flag-5'>开源</b><b class='flag-5'>模型</b>GLM-5

    瑞芯微RK182X全面适配主流多模态模型

    在全球端侧人工智能加速渗透的今天, “生态适配广度”与“场景落地深度”正成为衡量端侧AI平台核心价值的新标尺。瑞芯微基于全球首颗3D创新架构的AI协处理器RK182X进行生态布局,全面适配包括视觉
    的头像 发表于 01-27 16:16 1088次阅读

    沐曦股份曦云C系列GPU Day 0适配智谱GLM-4.6V多模态模型

    12月8日智谱AI发布并开源 GLM-4.6V 系列多模态模型,沐曦股份曦云C系列GPU完成Day 0适配
    的头像 发表于 12-17 14:28 820次阅读
    沐曦股份曦云C系列GPU Day 0<b class='flag-5'>适配</b>智谱GLM-4.6V多<b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>

    商汤科技正式发布并开源全新多模态模型架构NEO

    商汤科技正式发布并开源了与南洋理工大学S-Lab合作研发的全新多模态模型架构 —— NEO,为日日新SenseNova 多模态模型奠定了新一
    的头像 发表于 12-08 11:19 1155次阅读
    商汤科技正式发布并<b class='flag-5'>开源</b>全新多<b class='flag-5'>模态</b><b class='flag-5'>模型</b>架构NEO

    寒武纪产品与众智FlagOS全面适配

    模型的快速发展正推动AI算力需求进入爆发式增长阶段。与此同时,不同应用场景又对AI芯片提出了多样化的挑战:例如在大模型Prefill场景,对算力要求更高,对内存带宽的要求则远低于Decode场景;大模型训练场景则不仅需要高算力
    的头像 发表于 11-17 09:16 1255次阅读
    寒武纪产品与<b class='flag-5'>众智</b><b class='flag-5'>FlagOS</b>全面<b class='flag-5'>适配</b>

    新一代AtomGit平台暨人工智能开源社区发布

    10月28日,“共建·共智·共享——AtomGit全新升级暨人工智能开源社区发布会”在北京国家会议中心隆重举行。开放原子开源基金会携手CSDN等生态伙伴,推动平台深度融合与能力升级,聚合开源
    的头像 发表于 10-30 09:46 761次阅读

    硬件与应用同频共振,英特尔Day 0适配腾讯开源混元大模型

    今日,腾讯正式发布新一代混元开源大语言模型。英特尔凭借在人工智能领域的栈技术布局,现已在英特尔® 酷睿™ Ultra 平台上完成针对该模型
    的头像 发表于 08-07 14:42 1528次阅读
    硬件与应用同频共振,英特尔Day 0<b class='flag-5'>适配</b>腾讯<b class='flag-5'>开源</b>混元大<b class='flag-5'>模型</b>

    中兴努比亚启动接入百度文心4.5系列开源模型

    近日,中兴努比亚启动接入文心4.5系列开源模型,为星云智能提供新引擎,共同推动人工智能在AI手机的创新应用,加速AI技术落地,进一步提升用
    的头像 发表于 07-15 09:35 1170次阅读

    面壁小钢炮模型MiniCPM4.0发布,端侧智能更进一步

    版和0.5B最强小小钢炮。     李大海表示,面壁智能是第一个把模态模型带到端侧的公司。面壁
    的头像 发表于 06-08 08:18 7397次阅读
    <b class='flag-5'>面壁</b>小钢炮<b class='flag-5'>模型</b><b class='flag-5'>MiniCPM</b>4.0发布,端侧<b class='flag-5'>智能</b>更进一步

    德赛西威与面壁智能发布端侧大模型语音交互方案

    日前,全球领先的移动出行科技公司德赛西威与端侧大模型技术领军企业面壁智能共同发布业界首个基于高通座舱平台(SA8255P,简称8255)的端侧大模型语音交互方案,这是双方自2024年1
    的头像 发表于 05-14 17:40 1433次阅读