阶跃星辰开源Step 3.5 Flash，多家国产芯片厂商完成适配-电子发烧友网

2月2日，阶跃星辰正式发布新一代开源Agent基座模型——Step 3.5 Flash，同时宣布华为昇腾、沐曦股份、壁仞科技、燧原科技、天数智芯、阿里平头哥在内的多家芯片厂商已完成对该模型的适配。

Step 3.5 Flash模型聚焦于实时Agent工作流场景，采用稀疏MoE架构，总参数量高达1960亿，不过每个token仅激活约110亿参数。这种设计旨在兼顾推理速度与使用成本，为智能体（Agent）提供稳定可靠且高性价比的底层支撑，助力其实现高效规模化应用。

在实际性能表现上，该模型在推理能力与运行效率间取得了出色平衡。针对规模化Agent应用中存在的稳定性、延迟和成本瓶颈，它进行了专项优化，能够满足多步推理中的低延迟需求。在τ -Bench、BrowseComp等智能体能力测试，以及LiveCodeBench V6代码挑战和AIME 2025数学竞赛中，Step 3.5 Flash均展现出优异表现，尤其在Agentic和数学任务上极具竞争力，已具备支持企业级应用落地的能力。

在实际应用场景中，Step 3.5 Flash更是展现出强大的自动编程与“端云协同”能力。例如，它可基于自然语言指令自动构建复杂可视化地理空间系统，还能将复杂需求拆解为子任务，协同本地设备完成数据分析与决策。并且，模型针对本地部署进行了性能优化，充分满足数据隐私和本地算力应用需求。目前，该模型已在OpenRouter、GitHub、阶跃AI APP及网页端同步上线，面向开发者提供免费试用与快速部署支持。

此次适配并非简单的让模型在芯片上运行，而是通过算法 - 硬件协同设计，成功解决了大模型落地的三个核心痛点。

在推理速度优化方面，针对Step 3.5 Flash的MoE架构进行定制化编译优化。在单请求代码类任务中，实现了高达350 TPS的推理速度。华为昇腾和阿里平头哥利用其异构计算架构（如CANN），专门优化了MoE架构中“路由”和“专家选择”的计算效率，减少芯片内部数据搬运，最大化计算单元利用率。

在降本增效上，传统大模型推理成本高昂，且在非顶级芯片上效率打折。而通过底层联合创新，Step 3.5 Flash在这些国产芯片上的吞吐量大幅提升。在同类架构下，阶跃的模型曾实现过比同类竞品高70%甚至300%的推理效率。这意味着企业使用国产芯片部署阶跃星辰的模型，能以更低的硬件投入获得更高的产出，直接降低了商业化门槛。

广泛的硬件兼容性也是此次适配的一大亮点。除了服务器端的华为、壁仞等芯片，适配工作还延伸到了端侧。模型已支持在Apple M3/M4 Max、NVIDIA DGX Spark、AMD AI Max + 395等主流个人工作站上流畅运行。这表明阶跃星辰的适配策略是“全栈全场景”的，既能在云端大算力集群运行，也能在个人电脑甚至边端设备（如天数智芯的边端产品）上运行。

此次适配阵容如此豪华，背后离不开“模芯生态创新联盟”的推动。阶跃星辰曾于2025年7月联合多家芯片及基础设施厂商发起该联盟，旨在通过联合优化提升算力效率，推动大模型在应用场景中的落地。此次模型发布正是其在模型与算力协同方向的进一步实践。

对于芯片厂商而言，阶跃星辰提供了顶尖的AI应用场景，有力证明了国产芯片的可用性；对于阶跃星辰自身，则获得了芯片底层的接口权限，能够针对硬件特性对模型进行极致优化。这种“结盟”策略实现了双方的互利共赢，也为整个科技行业的发展注入了新的活力。

阶跃星辰新一代开源基座模型Step 3.5 Flash的发布以及与国产芯片的成功适配，无疑为大模型与国产芯片的协同发展树立了新的标杆。未来，随着技术的不断进步和生态的持续完善，我们有理由期待更多创新成果的涌现，为智能时代的到来奠定坚实基础。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI芯片

AI芯片

+关注

关注
17

文章
2181

浏览量
36888

搜索历史

阶跃星辰开源Step 3.5 Flash，多家国产芯片厂商完成适配

评论