2月2日,阶跃星辰正式发布新一代开源Agent基座模型——Step 3.5 Flash,同时宣布华为昇腾、沐曦股份、壁仞科技、燧原科技、天数智芯、阿里平头哥在内的多家芯片厂商已完成对该模型的适配。
Step 3.5 Flash模型聚焦于实时Agent工作流场景,采用稀疏MoE架构,总参数量高达1960亿,不过每个token仅激活约110亿参数。这种设计旨在兼顾推理速度与使用成本,为智能体(Agent)提供稳定可靠且高性价比的底层支撑,助力其实现高效规模化应用。
在实际性能表现上,该模型在推理能力与运行效率间取得了出色平衡。针对规模化Agent应用中存在的稳定性、延迟和成本瓶颈,它进行了专项优化,能够满足多步推理中的低延迟需求。在τ -Bench、BrowseComp等智能体能力测试,以及LiveCodeBench V6代码挑战和AIME 2025数学竞赛中,Step 3.5 Flash均展现出优异表现,尤其在Agentic和数学任务上极具竞争力,已具备支持企业级应用落地的能力。
在实际应用场景中,Step 3.5 Flash更是展现出强大的自动编程与“端云协同”能力。例如,它可基于自然语言指令自动构建复杂可视化地理空间系统,还能将复杂需求拆解为子任务,协同本地设备完成数据分析与决策。并且,模型针对本地部署进行了性能优化,充分满足数据隐私和本地算力应用需求。目前,该模型已在OpenRouter、GitHub、阶跃AI APP及网页端同步上线,面向开发者提供免费试用与快速部署支持。
此次适配并非简单的让模型在芯片上运行,而是通过算法 - 硬件协同设计,成功解决了大模型落地的三个核心痛点。
在推理速度优化方面,针对Step 3.5 Flash的MoE架构进行定制化编译优化。在单请求代码类任务中,实现了高达350 TPS的推理速度。华为昇腾和阿里平头哥利用其异构计算架构(如CANN),专门优化了MoE架构中“路由”和“专家选择”的计算效率,减少芯片内部数据搬运,最大化计算单元利用率。
在降本增效上,传统大模型推理成本高昂,且在非顶级芯片上效率打折。而通过底层联合创新,Step 3.5 Flash在这些国产芯片上的吞吐量大幅提升。在同类架构下,阶跃的模型曾实现过比同类竞品高70%甚至300%的推理效率。这意味着企业使用国产芯片部署阶跃星辰的模型,能以更低的硬件投入获得更高的产出,直接降低了商业化门槛。
广泛的硬件兼容性也是此次适配的一大亮点。除了服务器端的华为、壁仞等芯片,适配工作还延伸到了端侧。模型已支持在Apple M3/M4 Max、NVIDIA DGX Spark、AMD AI Max + 395等主流个人工作站上流畅运行。这表明阶跃星辰的适配策略是“全栈全场景”的,既能在云端大算力集群运行,也能在个人电脑甚至边端设备(如天数智芯的边端产品)上运行。
此次适配阵容如此豪华,背后离不开“模芯生态创新联盟”的推动。阶跃星辰曾于2025年7月联合多家芯片及基础设施厂商发起该联盟,旨在通过联合优化提升算力效率,推动大模型在应用场景中的落地。此次模型发布正是其在模型与算力协同方向的进一步实践。
对于芯片厂商而言,阶跃星辰提供了顶尖的AI应用场景,有力证明了国产芯片的可用性;对于阶跃星辰自身,则获得了芯片底层的接口权限,能够针对硬件特性对模型进行极致优化。这种“结盟”策略实现了双方的互利共赢,也为整个科技行业的发展注入了新的活力。
阶跃星辰新一代开源基座模型Step 3.5 Flash的发布以及与国产芯片的成功适配,无疑为大模型与国产芯片的协同发展树立了新的标杆。未来,随着技术的不断进步和生态的持续完善,我们有理由期待更多创新成果的涌现,为智能时代的到来奠定坚实基础。
Step 3.5 Flash模型聚焦于实时Agent工作流场景,采用稀疏MoE架构,总参数量高达1960亿,不过每个token仅激活约110亿参数。这种设计旨在兼顾推理速度与使用成本,为智能体(Agent)提供稳定可靠且高性价比的底层支撑,助力其实现高效规模化应用。
在实际性能表现上,该模型在推理能力与运行效率间取得了出色平衡。针对规模化Agent应用中存在的稳定性、延迟和成本瓶颈,它进行了专项优化,能够满足多步推理中的低延迟需求。在τ -Bench、BrowseComp等智能体能力测试,以及LiveCodeBench V6代码挑战和AIME 2025数学竞赛中,Step 3.5 Flash均展现出优异表现,尤其在Agentic和数学任务上极具竞争力,已具备支持企业级应用落地的能力。
在实际应用场景中,Step 3.5 Flash更是展现出强大的自动编程与“端云协同”能力。例如,它可基于自然语言指令自动构建复杂可视化地理空间系统,还能将复杂需求拆解为子任务,协同本地设备完成数据分析与决策。并且,模型针对本地部署进行了性能优化,充分满足数据隐私和本地算力应用需求。目前,该模型已在OpenRouter、GitHub、阶跃AI APP及网页端同步上线,面向开发者提供免费试用与快速部署支持。
此次适配并非简单的让模型在芯片上运行,而是通过算法 - 硬件协同设计,成功解决了大模型落地的三个核心痛点。
在推理速度优化方面,针对Step 3.5 Flash的MoE架构进行定制化编译优化。在单请求代码类任务中,实现了高达350 TPS的推理速度。华为昇腾和阿里平头哥利用其异构计算架构(如CANN),专门优化了MoE架构中“路由”和“专家选择”的计算效率,减少芯片内部数据搬运,最大化计算单元利用率。
在降本增效上,传统大模型推理成本高昂,且在非顶级芯片上效率打折。而通过底层联合创新,Step 3.5 Flash在这些国产芯片上的吞吐量大幅提升。在同类架构下,阶跃的模型曾实现过比同类竞品高70%甚至300%的推理效率。这意味着企业使用国产芯片部署阶跃星辰的模型,能以更低的硬件投入获得更高的产出,直接降低了商业化门槛。
广泛的硬件兼容性也是此次适配的一大亮点。除了服务器端的华为、壁仞等芯片,适配工作还延伸到了端侧。模型已支持在Apple M3/M4 Max、NVIDIA DGX Spark、AMD AI Max + 395等主流个人工作站上流畅运行。这表明阶跃星辰的适配策略是“全栈全场景”的,既能在云端大算力集群运行,也能在个人电脑甚至边端设备(如天数智芯的边端产品)上运行。
此次适配阵容如此豪华,背后离不开“模芯生态创新联盟”的推动。阶跃星辰曾于2025年7月联合多家芯片及基础设施厂商发起该联盟,旨在通过联合优化提升算力效率,推动大模型在应用场景中的落地。此次模型发布正是其在模型与算力协同方向的进一步实践。
对于芯片厂商而言,阶跃星辰提供了顶尖的AI应用场景,有力证明了国产芯片的可用性;对于阶跃星辰自身,则获得了芯片底层的接口权限,能够针对硬件特性对模型进行极致优化。这种“结盟”策略实现了双方的互利共赢,也为整个科技行业的发展注入了新的活力。
阶跃星辰新一代开源基座模型Step 3.5 Flash的发布以及与国产芯片的成功适配,无疑为大模型与国产芯片的协同发展树立了新的标杆。未来,随着技术的不断进步和生态的持续完善,我们有理由期待更多创新成果的涌现,为智能时代的到来奠定坚实基础。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。
举报投诉
-
AI芯片
+关注
关注
17文章
2181浏览量
36886
发布评论请先 登录
相关推荐
热点推荐
智源FlagOS携手海光信息完成DeepSeek V4 Flash全量适配
近日,北京智源研究院众智FlagOS社区宣布,已完成DeepSeekV4Flash 284B大模型在海光等多款AI芯片上的Day0全量适配与推理部署,同步实现三大关键技术突破,让
海光信息DCU产品深度适配商汤科技SenseNova U1系列大模型
近日,商汤科技推出并开源新一代原生多模态大模型SenseNova U1,海光DCU率先完成适配,是国内首批适配SenseNova U1的国产
昆仑芯科技完成商汤日日新SenseNova U1系列大模型极速适配
近日,商汤正式发布并开源原生理解生成统一模型——商汤日日新SenseNova U1系列。在模型发布当日,昆仑芯即完成对SenseNova U1的极速适配,成为率先完成该模型
MiniMax M2.7全球开源,摩尔线程、沐曦等完成Day0适配
厂商、推理平台已完成Day0适配,即在开源首日已经完成模型接入与推理适配工作。 MiniMa
昆仑芯科技完成MiniMax M2.7模型极速适配
今日,MiniMax正式开源MiniMax M2.7模型。昆仑芯同步完成对该模型的Day 0适配与深度优化,成为首批实现适配的国产算力
海光DCU完成Qwen3.5多模态MoE模型全量适配
近日,海光DCU完成Qwen3.5-397B MoE旗舰多模态模型、Qwen3.5-35B-A3B MoE多模态模型全量适配、精度对齐与推理部署验证。本次
壁仞科技与阶跃星辰、上海仪电智算服务达成战略合作
12月18日,壁仞科技、阶跃星辰、上海仪电智算服务正式签署战略合作协议。本次战略合作签约,将进一步实现三家企业的优势互补,持续探索技术创新与模式突破,构建起从底层硬件到上层应用的国产自主可控产业闭环,为上海乃至国家人工智能生态繁
阶跃星辰和燧原科技亮相WAIC 2025
近日,2025世界人工智能大会暨人工智能全球治理高级别会议(WAIC 2025)在上海开幕。开幕前夕,中国AI大模型头部企业阶跃星辰发布新一代基础大模型Step 3,并发起横跨模型、芯片
寒武纪联手阶跃星辰成立模芯生态创新联盟
近日,阶跃星辰发布了新一代基础大模型Step 3。Step 3兼顾智能与效率,通过模型和系统联合创新,实现了行业前列的推理解码效率,将于7月31日面向全球企业和开发者
燧原科技加入阶跃星辰模芯生态创新联盟
近日,阶跃星辰在上海召开「Step 3大模型发布会暨生态联盟成立大会」,会上阶跃发布了新一代基础大模型Step 3,旨在面向推理时代打造最适
阶跃星辰开源Step 3.5 Flash,多家国产芯片厂商完成适配
评论