从训练到推理：大模型算力需求的新拐点已至-电子发烧友网

在大模型产业发展的早期阶段，行业焦点主要集中在大模型训练所需的算力投入。一个万亿参数大模型的训练可能需要数千张GPU芯片连续运行数月，成本高达数千万甚至上亿元。但随着大模型技术的成熟和应用落地，推理算力正在成为市场关注的新焦点。

一、训练算力的"一次性投入"困境

大模型训练是典型的"一次性高成本投入"模式。根据OpenAI的公开数据，GPT-3.5的训练大约使用了1024张A100芯片，耗时约3个月，成本超过1000万美元。而GPT-4的训练成本更是达到了上亿美元级别。这种高成本的训练模式使得大模型技术长期被少数巨头企业掌握。

但训练只是大模型应用的第一步，真正考验算力能力的是大规模商业应用后的推理阶段。一个活跃用户每天与大模型的互动可能需要消耗数美元的推理算力成本，而当用户规模达到百万级甚至千万级时，推理算力的需求将呈指数级增长。

二、推理算力需求的新拐点根据IDC中国的预测，中国智能算力规模仍将保持高速增长，2025年将较2024年增长43%，2026年中国智能算力规模将达到2024年的两倍。其中，推理算力的增长速度将远超训练算力。

中国IDC圈创始人、CEO黄超表示，2026年产业智能体将进入百花齐放的发展阶段，算力应用正从"训练主导"悄然转向"推理驱动"，推理算力需求的爆发周期即将全面到来。科智咨询发布的《算力基础设施产业发展现状与未来趋势》报告显示，到2026年，中国智算需求将占新增需求的71%，而其中推理算力的占比将超过50%。

从用户数据来看，推理算力的需求增长已经显现。QuestMobile发布的AI应用周活排行榜显示，豆包、DeepSeek、元宝、蚂蚁阿福位列周活前四，新上线的蚂蚁阿福和灵光增长迅猛，通用AI在用户规模上保持优势。这些活跃用户每天产生的海量推理请求，对算力服务商的推理能力提出了极高要求。

三、推理算力的技术新挑战与训练算力相比，推理算力面临着完全不同的技术挑战：

低时延要求：用户与大模型的交互需要即时响应，推理时延需要控制在数百毫秒以内，否则会严重影响用户体验。
高并发支持：商业应用场景下，大模型可能需要同时处理数十万甚至数百万用户的请求，需要算力系统具备强大的并发处理能力。
能效比优化：推理算力是持续消耗型需求，能效比直接决定了企业的运营成本。根据国际能源署的预测，到2030年，AI设施的用电量将增长五倍，对推理算力的能效比提出了更高要求。
异构算力协同：不同的大模型推理场景对算力的需求各不相同，需要算力系统支持CPU、GPU、NPU等多种异构芯片的协同工作。

为了应对这些挑战，算力服务商正在探索新的技术路径。比如，中科曙光推出的"scaleX"万卡超集群系统采用浸没相变液冷技术，将PUE值降至1.04，显著提升了推理算力的能效比。华为则推出了昇腾AI芯片及全栈解决方案，针对推理场景进行了深度优化，支持高并发、低时延的推理服务。

四、算力服务商的新机遇推理算力需求的爆发，为算力服务商带来了新的发展机遇：

长期稳定的营收来源：推理算力需求具有持续性和稳定性，相比一次性的训练算力需求，更适合作为算力服务商的核心营收来源。
垂直行业定制化服务：不同行业的大模型应用场景对推理算力的需求各不相同，算力服务商可以针对金融、医疗、教育等垂直行业提供定制化的推理算力解决方案。
绿色算力应用场景：推理算力对能效比的高要求，推动了绿色算力技术的发展。廊坊的智算集群通过AI算法对系统进行数据分析，动态调整负载分配，将PUE值降至1.25以下，为绿色推理算力应用提供了范例。
边缘推理算力布局：随着大模型应用向终端设备延伸，边缘推理算力需求正在快速增长。算力服务商可以通过部署边缘推理节点，为终端设备提供低时延的推理服务。