超低延时重构AI推理体验！白山云发布“大模型API”产品-电子发烧友网

白山云科技正式发布“大模型API”产品，首发上线DeepSeek-R1-0528、DeepSeek-R1-0528-Qwen3-8B、Qwen3-32B-FP8等大语言模型。基于白山全球边缘云架构优势，打造超低延时、超稳定、简单易用的API接口服务，降低大模型应用成本和开发门槛，助力企业和个人用户快速开启AI创新之旅。

专注边缘推理，构建“云边端”算力协同新范式

随着多模态交互、多轮会话、Agentic AI自主决策等复杂场景爆发，传统集中式数据中心的算力供给模式下，用户面临网络时延的线性增长、算力成本的指数上升，更低延时、更优成本的边缘算力推理成为必需。边缘推理通过分布式算力下沉与智能调度，能够为高实时、高隐私、高性价比场景提供关键支撑，驱动AI从集中式智能迈向“云-边-端”全域协同智能。

聚焦边缘推理场景，白山云基于全球1700+边缘节点构成的算力网络基座，于今年3月推出“边缘算力云平台”并持续完善升级，覆盖从GPU算力资源到MaaS模型服务的一站式AI算力基础设施，为用户提供高性能、低成本的AI Infra解决方案。

·模型服务：提供预构建、开箱即用的LLM和多模态模型服务（陆续上线），只需一行代码用户即可完成模型切换与集成；基于边缘节点的就近推理，为用户带来＜300ms的超低延时推理体验。

·GPU算力服务：包含GPU容器、弹性容器、裸金属三大产品，灵活满足客户从专属算力到轻量级弹性算力的不同选择，为用户高并发场景下的推理请求提供动态扩缩容+按需付费的高性价比分布式异构算力服务。

重构“低延时、高稳定、强安全”性能上限

1、服务网关全网调度技术

根据实时网络状况、节点负载和模型需求，将推理任务动态分发至离用户最近、最优的边缘节点，用户就近计算，推理响应效率翻倍。

2、异构算力弹性调度技术

结合全球虚拟网络分层管理和区域自治能力，实现算力资源的多级弹性扩缩容，支持百万级并发，推理实例启动时间缩短到5秒内。

3、大文件加载优化技术

利用多区域管理的分布式缓存，通过对大模型文件进行数据集编排与亲和性调度，大幅提升服务调度效率，模型文件全链路加载冷启动时长从10分钟缩短到20秒。

4、算力服务单元推理优化技术

在单节点上对推理任务进行PD分离和并行计算，同时通过多卡多模型混跑，GPU利用率提升至56%，单节点模型推理效率提升2.04倍。

5、边缘云原生安全技术

融合白山全球边缘云平台安全防护能力，基于安全网关、云WAF、抗D、零信任安全等安全产品与服务，保障AI业务连续性与数据安全性。

白山云CEO霍涛表示：“大模型推理的实时性需求与成本压力，正推动边缘算力从‘流量节点’向‘智能计算单元’进化——这种深度融合正是下一代AI基础设施的核心范式。白山云依托覆盖全球60多个国家与地区、核心城市节点密度业界TOP 5的边缘网络，正构建‘日均万亿Token级推理处理’的边缘智能平台。我们正通过‘本地推理+云端协同’的混合架构，让边缘算力价值穿透工业质检、智能驾驶等20+垂直场景，切实破解企业智能化转型中的‘实时性鸿沟’与‘算力成本墙’。”

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

API

API

+关注

关注
2

文章
2516

浏览量
67202
AI

AI

+关注

关注
91

文章
42239

浏览量
303282
大模型

大模型

+关注

关注
2

文章
3884

浏览量
5312

搜索历史

超低延时重构AI推理体验！白山云发布“大模型API”产品

评论