0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

超低延时重构AI推理体验!白山云发布“大模型API”产品

爱云资讯 2025-07-02 17:26 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

白山云科技正式发布“大模型API”产品,首发上线DeepSeek-R1-0528、DeepSeek-R1-0528-Qwen3-8B、Qwen3-32B-FP8等大语言模型。基于白山全球边缘云架构优势,打造超低延时、超稳定、简单易用的API接口服务,降低大模型应用成本和开发门槛,助力企业和个人用户快速开启AI创新之旅。

专注边缘推理,构建“云边端”算力协同新范式

随着多模态交互、多轮会话、Agentic AI自主决策等复杂场景爆发,传统集中式数据中心的算力供给模式下,用户面临网络时延的线性增长、算力成本的指数上升,更低延时、更优成本的边缘算力推理成为必需。边缘推理通过分布式算力下沉与智能调度,能够为高实时、高隐私、高性价比场景提供关键支撑,驱动AI从集中式智能迈向“云-边-端”全域协同智能。

聚焦边缘推理场景,白山云基于全球1700+边缘节点构成的算力网络基座,于今年3月推出“边缘算力云平台”并持续完善升级,覆盖从GPU算力资源到MaaS模型服务的一站式AI算力基础设施,为用户提供高性能、低成本的AI Infra解决方案。

·模型服务:提供预构建、开箱即用的LLM和多模态模型服务(陆续上线),只需一行代码用户即可完成模型切换与集成;基于边缘节点的就近推理,为用户带来<300ms的超低延时推理体验。

·GPU算力服务:包含GPU容器、弹性容器、裸金属三大产品,灵活满足客户从专属算力到轻量级弹性算力的不同选择,为用户高并发场景下的推理请求提供动态扩缩容+按需付费的高性价比分布式异构算力服务。

重构“低延时、高稳定、强安全”性能上限

1、服务网关全网调度技术

根据实时网络状况、节点负载和模型需求,将推理任务动态分发至离用户最近、最优的边缘节点,用户就近计算,推理响应效率翻倍。

2、异构算力弹性调度技术

结合全球虚拟网络分层管理和区域自治能力,实现算力资源的多级弹性扩缩容,支持百万级并发,推理实例启动时间缩短到5秒内。

3、大文件加载优化技术

利用多区域管理的分布式缓存,通过对大模型文件进行数据集编排与亲和性调度,大幅提升服务调度效率,模型文件全链路加载冷启动时长从10分钟缩短到20秒。

4、算力服务单元推理优化技术

在单节点上对推理任务进行PD分离和并行计算,同时通过多卡多模型混跑,GPU利用率提升至56%,单节点模型推理效率提升2.04倍。

5、边缘云原生安全技术

融合白山全球边缘云平台安全防护能力,基于安全网关、云WAF、抗D、零信任安全等安全产品与服务,保障AI业务连续性与数据安全性。

白山云CEO霍涛表示:“大模型推理的实时性需求与成本压力,正推动边缘算力从‘流量节点’向‘智能计算单元’进化——这种深度融合正是下一代AI基础设施的核心范式。白山云依托覆盖全球60多个国家与地区、核心城市节点密度业界TOP 5的边缘网络,正构建‘日均万亿Token级推理处理’的边缘智能平台。我们正通过‘本地推理+云端协同’的混合架构,让边缘算力价值穿透工业质检、智能驾驶等20+垂直场景,切实破解企业智能化转型中的‘实时性鸿沟’与‘算力成本墙’。”

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • API
    API
    +关注

    关注

    2

    文章

    2516

    浏览量

    67202
  • AI
    AI
    +关注

    关注

    91

    文章

    42239

    浏览量

    303282
  • 大模型
    +关注

    关注

    2

    文章

    3884

    浏览量

    5312
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    阿里重构芯片--模型-推理全栈技术体系

    阿里在峰会上宣布实现“芯片--模型-推理”全栈Agent化升级,同步推出全新AI产品官网“千
    的头像 发表于 05-22 10:31 327次阅读
    阿里<b class='flag-5'>云</b><b class='flag-5'>重构</b>芯片-<b class='flag-5'>云</b>-<b class='flag-5'>模型</b>-<b class='flag-5'>推理</b>全栈技术体系

    直播预告|玄铁 x Canonical:从本地推理AI 工厂,基于 RISC-V 的 AI 基础设施创新路径探讨

    模型浪潮下,AI 算力正向“本地推理”与“AI 工厂”两极延伸,而传统架构在低延迟与规模化之间往往顾此失彼。RISC-V 的可定制特性,提供了一条新路径——端侧精简高效,
    发表于 05-15 12:15

    HM博学谷狂野AI模型第四期

    在生成式 AI 浪潮席卷全球的今天,大语言模型(LLM)已成为技术圈的显学。然而,绝大多数开发者仍停留在“调用者”的层面——通过 API 发送 Prompt,接收文本回复。这种“黑盒”式的应用开发
    发表于 05-01 17:30

    黑马-Java+AI新版V16零基础就业班百度网盘下载+Java+AI全栈开发工程师

    AI 能力有两条典型路径。初级做法是独立部署 AI 模型服务(Python 推理端),Java 业务层通过 HTTP/RPC 调用获取结果。这种方式开发快、解耦好,但延迟与稳定性受网
    发表于 05-01 11:29

    模型 ai coding 比较

    序 我主要用途是 ai coding,从各种渠道获取到了很多 不同的大模型排序 最多的是 opus 4.6 > k2.5 > glm5 >
    发表于 02-19 13:43

    使用NORDIC AI的好处

    不依赖持续联网,整体系统可靠性更高。[Edge AI 概述; Nordic Edge AI 技术页] 覆盖从“小 MCU”到“高性能 SoC”的完整产品线 Neuton 模型 :超
    发表于 01-31 23:16

    AMD Vitis AI 5.1测试版发布

    AMD Vitis AI 5.1全新发布——新增了对 AMD Versal AI Edge 系列神经网络处理单元 (NPU) 的支持。Vitis AI 包含优化的 NPU IP、
    的头像 发表于 10-31 12:46 1110次阅读

    深兰科技发布AI法务大模型产品

    近日,深兰科技发布面向律所与企业法务部门的AI法务大模型产品——“深兰律师办公自动化系统(AI版)”。通过
    的头像 发表于 10-23 17:58 1311次阅读

    什么是AI模型推理能力

    NVIDIA 的数据工厂团队为 NVIDIA Cosmos Reason 等 AI 模型奠定了基础,该模型近日在 Hugging Face 的物理推理模型排行榜中位列榜首。
    的头像 发表于 09-23 15:19 1657次阅读

    利用NVIDIA推理模型构建AI智能体

    开放式推理模型能够更快、更广泛地进行思考,为客户服务、网络安全、制造、物流和机器人等领域的 AI 智能体生成更明智的结果。
    的头像 发表于 08-13 14:32 1870次阅读
    利用NVIDIA<b class='flag-5'>推理模型</b>构建<b class='flag-5'>AI</b>智能体

    “端+多模态”新范式:《移远通信AI模型技术方案白皮书》正式发布

    7月28日,移远通信联合智次方研究院正式发布AI模型技术方案白皮书》(以下简称“白皮书”)。这份白皮书系统梳理了AI模型的技术特点、产
    的头像 发表于 07-28 13:08 1528次阅读
    “端<b class='flag-5'>云</b>+多模态”新范式:《移远通信<b class='flag-5'>AI</b>大<b class='flag-5'>模型</b>技术方案白皮书》正式<b class='flag-5'>发布</b>

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    DeepSeek-R1:强大的AI推理引擎底座DeepSeek是由杭州深度求索人工智能基础技术研究有限公司开发的新一代AI模型。其核心优势在于强大的
    发表于 07-16 15:29

    模型推理显存和计算量估计方法研究

    随着人工智能技术的飞速发展,深度学习大模型在各个领域得到了广泛应用。然而,大模型推理过程对显存和计算资源的需求较高,给实际应用带来了挑战。为了解决这一问题,本文将探讨大模型
    发表于 07-03 19:43

    Nordic收购 Neuton.AI 关于产品技术的分析

    生成比传统框架(如 TensorFlow、PyTorch 等)小 10 倍的模型模型体积可低至个位数 KB,并且推理速度更快、功耗更低。此次收购将 Neuton 的自动化 TinyML 平台
    发表于 06-28 14:18

    GAITC2025|张科:端一体大模型推理应用实战

    出席并在《行业大模型应用与发展》论坛发表演讲,首次深入介绍京东零售在端一体大模型推理架构的实战经验与技术探索,并分享AI
    的头像 发表于 06-26 09:33 779次阅读