0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

GAITC2025|张科:端云一体大模型推理应用实战

京东云 来源:jf_75140285 作者:jf_75140285 2025-06-26 09:33 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近期,2025全球人工智能技术大会(GAITC2025)于杭州盛大开幕,汇聚全球顶尖科学家、技术领袖及行业先锋,共同探讨人工智能技术产业化新趋势。京东零售AI Infra &大数据计算负责人张科受邀出席并在《行业大模型应用与发展》论坛发表演讲,首次深入介绍京东零售在端云一体大模型推理架构的实战经验与技术探索,并分享AI推理方向的未来发展思考。以下为张科分享实录,内容经编辑略有删减:

电商场景AI推理的挑战

大模型技术突飞猛进,大模型不仅是算法和算力的集合体,更是产业智能化的新底座,正在推动AI从“可用”向“好用、可控、可信”迈进。电商场景作为AI技术的应用场,逐步形成了三个主要的需求方向:

Generative AI

(如AI生成商品图、短视频、AI营销内容生成、AI数字人)、

Agentic AI

(如AI客服与售后管理、AI经营托管、AI仓配优化 、AI交互式推荐)、

Physical AI

(如自动分拣机器人、智能空间、自动驾驶)。在复杂场景与多元需求的驱动下,AI推理正面临一系列技术挑战,包括输入类型多样、用户需求优先级不同;端(如手机)和云(服务器)之间任务分配难、协同优化难;模型压缩和性能优化等问题。

京东零售联合清华大学推出 xLLM 端云一体大模型推理架构

2022年起,京东与清华大学开启深度合作,在计算机视觉机器学习、推荐系统、大数据等领域联合开展了十余项课题研究。今年双方进一步拓展合作边界,新增

大模型推理引擎国产化、多模态推荐大模型

等前沿方向,聚焦整合技术资源与学术优势,共同探索前沿技术创新,推动科研成果向实际生产力转化。自今年初大模型推理引擎国产化合作开展以来,京东零售和清华大学一起在大模型量化压缩、端-云协同推理引擎等方向联合攻坚,并提出“xLLM 端云一体大模型推理架构”,以解决推理引擎的性能优化问题、助力大模型技术在复杂电商环境的规模化落地。通过端云联合部署,实现高效协同推理。利用终端用户数据和反馈,云端模型持续优化并实时更新终端轻量化模型,形成闭环进化系统,提高模型在实际场景中的性能。该架构还可适应不同终端设备资源限制,实现大模型更广泛复用。

xLLM端云一体大模型推理架构中的技术探索还表现在以下4个方面:

1.自适应调度优化:

动态调整Prefill与Decode节点比例,实现动态的自适应弹性PD能力。

2.在离线统一调度:

根据负载实时调度在离线请求,实现请求级别的在离线混部的能力。

3.多层流水线执行:

最大化资源利用率,通过调度和模型执行异步流水线、不同Layer的计算和通信异步流水线、不同计算单元、访存并行流水线的多层流水线执行。

4.端云Agent协同:

端Agent处理简单任务与隐私数据,云 Agent 不断反馈优化,提升端 Agent 能力,并基于高效 Agent 协议协同。目前该推理架构已经在内部多个场景应用,在可交互式导购、商品对比、商品总结、购物建议等环节,大幅提升了响应速度,节省了计算成本,同时还有效助力了用户的活跃度。在核心的商品理解环节,也有效提升了大模型的理解能力和信息处理能力,模型推理成本最高可节省70%。

AI推理方向的未来思考

在现有技术探索的基础上,未来京东还将持续加大对国产 AI 基础设施的投入力度,着力构筑自主可控的技术生态体系。京东将重点聚焦三大前沿方向展开深入研究:

破解规模、效率、成本的 “不可能三角”、推进(端云)多智能体异步自进化、端云分布式推理的可解释和可调试

。通过上述布局,京东希望逐步实现主流国产芯片的深度适配优化,并基于自主研发的大模型推理框架,推动技术效率达到国际先进水平。也希望和业界同行共探技术边界、一起前行。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    91

    文章

    41147

    浏览量

    302609
  • 人工智能
    +关注

    关注

    1820

    文章

    50332

    浏览量

    266968
  • 大模型
    +关注

    关注

    2

    文章

    3772

    浏览量

    5273
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    广汽集团发布星河智舱ADiGO Intelligence一体架构

    2026广汽科技日,广汽集团集中发布全新星源动力、星舰车身、星河智舱、星灵架构及芯片生态领域最新成果。其中,广汽集团智能座舱产品线总裁朱太平带来了星河智舱ADiGO Intelligence一体架构,让智能出行“更懂你”。
    的头像 发表于 04-16 15:07 305次阅读

    九天菜菜大模型agent智能开发实战2026月班

    顺应了这一科技发展趋势。课程汇聚了行业内顶尖专家和资深开发者,他们将通过丰富的案例和实战项目,深入浅出地讲解大模型 Agent 的开发原理、技术架构和实际应用。学员们将有机会亲自动手实践,从需求分析
    发表于 04-15 16:04

    触拓(CHUTO)户外广告一体机,无惧酷暑全天候在线# 触拓 #户外触摸一体

    一体
    深圳市触拓科技有限公司
    发布于 :2026年04月08日 12:20:40

    2025夏季班正课】大模型Agent智能开发实战 课分享

    2025年12月班】大模型与Agent智能开发实战] 拒绝碎片化:体系化学 Agent 开发方法的技术深度剖析 在当今的人工智能应用开发领域,
    发表于 03-29 16:12

    中科创达携手亚马逊科技推出一体化边缘AI解决方案

    作为全球领先的智能操作系统和侧智能技术提供商,中科创达始终致力于通过技术创新赋能产业升级。2026年1月8日, 中科创达(ThunderSoft)在拉斯维加斯CES现场发表演讲,并携手亚马逊科技联合发布
    的头像 发表于 01-14 10:00 2269次阅读

    华为举办数字政府应急行业小安大模型一体机推介会

    2025年9月18日,以“跃升行业智能化”为主题的华为全联接大会2025在上海举办。期间,华为公司举办了数字政府应急行业“小安大模型一体机”推介会,北京安信创业信息科技发展有限公司总工
    的头像 发表于 09-20 14:49 1638次阅读

    解决方案 | 一体化OTA HIL测试解决方案

    TOSUN一体化OTAHIL测试解决方案随着智能网联汽车的快速发展,OTA(Over-the-Air)技术已成为车辆软件升级的核心手段。为满足日益严格的法规要求和技术挑战,同星智能(TOSUN
    的头像 发表于 09-19 20:03 1890次阅读
    解决方案 | <b class='flag-5'>云</b>管<b class='flag-5'>端</b><b class='flag-5'>一体</b>化OTA HIL测试解决方案

    迅为RK3568开发板模型推理测试实战LPRNet 车牌识别

    迅为RK3568开发板模型推理测试实战LPRNet 车牌识别
    的头像 发表于 08-25 14:55 1563次阅读
    迅为RK3568开发板<b class='flag-5'>模型</b><b class='flag-5'>推理</b>测试<b class='flag-5'>实战</b>LPRNet 车牌识别

    华为亮相2025金融AI推理应用落地与发展论坛

    近日,2025金融AI推理应用落地与发展论坛在上海举行。中国银联执行副总裁涂晓军、华为数字金融军团CEO曹冲出席本次论坛并发表致辞。论坛上,华为公司副总裁、数据存储产品线总裁周跃峰博士发布AI推理
    的头像 发表于 08-15 09:45 1386次阅读

    利用NVIDIA推理模型构建AI智能

    开放式推理模型能够更快、更广泛地进行思考,为客户服务、网络安全、制造、物流和机器人等领域的 AI 智能生成更明智的结果。
    的头像 发表于 08-13 14:32 1768次阅读
    利用NVIDIA<b class='flag-5'>推理模型</b>构建AI智能<b class='flag-5'>体</b>

    中国信通院发布“2025计算十大关键词”

    、大模型工程化交付、大模型一体机、终端、智能混合卓越架构、央国企“
    的头像 发表于 07-30 10:53 3352次阅读
    中国信通院发布“<b class='flag-5'>2025</b><b class='flag-5'>云</b>计算十大关键词”

    蚂蚁数正式发布金融推理模型

    7月26日,以“智能时代,同球共济”为主题的2025世界人工智能大会在上海开幕;亮点很多。我们看到在世界人工智能大会论坛上,蚂蚁数正式发布了金融推理模型Agentar-Fin-R1
    的头像 发表于 07-28 16:36 759次阅读

    超低延时重构AI推理体验!白山发布“大模型API”产品

    优势,打造超低延时、超稳定、简单易用的API接口服务,降低大模型应用成本和开发门槛,助力企业和个人用户快速开启AI创新之旅。专注边缘推理,构建“”算力协同新范
    的头像 发表于 07-02 17:26 1261次阅读
    超低延时重构AI<b class='flag-5'>推理</b>体验!白山<b class='flag-5'>云</b>发布“大<b class='flag-5'>模型</b>API”产品

    开普「开悟智核」:极致性价比的智能一体机,破局大模型应用难题

    当下,AI一体机凭借开箱即用、数据可控等优势,成为行业大模型落地的重要载体之。然而实际应用时,用户却面临诸多问题:算力成本与性能难以平衡;非满血版模型存在“幻觉”、精度低等问题;由于
    的头像 发表于 06-09 10:34 1320次阅读
    开普<b class='flag-5'>云</b>「开悟智核」:极致性价比的智能<b class='flag-5'>体</b><b class='flag-5'>一体</b>机,破局大<b class='flag-5'>模型</b>应用难题

    DeepSeek赋能,大模型一体机破解企业AI落地难题

    数据训练、模型部署等任务,确保敏感数据不外泄。   其核心价值在于简化部署流程、降低算力使用门槛,提升AI训练与推理效率。据IDC报告,2025年中国AI大模型
    的头像 发表于 06-09 07:13 6956次阅读
    DeepSeek赋能,大<b class='flag-5'>模型</b><b class='flag-5'>一体</b>机破解企业AI落地难题