0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

郑纬民院士:内存型长记忆存储以存换算是AI推理新趋势

要长高 2024-11-01 16:03 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在10月29日由中国电子工业标准化技术协会举办的数据存储专业委员会(简称“数据存储专委会”)成立大会上,汇聚了产业界代表、专委会成员及多位院士专家,共逾百人,共同探讨了数据存储产业的发展,并见证了数据存储专业委员会的正式成立。会上,中国工程院院士、数据存储专委会名誉会长郑纬民发表了题为“AI存储:人工智能大模型的基石”的主旨演讲。

郑纬民院士指出,人工智能进入大模型时代展现出两大特征:一是基础大模型迈入多模态时代,实现了从单一文本到图片、视频等多模态信息的综合应用;二是大模型已在金融、医疗、智能制造等多个领域得到实际应用。

针对大模型的四个关键环节,郑纬民院士详细阐述了存储在大模型训练和推理应用中所面临的挑战及相关技术:

首先,数据获取阶段,大模型训练需要海量的原始数据,这些数据需被存储设备妥善保存。随着大模型从单模态向多模态发展,产生了数以百亿计的小文件,这对文件系统的目录扩展性、读写速度以及存储的低延迟和高可扩展性提出了更高要求。

其次,数据预处理阶段,由于原始数据质量参差不齐,存在大量重复和低质量数据,因此需要进行预处理以提升数据质量。以ChatGPT4级别的大模型为例,其训练过程可能需要1万块A100显卡耗时11个月,其中数据预处理可能占据一半以上的时间,这与数据存储的性能密切相关。

再次,模型训练阶段,大规模训练系统(如10万块显卡组成的系统)的可靠性难以保证,频繁出现故障,导致集群可用度低下。为了快速恢复训练,需要依赖高性能的存储系统来快速读取CheckPoint数据。华为与清华大学MADSys实验室联合开发的高性能AI存储系统在此方面表现出色,曾在国际权威机构MLPerf Storage基准评测中获得第一名,性能密度是第二名的两倍。

最后,模型推理阶段,这是与AI应用最直接相关的环节。更高效的人工智能需要处理更多数据、使用更大模型以及更长的上下文窗口,但这同时也带来了极重的推理负载。模型参数以及推理过程中产生的KV-Cache需要巨大的存储空间。为此,国内优秀的大模型应用Kimi与清华大学MADSys实验室共同推出了Mooncake分离式推理架构,通过保存共享的KV-Cache,采用以存换算的策略大幅提升系统吞吐。

郑纬民院士强调,模型推理过程是一个复杂的存储系统工程,关键在于存储容量大、传输速度快以及性价比高。清华大学MADSys实验室联合华为数据存储、9#AISoft、阿里云、面壁、趋境等公司共同开发的高性能内存型长记忆存储系统即将开源发布,该系统能够实现大范围全局共享与持久化KV-Cache,以存换算,共同构建大模型时代下的高性能内存型长记忆存储系统生态。

最后,郑纬民院士总结指出,AI存储是人工智能大模型的基石,贯穿于大模型生命周期的每一个环节。通过以存强算、以存换算,先进的AI存储能够提升训练集群的可用度,降低推理成本,提升用户体验。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 存储
    +关注

    关注

    13

    文章

    4941

    浏览量

    90432
  • AI
    AI
    +关注

    关注

    91

    文章

    42239

    浏览量

    303275
  • 人工智能
    +关注

    关注

    1821

    文章

    50552

    浏览量

    267996
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    华为破解HBM依赖!AI推理黑科技UCM上线,9月正式开源

    8月12日,在2025金融AI推理应用落地与发展论坛上,华为公司副总裁、数据存储产品线总裁周越峰宣布,华为此次和银联联合创新,推出AI推理
    的头像 发表于 08-13 08:58 1.1w次阅读
    华为破解HBM依赖!<b class='flag-5'>AI</b><b class='flag-5'>推理</b>黑科技UCM上线,9月正式开源

    直播预告|玄铁 x Canonical:从本地推理AI 工厂,基于 RISC-V 的 AI 基础设施创新路径探讨

    AI 算力需求从云端蔓延至终端,RISC-V 如何以一贯之的开放架构,打通从“本地推理”到“AI 工厂”的全场景链路,实现智算时代下的算力破局。 核 心 看 点 硬核算力基座|玄铁
    发表于 05-15 12:15

    AI Ceph 分布式存储教程资料大模型学习资料2026

    。如何构建高性能、高吞吐、高可扩展的 AI 分布式存储系统,已成为解锁大模型基建能力的核心科技命题。这不仅关乎数据得下、读得快,更直接决定了 GPU 集群的利用率与模型训练的最终效率。 一、 突破 I/O
    发表于 05-01 17:35

    黑马-Java+AI新版V16零基础就业班百度云网盘下载+Java+AI全栈开发工程师

    差异。 二、Java 推理引擎选型与性能优化 将 AI 模型跑在 JVM 内,最大的技术挑战是性能。传统 Python 生态依靠原生 C++ 后端与高效内存管理获得推理速度,而 Jav
    发表于 05-01 11:29

    忆联自研芯片压缩技术重塑KV Cache存储效率

    2026年3月,谷歌研究院发布TurboQuant压缩算法技术,迅速在存储AI基础设施领域引发热议。该算法能够压缩KV缓存,实现内存占用降低6倍、推理速度提升8倍的潜力。这一技术突破
    的头像 发表于 04-10 14:10 531次阅读

    大为创芯进军AI眼镜存储,端侧AI存储全面布局

    当前大模型应用持续渗透,AI 产业正迎来一轮关键的架构迁移,AI 存储正从云端集中处理为主,逐步向终端与边缘侧下沉延伸。这一趋势让端侧
    的头像 发表于 04-03 10:20 4324次阅读
    大为创芯进军<b class='flag-5'>AI</b>眼镜<b class='flag-5'>存储</b>,端侧<b class='flag-5'>AI</b><b class='flag-5'>存储</b>全面布局

    端侧AI进入爆发期,江波龙“集成存储”引领AI PC/手机、可穿戴存储创新

    ,国内存储龙头企业江波龙的“集成存储”绝对是独树一帜的存在。   在近日举行的CFM|MemoryS2026闪存峰会上,江波龙董事、总经理蔡华波做了主旨演讲,重点谈及集成存储,探索端
    的头像 发表于 04-01 10:06 5257次阅读
    端侧<b class='flag-5'>AI</b>进入爆发期,江波龙“集成<b class='flag-5'>存储</b>”引领<b class='flag-5'>AI</b> PC/手机、可穿戴<b class='flag-5'>存储</b>创新

    NVIDIA BlueField-4为推理上下文记忆存储平台提供强大支持

    随着代理式 AI 工作流将上下文窗口扩展到数百万个 token,并将模型规模扩展到数百万亿个参数,AI 原生企业正面临着越来越多的扩展挑战。这些系统目前依赖于智能体长期记忆存储跨多轮
    的头像 发表于 02-02 10:29 1433次阅读
    NVIDIA BlueField-4为<b class='flag-5'>推理</b>上下文<b class='flag-5'>记忆</b><b class='flag-5'>存储</b>平台提供强大支持

    2025年曙光存储先进力构建开放的算力底座并加速AI进化

    数据存储作为AI基础设施的重要组成,战略价值日益凸显。2025年,曙光存储先进力构建开放的算力底座、加速
    的头像 发表于 01-07 09:39 770次阅读

    燧原科技荣获2025年超大规模智算集群创新应用实践成果

    近日,中国信息通信研究院(以下简称“中国信通院”)成功召开2025AI云产业发展大会。中国通信标准化协会理事闻库、中国信通院副院长王志勤出席会议并致辞。中国工程院院士
    的头像 发表于 12-29 09:59 625次阅读
    燧原科技荣获2025年超大规模智算集群创新应用实践成果

    华为数据存储与「DaoCloud 道客」发布AI推理加速联合解决方案

    AI产业已从“追求模型能力极限”转向“追求推理体验最优化”,推理体验决定用户与AI的交互质感。当前推理应用快速发展,Token调用量爆发式增
    的头像 发表于 11-28 10:03 553次阅读
    华为数据<b class='flag-5'>存储</b>与「DaoCloud 道客」发布<b class='flag-5'>AI</b><b class='flag-5'>推理</b>加速联合解决方案

    科普:什么AI 内存技术

    问题。 为什么 AI 内存很重要? 在 AI 模型训练和推理过程中,大量的数据需要从内存传输到处理器(如 GPU 或 TPU)进行计算。传统
    的头像 发表于 09-03 15:44 1811次阅读

    华为亮相2025金融AI推理应用落地与发展论坛

    近日,2025金融AI推理应用落地与发展论坛在上海举行。中国银联执行副总裁涂晓军、华为数字金融军团CEO曹冲出席本次论坛并发表致辞。论坛上,华为公司副总裁、数据存储产品线总裁周跃峰博士发布AI
    的头像 发表于 08-15 09:45 1482次阅读

    今日看点丨华为发布AI推理创新技术UCM;比亚迪汽车出口暴增130%

        降低HBM依赖,华为发布AI推理创新技术UCM   日前,华为正式发布AI推理创新技术UCM(推理
    发表于 08-13 09:45 5820次阅读

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    “全流量采集 + AI根因诊断 + 预测性运维”为核心支柱,推动企业网络运维模式从传统的“被动响应”向“主动防御”和“故障自愈”的智能化方向跃迁。 三大核心能力:AI推理引擎重塑网
    发表于 07-16 15:29