0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

ChatGPT“狂飙”之路背后的存储挑战

UnionMemory忆联 来源:UnionMemory忆联 2023-02-27 11:11 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

ChatGPT从2022年11月问世至今,凭借着“上知天文,下知地理”的智能表现火速出圈,在内容生成、搜索引擎优化、编程协助、智能客服等领域展现出的巨大潜力,甚至引发了AI领域的新一轮技术升级与产业重构,国内外科技企业也纷纷加入这场人工智能的竞赛。

就在不久前,北京市经济和信息化局发布的《2022年北京人工智能产业发展白皮书》中明确提出“支持头部企业打造对标ChatGPT的大模型,着力构建开源框架和通用大模型的应用生态。加强人工智能算力基础设施布局。加速人工智能基础数据供给。”

一场全球化、全领域的AI新浪潮已经来临。

ChatGPT“狂飙”之路背后的存储挑战

ChatGPT是由美国人工智能研究实验室OpenAI发布的一款生成式人工智能聊天机器人,是由人工智能技术驱动的自然语言处理工具,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流,甚至能完成撰写邮件、视频脚本、文案、翻译、代码,写论文等任务。

80b5c70c-b371-11ed-bfe3-dac502259ad0.jpg

ChatGPT使用的是GPT-3技术,即第三代生成式预训练Transformer (Generative Pretrained Transformer 3),这是一种自回归语言模型,所采用的数据量多达上万亿,主要使用的是公共爬虫数据集和有着超过万亿单词的人类语言数据集,对应的模型参数量也达到1,750亿。

GPT-3.5则是GPT-3微调优化后的版本,比后者更强大。ChatGPT正是由GPT-3.5架构的大型语言模型(LLM)所支持的,使ChatGPT能够响应用户的请求,做出“类似人类的反应”。在此背后是参数量和训练样本量的增加,据了解,GPT-3.5包含超过1746亿个参数,预估训练一次ChatGPT至少需要约3640 PFlop/s-day的算力(即1PetaFLOP/s效率跑3640天)。

ChatGPT“无所不知”的背后除了考验算力成本外,对数据存储在速度、功耗、容量、可靠性等层面也提出了更高要求。

ChatGPT每个训练步骤对存储都有着严苛的要求:

80dc9cba-b371-11ed-bfe3-dac502259ad0.jpg

①数据获取…

因为ChatGPT的训练需要大量的文本数据,所以需要先准备一个大规模的语料库。语料库可以来自各种渠道,例如维基百科、新闻网站、社交媒体等,并进行一定的预处理,例如去除特殊字符、分词、转换成小写等。为了缩短收集数据进行分析所需的时间,需要同时从各渠道进行采集,该阶段的重点在持续写入,定期进行容量存储的非易失性写入,AI获取的I/O配置文件通常是100%的顺序写入。

②数据整理…

由于从各种渠道收集到的数据结构多种多样,因此需要对获取的数据进行整理后再进行训练,例如对不完整的数据进行修复。针对不同属性的数据,例如用于面部识别的图像,必须进行归一化;非结构化数据需要进行标记和注释,便于深度学习算法的训练,进而增强算法。最后将来源于不同渠道的数据进行合并,并转换为目标格式。

这是一个不断迭代的过程,也是具有高度并发性的混合工作负载过程,因为需要读写不同数量的数据,包括随机和顺序读写。读写比将根据摄入数据的准确性和达到目标格式所需的转换程度而变化,极端情况下的工作负载可以接近50%的写入,拥有高吞吐量、低延迟以及高QoS的存储设备是减少数据整理时间的关键。

③训练…

ChatGPT的训练使用了自监督学习(Self-supervised learning)的方法,即根据文本数据中的上下文关系来预测下一个单词或字符。在训练过程中,ChatGPT 使用了基于梯度下降的优化算法来调整模型参数,使得模型的预测结果更加接近实际结果。

这个阶段非常耗费资源,因为涉及到从基于数据的预测到强化学习,再到神经网络和基于运动模型的预测一系列重复的步骤,并不断调节超参数与优化模型性能。大多使用的是随机读取和一些写入用于检查点设置,因此维持超快、高带宽随机读取的存储设备更有利于训练,更快的读取可以使有价值的训练资源得到快速利用,而随机性有助于提高模型的准确性。在此阶段,减少I/O等待时间至关重要。

④推理…

训练结束后,将训练好的模型执行推理,观察并使用新的数据验证推理结果是否符合预期。在推理阶段同样也需要大量读取和具有极低响应时间的高性能存储。推理可以部署在数据中心或边缘设备中,实时边缘部署不仅需要快速将已训练好的模型读入推理,还需要快速写入摄取的数据以进行实时决策。随着更多边缘部署采用强化学习,对存储设备性能的要求将更高。

AI浪潮之下,忆联SSD能做什么

面对AI应用更严苛的存储要求,忆联UH711a作为一款数据中心级SSD,凭借在各方面出色的性能表现可应用在AI业务中的各个阶段。

80ec3526-b371-11ed-bfe3-dac502259ad0.jpg

全场景调优,助推AI应用落地…

UH711a面向数据中心级的读密集场景、混合场景、写密集场景等业务场景和各类IO pattern,可提供全面的性能、功耗调优。尤其在数据库、块存储、对象存储、海量存储等对随机IOPS性能高要求场景下UH711a的性能显著。在与国内某互联网客户数据中心的合作中,通过使用忆联UH711a,在混合读写满负载业务场景下,存储集群能耗比提升了12.5%。

8102e08c-b371-11ed-bfe3-dac502259ad0.jpg

尤其在随机读写4K性能指标上,可提供更优的SSD能耗比,能满足AI业务中高吞吐量的需求,使其可以更快地收集更多的数据,缩短从数据中获取反馈的时间。如下图所示,UH711a在数据中心业务随机4K场景下IOPS per Watt 相比友商可提升42%。在数据中心级应用场景中可获得12.5%的IOPS per Watt收益。

811c42b6-b371-11ed-bfe3-dac502259ad0.jpg

各类场景下的IOPS per Watt测试对比

SR-IOV技术加持,降本增效显著…

因SR-IOV技术可提供更好的密度性能、隔离性和安全性,目前已被数据中心广泛采用。在面向AI应用进行部署与逻辑较为复杂的场景时,SR-IOV可为用户提供安全、优质的AI计算资源。UH711a 通过使能SR-IOV技术优化云业务虚拟机场景,相比SPDK方案优势显著。忆联采用的SR-IOV 2.0优化了各VF的性能隔离调度逻辑,使各VF间的性能隔离度更好,在纯读纯写场景下从原来的5%波动降低到3%;混合场景业务的波动从部分场景10%的波动优化到5%以内。

812c4dd2-b371-11ed-bfe3-dac502259ad0.jpg

此外,UH711a基于QOS保障的SR-IOV特性,在虚拟化AI场景,配合NVIDIA GPU Directed Storage场景下提供高达7GBps、170M IOPS访问能力,同时节约CPU算力10%,可减轻AI业务因数据持续增长的算力压力。

例:

一台12盘位服务器(128vCPU Core)使用忆联SR-IOV特性,每片盘可节省2个vCPU Core(累计节省24vCPU Core);CPU价格按40$来计算,单台服务器可节约CPU算力18.5%,释放的CPU算力可额外提供存储租用服务12个(24vCPU core / 2个vcpu绑定一个虚拟盘 )。

支持DIF特性,保障数据的可靠性…

机器学习中,若数据发生错误,研发人员可能花费大量时间进行查错,拉高时间成本的同时也会影响数据集的质量,更有可能出现模型精度降低的风险。忆联UH711a可支持DIF特性,能提升全链路数据保护能力。不仅与系统配合,实现端到端的保护,更能够在盘内实现独立的端到端保护机制,确保盘内整个通路的数据安全,从而为AI业务中多种极端场景下的正常运维提供双重保护。

813fedce-b371-11ed-bfe3-dac502259ad0.jpg

忆联UH711a还支持多种DIF配置,512+8、4K+8、4K+64,支持从应用到Flash的端到端数据保护,并能有效杜绝data replacement故障发生的可能,保障数据的完整性,助力AI模型的训练与推理能顺利完成。

优异的QoS,提升用户体验…

忆联UH711a采用了One Time Read技术,即结合介质分组管理、最优读电压实时追踪技术,对每个IO进行最优应答策略设计。可增强盘片的QoS竞争力,99.9% IO读一次成功,延时小于350us,能缩短在AI训练与推理时的实时决策时间,并提升盘片QoS能力与延长End of Life。

8155e642-b371-11ed-bfe3-dac502259ad0.png

在前台最优响应用户IO:

·以IO PPN信息,查询最优电压分组管理表;

·同时获取介质状态信息(Open Close Affected WL等);

·根据介质状态和分组表记录最优电压,采用预先设计的最优应答策略读取数据,最大程度缩短每个IO的响应延时。

在后台进行智能维护:

·依据大数据分析,对介质进行智能分组管理;

·关键事件触发,对介质状态进行更新维护;

·根据介质状态、实时巡检,依托最优电压跟踪IP,对电压分组管理表进行更新,保障电压准确度。

面向未来,忆联推动数据存储再进化

据报道,OpenAI已建立了一个比ChatGPT更先进的大型语言模型GPT-4,更有传闻称其可以通过图灵测试,这意味人工智能将再次迈向新的台阶。忆联作为科技浪潮中的一员将坚持以创新为驱动,为人工智能的部署与优化提速。

产品层面:针对AI业务场景及IO pattern,对SSD的高稳态性能、虚拟化与高能耗提出的更高需求,忆联将积极研发更具创新力与更高性能的存储产品,从产品形态、性能、深度定制化特性等多维度丰富产品矩阵。

解决方案层面:联合上下游伙伴探索先进技术,面向云计算、数据中心、服务器、运营商等关键行业打造场景化的存储解决方案,并积极推动产品与基础软硬件的兼容适配,加快人工智能部署升级。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    91

    文章

    40961

    浏览量

    302530
  • 语言模型
    +关注

    关注

    0

    文章

    573

    浏览量

    11341
  • ChatGPT
    +关注

    关注

    31

    文章

    1599

    浏览量

    10390

原文标题:ChatGPT掀起AI热潮,忆联SSD提供全方位存储方案

文章出处:【微信号:UnionMemory忆联,微信公众号:UnionMemory忆联】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    ChatGPT突然无法登录是什么情况?如何解决?

    很多人在使用 ChatGPT 时,都会遇到一个很头疼的问题: 突然无法登录 / 登录失败 / 一直转圈 / 验证不通过 ,尤其是做运营、跨境电商和经常需要使用AI工具的编程人员,这种问题一旦出现,会
    的头像 发表于 04-13 12:34 723次阅读
    <b class='flag-5'>ChatGPT</b>突然无法登录是什么情况?如何解决?

    涨价周期下,国产存储的突围之路与补给破局

    当全球存储芯片市场进入新一轮涨价通道,国内下游企业正面临着前所未有的成本压力。近日,三星电子完成第二季度DRAM产品供货合同谈判,其价格较一季度再涨30%,而这已是该巨头年内第二次大幅提价——一季度
    的头像 发表于 04-13 10:21 127次阅读

    启铭芯存储重磅亮相CFMS MemoryS 2026

    三星、长江存储、铠侠、慧荣科技等超百家存储原厂、芯片设计、终端应用及生态伙伴,共同直面 AI 浪潮下技术迭代、成本高企、产业重构的多重挑战,共探存储产业高质量发展
    的头像 发表于 03-28 16:00 1765次阅读

    一文了解数据存储演变之路

    开工大吉,启新赋能!数据存储格局正持续快速迭代发展,这背后离不开企业与个人不断增长的数据量驱动。其演变核心在于,从传统存储模式逐步迭代升级,转向更先进、灵活且可扩展的存储解决方案,精准
    的头像 发表于 02-27 13:51 576次阅读
    一文了解数据<b class='flag-5'>存储</b>演变<b class='flag-5'>之路</b>

    泰克专家探讨类脑计算背后的器件逻辑与现实挑战

    当AI算力竞赛愈演愈烈,一条源于生物大脑的技术路径,正在悄然重塑半导体器件与系统架构。近日,泰克专家在展台与类脑器件领域资深研究者万老师展开深度交流,围绕“器件如何赋能系统、打通从生物大脑到新型半导体应用的工程路径”这一核心议题,探讨类脑计算背后的器件逻辑与现实挑战
    的头像 发表于 01-20 10:15 717次阅读

    2025 企业 IT 成本翻倍?华为云对象存储让数据存储成本直降 20%

    2025 年,全球存储硬件市场的价格狂飙让企业 IT 部门陷入两难境地。作为固态硬盘核心组件的 NAND Flash,自 2025 年第一季以来价格累计上涨高达 246%,其中 70% 的涨幅集中在
    的头像 发表于 12-31 12:57 434次阅读

    SD NAND:工业 AI 巡检的存储硬核

    工业巡检 AI 化的「存储拦路虎」与 SD NAND 的破局之路 在钢铁厂的高温车间、油气管道的偏远沿线、电力基站的高空平台,工业巡检 AI 设备正逐步取代人工 —— 通过 AI 视觉识别焊缝缺陷
    的头像 发表于 12-26 09:42 359次阅读
    SD NAND:工业 AI 巡检的<b class='flag-5'>存储</b>硬核

    HBM量价齐飞,UFS加速普及:存储狂飙下的“最后质检”攻坚战

    HBM 量价齐飞、UFS 4.1 普及推动存储技术狂飙,却凸显烧录与测试这一 “最后质检” 难题。高端存储性能竞赛(HBM4 带宽 2TB/s、UFS 4.1 读写 4.2GB/s)与产能成本博弈
    的头像 发表于 12-18 11:15 572次阅读

    CoWoS产能狂飙背后:异质集成芯片的“最终测试”新范式

    CoWoS 产能狂飙背后,异质集成技术推动芯片测试从 “芯片测试” 转向 “微系统认证”,系统级测试(SLT)成为强制性关卡。其面临三维互连隐匿缺陷筛查、功耗 - 热 - 性能协同验证、异构单元协同
    的头像 发表于 12-11 16:06 635次阅读

    巧用拼多多API,精准定位下沉市场,销量一路狂飙

    ,如何精准触达并服务好这部分用户群体,是提升销量的关键。本文将探讨如何利用拼多多开放平台提供的API,实现数据的精准获取与分析,从而制定更有效的营销策略,助力销量“狂飙”。 一、 下沉市场的潜力与挑战 下沉市场用户规模庞大
    的头像 发表于 12-11 14:48 416次阅读
    巧用拼多多API,精准定位下沉市场,销量一路<b class='flag-5'>狂飙</b>!

    2025玄奘之路戈20挑战赛,神眸AI智能影像实现全赛道守护实时直播

    玄奘之路戈20戈壁挑战赛2025年9月28日-10月4日在甘肃敦煌圆满完赛。5500余名来自全球近百所商学院、知名品牌企业的参赛者齐聚瓜洲。作为戈2AI智能影像战略合作伙伴,在茫茫戈壁无人区,200
    的头像 发表于 10-15 09:16 1030次阅读
    2025玄奘<b class='flag-5'>之路</b>戈20<b class='flag-5'>挑战</b>赛,神眸AI智能影像实现全赛道守护实时直播

    让太阳能逆变器“狂飙”的秘诀-耐达讯CAN转EtherCAT网关

    导入ESI文件,组态比搭乐高还简单;未来兼容:支持TSN(时间敏感网络),无缝对接智能电网。 总结:耐达讯通信技术CAN转EtherCAT网关,堪称新能源界的“协议外交官”。它用技术魔法打破壁垒,让老设备焕发青春,新系统如虎添翼。若想光伏电站“发电如狂飙”,这位“破壁人”绝对是你的工具箱MVP!
    发表于 07-18 15:22

    有源铜缆:大模型背后的隐形英雄

    现在大家都在关注大模型,像ChatGPT,xAI等,尤其是Deepseek,最近都火出圈了!
    的头像 发表于 07-11 14:16 1365次阅读
    有源铜缆:大模型<b class='flag-5'>背后</b>的隐形英雄

    马斯克回归“7×24硬核模式”,FSD与Optimus双线狂飙

    这场 "马斯克式狂飙" 能否冲破技术瓶颈与市场质疑?2025 年的得州街头,或许会给出第一个答案。
    的头像 发表于 05-27 16:18 752次阅读

    拆解小米 CyberGear 微电机!ams AS5047P 磁编凭何让性能狂飙

    《拆解小米 CyberGear 微电机!ams AS5047P 磁编凭何让性能狂飙?》
    的头像 发表于 05-14 10:45 1367次阅读
    拆解小米 CyberGear 微电机!ams AS5047P 磁编凭何让性能<b class='flag-5'>狂飙</b>?