0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

寻找AI时代的关键拼图,从美国橡树岭国家实验室读懂AI存力信标

脑极体 来源:脑极体 作者: 脑极体 2023-10-16 09:33 次阅读

超算,是计算产业的明珠,是人类探索未知的航船。超算的发展与变化,不仅代表着各个国家与地区间的科技竞争力,更将作为趋势风向标,影响整个数字化体系的走向。

在目前阶段,超算与AI计算的融合是大势所趋。为了将AI模型与AI计算融入超算体系,一轮新的超算变革正在酝酿发生。与此同时,一个关键问题也显露了出来:我们是否需要配合AI大模型风潮,打造全新且独立的存储体系?

在超算领域拥有广泛声誉的橡树岭国家实验室(Oak Ridge National Laboratory),已经就这个问题给出了明确的答案:需要。

wKgaomUqu7OAanfhAAFYzPcUc_Y080.jpg

日前,我们在橡树岭实验室发布的面向2027年构建下一代数据中心相关计划中已经看到,其明确提出了应对十亿到百亿级大模型的引入,除了需要面向传统HPC场景的PFS(Parallel file system 并行文件系统),还需要单独设立AOS(AI-optimized storage AI 优化存储)存储系统,并给出了相关的详细品类定义与规格约束。

这个信息为何重要?其又将如何影响计算与存储产业的持续发展?

让我们共同来解读一下,这个智能时代的存力信标。

科学之巅的超算答案

不久之前,诺兰导演的电影《奥本海默》在全球热映,其中对曼哈顿工程的描绘让人印象深刻。

事实上,曼哈顿工程的影响远不止于影片介绍的范围。成立于1934年,隶属于美国能源部的橡树岭国家实验室,原本就属于曼哈顿工程的一部分。作为美国乃至全球最具代表性的国家实验室,其存在目的是攻克当下最严峻的科学难题,开发具有跨时代意义的技术。

从上世纪40年代开发核反应堆,到率先在完成中子散射开展材料的相关研究,再到为半导体产业提供了一系列信息与相关技术。橡树岭国家实验室可谓在每个阶段都深度参与了信息时代的重大科学发现,被誉为人类科学之巅。

时间来到今天,橡树岭国家实验室最具盛名的能力就是超算。在的2022年全球超算Top500名单中,橡树岭国家实验室的Frontier超级计算机系统夺得第一。其凭借1.102 Exaflop/s的HPL分数,成为人类有史以来第一台“E级超算”计算机。也就是说,Frontier实现了断代式的惊人算力,其超算性能大于排在它身后的468个超算体系之和。同时,Frontier还是全球AI计算能力最强的计算体系之一,其AI计算能力已经投身到了智能交通、智能医疗等领域的探索中。

由此可见,橡树岭国家实验室在超算领域拥有极强的先进性,堪称广义超算领域的绝对权威。而在打造Frontier为代表的超算体系过程中,实验室也正以更加深邃的目光,望向AI计算与存储的前沿探索之路。

他们给出的AI存力答案,显然可以被更多超算体系,乃至数字化建设整体所参考。

对AI存力底座的明确定义

长久以来,我们都知道AI专项算力的重要性。那么是否需要在存储领域构建AI专项存力呢?这一直是个业界激烈争论的问题。而橡树岭国家实验室的答案,或许可以起到一锤定音的效果。在其发布的面向2027构建下一代数据中心方案中,明确提出了面对大模型的引入,除了需要面向传统超算场景的存储体系之外,要单独设立AOS(AI-optimized storage)品类。这也就是说,要建设传统超算业务和面向AI业务负载的两套I/O存储系统——PFS和AOS,即构建更适应、更匹配AI负载的专项存储。

这是因为橡树岭国家实验室已经意识到,未来超算将面临着越来越多的AI处理任务。这不仅仅需要算力系统的提升,更需要单独针对存储系统进行升级。因此对AI工作负载定制全新的存储子系统至关重要。

两套I/O存储系统相比较的话,很容易找到区别。

传统的PFS,更多是针对单一POSIX文件命名空间,整体业务的I/O较大,并且更多针对大文件进行运算处理,更强调集群聚合带宽,对小文件的创建或读取性能要求并不高。

而相较于PFS,AI应用折射到AOS负载上的文件更加复杂,大小不一,并且数据密集型分析占据了更大比重,在全流程中会产生大量的数据或元数据随机读写情况。这就需要存储系统既具备高达千万级的IOPS与OPS、又拥有十TB/s级别的超高带宽来进行高速顺序读写。

简而言之,新的AI负载会带来巨大的存储性能需求,这是传统PFS系统所谓无法负担的。只有存储性能极大升级,才能让AI算力利用率提升,整个模型的训练效率升级。

其次,极为重要的一点在于AI场景下计算节点故障率高,平均要达到天级甚至小时级就出现故障,因此需要频繁的断点续训,并且还有可能需要很多阶段性的模型数据与窗体数据定期保存。因此与传统的超算任务相比,AI任务需要存储具有更大的容量以及更高的效率。

接下来,我们还要看到共享存储的必要性。橡树岭国家实验室要求计算任务在任何计算节点都可以随机访问任何一个文件,从而确保AI任务在任何节点访问时性能具有强一致性。

除此之外,AOS还具备在底层文件系统与AOS之间的高效并行数据传输能力,从而确保文件的跨层调度能力。

为了保护珍贵的AI数据资产,AOS对存储可靠性的要求也提升了很多。由于各种AI训练大量采用分布式,需要在单点故障后依旧保持数据高可用、任务不中断。这需要满足跨节点的EC(Erasure Coding)能力,不像一些传统并行文件系统仅可做到节点内EC,当节点宕机后就会出现数据丢失、数据完整性受损,并且对于故障后的数据重构的性能速度,也规定了相关时长。

最后,AOS还需要具备本地数据的清洗与处理的能力,包含敏感信息去除、隐私信息过滤,甚至转码、去重等工作,从而简化数据预训练工作,提升AI任务的整体效率。

总结来说,橡树岭国家实验室已经明确提出,AI大模型浪潮不仅需要专项算力,还需要专项存力。传统的并行文件系统已经无法满足AI任务的需求,AI存储的门槛正在变得更高,定义正在更加清晰明确。

由橡树岭国家实验室的超算探索出发,AI存力的概念将影响到整个产业。

存储发展的时代信标

橡树岭国家实验室的发现,可以说是一个时代信标,它将辐射到更广泛的区域,给存储产业的升级发展提出明确信号

首先,业界可以由此凝结成一个共识:AI需要专业算力,也需要专业存储。AI存力概念将成为大模型时代主导存储产业的骨干。

其次,我们可以看到超算领域将首先得到启示。在全球各个国家与地区,超算都是国之利器,是科技竞赛的关键节点。而在超算与AI水乳交融的发展趋势下,超算场景必须积极引入AI存力升级,设置专业的外置存储,并且积极践行以存强算,通过存储升级来提升AI算力利用率。比如将AI大模型密集型计算之前,为了降低计算通信开销比,可以将一部分数据预处理下沉到存储层完成,以此节省AI算力。最终可以通过存储来提升超算体系的先进性与自主性。

接下来,我们还可以看到这一趋势将释放到超算场景之外。在AI大模型走入千行百业的进程中,各个领域都需要考虑存储是否能够适配AI模型与算力系统。适时进行存储升级,实现存、算、AI的相辅相成,是智能化发展过程中的关键。

这些启示,对于中国存储产业的发展,尤有至关重要的意义。

存力勃发,时代之选

在大模型发展中,存力是前提条件,也是产业支柱。尤其对应到中国在实现科技自立自强,推进数实融合的大势当中。AI浪潮恰好是一个绝佳契机,可以以最低成本,最高价值实现存储产业的全面升级更新。

从目前全球主流趋势来看,存储升级对AI发展的助力是多方位、全面性的。是一个高吞吐、可共享、大容量、高可靠的存储系统,是产业智能化、经济智能化发展的关键。

在这个趋势下,中国存力建设有以下几个机遇需要紧紧把握:

1.扩大存力规模,提升先进存储占比。

随着AI大模型的崛起,以及AI深入到超算、大型政企数字化等场景,会有更多企业倾向于进行本地化的AI训练与相关数据存储。这个过程中,既需要扩大存力整体规模,也需要提升以全闪存为代表的先进存储占比,以此来满足智能化发展所需。

2.提升存储技术创新,应对AI时代的数据复杂性。

AI带来了数据复杂性与应用流程多样性等一系列挑战,因此存储的先进性必须得到进一步提升。比如说,在建设数据湖的过程中,多数据中心、多业务系统的数据归集缓慢且复杂,跨业务的数据倒换的低效且繁琐,都给存储带来了考验。因此,存储需要提升协议互通能力、数据跨域调度、跨系统可视化数据管理等能力。以存储技术创新,应对AI时代的一系列技术挑战。

3.提升存储安全与运维能力,确保AI发展无忧。

AI大模型不仅带来了数据的复杂性,还带来了一系列全新的安全隐患,以及愈加复杂的存储运维管理压力。因此,存储需要积极践行主动安全、自动运维等能力,从而确保AI体系的健康发展。

在这些努力的坚持不懈下,AI存力将得到极大发展。就像我们知道AI算力即生产力,AI存力也将在未来成为生产力释放的关键,成为产业智能化的引擎。

总结起来,一项产业升级与技术发展,首先需要找到信标,读懂趋势。如果说此前我们对于AI专项存储的定义与发展还有争议,那么橡树岭国家实验室对未来数据中心的定义,就是为这一争论画下了句号。

依靠其在超算领域,乃至全球科研界的地位,首先我们可以看到AI存储本身的绝对必要性。其次可以对AI存储的定义、门槛与发展规范提出详细的要求。由此一来,我们可以在越来越多的证据下,清楚地看到AI大模型时代存储升级的必然。

AI存力的价值,在顶级实验室的论证与探索中可以证明;在存储产业多年来走向自主化、先进化的发展脚步中可以证明;在每一次AI训练之后,模型开发者对存储价值的慨叹中可以证明。

抓住AI机遇,促使存力勃发,是时代之选,更是时代之幸。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 存储
    +关注

    关注

    12

    文章

    3859

    浏览量

    84664
  • AI
    AI
    +关注

    关注

    87

    文章

    26450

    浏览量

    264063
  • 超算
    +关注

    关注

    1

    文章

    109

    浏览量

    8972
  • 大模型
    +关注

    关注

    2

    文章

    1525

    浏览量

    1116
  • 存力
    +关注

    关注

    0

    文章

    21

    浏览量

    48
收藏 人收藏

    评论

    相关推荐

    解锁AI时代的利器——讯飞AI鼠标AM30助你在AI时代脱颖

    解锁AI时代的利器——讯飞AI鼠标AM30助你在AI时代脱颖而出 随着AI
    的头像 发表于 03-25 13:37 152次阅读
    解锁<b class='flag-5'>AI</b><b class='flag-5'>时代</b>的利器——讯飞<b class='flag-5'>AI</b>鼠标AM30助你在<b class='flag-5'>AI</b><b class='flag-5'>时代</b>脱颖

    AI时代怎么样不被淘汰?讯飞AI鼠标助力你在AI时代成长

    AI时代怎么样不被淘汰?讯飞AI鼠标助力你在AI时代成长 随着人工智能的发展,AI
    的头像 发表于 03-23 11:41 395次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>时代</b>怎么样不被淘汰?讯飞<b class='flag-5'>AI</b>鼠标助力你在<b class='flag-5'>AI</b><b class='flag-5'>时代</b>成长

    世界荣耀,做AI时代的海

    齐聚全球5大AI巨头,荣耀要做AI时代的海
    的头像 发表于 02-28 18:23 916次阅读
    世界荣耀,做<b class='flag-5'>AI</b><b class='flag-5'>时代</b>的海

    上海AI实验室发布新一代书生·视觉大模型

    近日,上海人工智能实验室(上海AI实验室)联手多所知名高校及科技公司共同研发出新一代书生·视觉大模型(InternVL)。
    的头像 发表于 02-04 11:25 638次阅读

    微软和美国实验室利用人工智能加速寻找新型电池材料

    微软公司日前宣布,正在与美国一家顶尖的国家实验室紧密合作,共同研发一种具有划时代意义的新材料。通过结合人工智能技术,该材料能显著减少生产电池所需的锂,降幅高达70%。
    的头像 发表于 01-16 15:24 377次阅读

    与百校打造智能计算联合实验室,中科曙光助中国科研展开AI羽翼

    AI中科曙光
    脑极体
    发布于 :2023年12月22日 21:20:40

    【飞腾派4G版免费试用】仙女姐姐的嵌入式实验室之五~LLaMA.cpp及3B“小模型”OpenBuddy-StableLM-3B

    曦儿:冬至快乐 AI:谢谢,今天冬至,你是打算吃汤圆还是吃饺子呢,嗯,不管是吃什么,都祝你幸福,节日快乐 不管你是同意与否,时代的车轮正在滚滚而来,并且终将碾压旧时代,就像是之前的蒸汽机器
    发表于 12-22 10:18

    【嵌入式AI简报20231117期】面对未来AI的三大挑战!

    和娱乐方式。尽管AI的潜力对许多人来说显而易见,但其中隐藏了一些棘手的伦理和风险问题。 应对这些风险就像解开一幅巨大的拼图,这幅拼图定义着我们的时代。因此,许多
    的头像 发表于 11-17 21:10 507次阅读
    【嵌入式<b class='flag-5'>AI</b>简报20231117期】面对未来<b class='flag-5'>AI</b>的三大挑战!

    释放生成式AI的巨大潜力,德勤中国与亚马逊云科技共建生成式AI联合实验室

    2023年11月16日,德勤中国与亚马逊云科技共同宣布创建生成式AI联合实验室。双方将整合优势资源,围绕“1+3”展开合作。
    的头像 发表于 11-17 17:19 769次阅读

    AI智能呼叫中心

    随着科技的飞速发展,人工智能(AI)已经成为了各行各业的关键技术,其中,AI智能呼叫中心的出现,给传统的呼叫中心带来了巨大的改变与创新,本文将探讨AI智能呼叫中心的优势,包括自动化处理
    发表于 09-20 17:53

    PCR基因扩增实验室装修设计解决方案-生命科学

    ,直到找到污染源为止,而且实验结果必须作废,需重新进行实验。所以发生污染后再围绕实验室寻找污染源不但耗时而且繁琐,浪费人力物力。因此要避免污染,首先应是预防,而不是排除。 严格按照规
    发表于 09-19 14:28

    阿里平头哥发布首个 RISC-V AI 软硬全栈平台

    平台通过软硬件深度协同,较经典方案提升超 8 成性能,支持运行 170 余个主流 AI 模型,推动 RISC-V 进入高性能 AI 应用时代。 平头哥表示,他们通过更新自研一站式 AI
    发表于 08-26 14:14

    百度智能云连拿四年第一,为什么要深耕AI公有云市场

    从IDC最新的AI公有云市场报告,读懂大模型时代的云之变
    的头像 发表于 07-27 09:16 836次阅读
    百度智能云连拿四年第一,为什么要深耕<b class='flag-5'>AI</b>公有云市场

    AI 人工智能的未来在哪?

    人工智能、AI智能大模型已经孵化;繁衍过程将突飞猛进,ChatGPT已经上线。 世界首富马斯克认为AI对人类是一种威胁;谷歌前CEO施密特认为AI和机器学习对人类有很大益处。 每个国家
    发表于 06-27 10:48

    中国开源未来发展峰会“问道 AI 分论坛”即将开幕!

    发展峰会“问道 AI 分论坛”将在重庆富假日酒店举办,论坛将邀请国内多位一线 AI 领域大咖,底层技术、产品设计、开源社区运营等角度详解“AI
    发表于 05-09 09:49