0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

寻找AI时代的关键拼图,从美国橡树岭国家实验室读懂AI存力信标

脑极体 来源:脑极体 作者: 脑极体 2023-10-16 09:33 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

超算,是计算产业的明珠,是人类探索未知的航船。超算的发展与变化,不仅代表着各个国家与地区间的科技竞争力,更将作为趋势风向标,影响整个数字化体系的走向。

在目前阶段,超算与AI计算的融合是大势所趋。为了将AI模型与AI计算融入超算体系,一轮新的超算变革正在酝酿发生。与此同时,一个关键问题也显露了出来:我们是否需要配合AI大模型风潮,打造全新且独立的存储体系?

在超算领域拥有广泛声誉的橡树岭国家实验室(Oak Ridge National Laboratory),已经就这个问题给出了明确的答案:需要。

wKgaomUqu7OAanfhAAFYzPcUc_Y080.jpg

日前,我们在橡树岭实验室发布的面向2027年构建下一代数据中心相关计划中已经看到,其明确提出了应对十亿到百亿级大模型的引入,除了需要面向传统HPC场景的PFS(Parallel file system 并行文件系统),还需要单独设立AOS(AI-optimized storage AI 优化存储)存储系统,并给出了相关的详细品类定义与规格约束。

这个信息为何重要?其又将如何影响计算与存储产业的持续发展?

让我们共同来解读一下,这个智能时代的存力信标。

科学之巅的超算答案

不久之前,诺兰导演的电影《奥本海默》在全球热映,其中对曼哈顿工程的描绘让人印象深刻。

事实上,曼哈顿工程的影响远不止于影片介绍的范围。成立于1934年,隶属于美国能源部的橡树岭国家实验室,原本就属于曼哈顿工程的一部分。作为美国乃至全球最具代表性的国家实验室,其存在目的是攻克当下最严峻的科学难题,开发具有跨时代意义的技术。

从上世纪40年代开发核反应堆,到率先在完成中子散射开展材料的相关研究,再到为半导体产业提供了一系列信息与相关技术。橡树岭国家实验室可谓在每个阶段都深度参与了信息时代的重大科学发现,被誉为人类科学之巅。

时间来到今天,橡树岭国家实验室最具盛名的能力就是超算。在的2022年全球超算Top500名单中,橡树岭国家实验室的Frontier超级计算机系统夺得第一。其凭借1.102 Exaflop/s的HPL分数,成为人类有史以来第一台“E级超算”计算机。也就是说,Frontier实现了断代式的惊人算力,其超算性能大于排在它身后的468个超算体系之和。同时,Frontier还是全球AI计算能力最强的计算体系之一,其AI计算能力已经投身到了智能交通、智能医疗等领域的探索中。

由此可见,橡树岭国家实验室在超算领域拥有极强的先进性,堪称广义超算领域的绝对权威。而在打造Frontier为代表的超算体系过程中,实验室也正以更加深邃的目光,望向AI计算与存储的前沿探索之路。

他们给出的AI存力答案,显然可以被更多超算体系,乃至数字化建设整体所参考。

对AI存力底座的明确定义

长久以来,我们都知道AI专项算力的重要性。那么是否需要在存储领域构建AI专项存力呢?这一直是个业界激烈争论的问题。而橡树岭国家实验室的答案,或许可以起到一锤定音的效果。在其发布的面向2027构建下一代数据中心方案中,明确提出了面对大模型的引入,除了需要面向传统超算场景的存储体系之外,要单独设立AOS(AI-optimized storage)品类。这也就是说,要建设传统超算业务和面向AI业务负载的两套I/O存储系统——PFS和AOS,即构建更适应、更匹配AI负载的专项存储。

这是因为橡树岭国家实验室已经意识到,未来超算将面临着越来越多的AI处理任务。这不仅仅需要算力系统的提升,更需要单独针对存储系统进行升级。因此对AI工作负载定制全新的存储子系统至关重要。

两套I/O存储系统相比较的话,很容易找到区别。

传统的PFS,更多是针对单一POSIX文件命名空间,整体业务的I/O较大,并且更多针对大文件进行运算处理,更强调集群聚合带宽,对小文件的创建或读取性能要求并不高。

而相较于PFS,AI应用折射到AOS负载上的文件更加复杂,大小不一,并且数据密集型分析占据了更大比重,在全流程中会产生大量的数据或元数据随机读写情况。这就需要存储系统既具备高达千万级的IOPS与OPS、又拥有十TB/s级别的超高带宽来进行高速顺序读写。

简而言之,新的AI负载会带来巨大的存储性能需求,这是传统PFS系统所谓无法负担的。只有存储性能极大升级,才能让AI算力利用率提升,整个模型的训练效率升级。

其次,极为重要的一点在于AI场景下计算节点故障率高,平均要达到天级甚至小时级就出现故障,因此需要频繁的断点续训,并且还有可能需要很多阶段性的模型数据与窗体数据定期保存。因此与传统的超算任务相比,AI任务需要存储具有更大的容量以及更高的效率。

接下来,我们还要看到共享存储的必要性。橡树岭国家实验室要求计算任务在任何计算节点都可以随机访问任何一个文件,从而确保AI任务在任何节点访问时性能具有强一致性。

除此之外,AOS还具备在底层文件系统与AOS之间的高效并行数据传输能力,从而确保文件的跨层调度能力。

为了保护珍贵的AI数据资产,AOS对存储可靠性的要求也提升了很多。由于各种AI训练大量采用分布式,需要在单点故障后依旧保持数据高可用、任务不中断。这需要满足跨节点的EC(Erasure Coding)能力,不像一些传统并行文件系统仅可做到节点内EC,当节点宕机后就会出现数据丢失、数据完整性受损,并且对于故障后的数据重构的性能速度,也规定了相关时长。

最后,AOS还需要具备本地数据的清洗与处理的能力,包含敏感信息去除、隐私信息过滤,甚至转码、去重等工作,从而简化数据预训练工作,提升AI任务的整体效率。

总结来说,橡树岭国家实验室已经明确提出,AI大模型浪潮不仅需要专项算力,还需要专项存力。传统的并行文件系统已经无法满足AI任务的需求,AI存储的门槛正在变得更高,定义正在更加清晰明确。

由橡树岭国家实验室的超算探索出发,AI存力的概念将影响到整个产业。

存储发展的时代信标

橡树岭国家实验室的发现,可以说是一个时代信标,它将辐射到更广泛的区域,给存储产业的升级发展提出明确信号

首先,业界可以由此凝结成一个共识:AI需要专业算力,也需要专业存储。AI存力概念将成为大模型时代主导存储产业的骨干。

其次,我们可以看到超算领域将首先得到启示。在全球各个国家与地区,超算都是国之利器,是科技竞赛的关键节点。而在超算与AI水乳交融的发展趋势下,超算场景必须积极引入AI存力升级,设置专业的外置存储,并且积极践行以存强算,通过存储升级来提升AI算力利用率。比如将AI大模型密集型计算之前,为了降低计算通信开销比,可以将一部分数据预处理下沉到存储层完成,以此节省AI算力。最终可以通过存储来提升超算体系的先进性与自主性。

接下来,我们还可以看到这一趋势将释放到超算场景之外。在AI大模型走入千行百业的进程中,各个领域都需要考虑存储是否能够适配AI模型与算力系统。适时进行存储升级,实现存、算、AI的相辅相成,是智能化发展过程中的关键。

这些启示,对于中国存储产业的发展,尤有至关重要的意义。

存力勃发,时代之选

在大模型发展中,存力是前提条件,也是产业支柱。尤其对应到中国在实现科技自立自强,推进数实融合的大势当中。AI浪潮恰好是一个绝佳契机,可以以最低成本,最高价值实现存储产业的全面升级更新。

从目前全球主流趋势来看,存储升级对AI发展的助力是多方位、全面性的。是一个高吞吐、可共享、大容量、高可靠的存储系统,是产业智能化、经济智能化发展的关键。

在这个趋势下,中国存力建设有以下几个机遇需要紧紧把握:

1.扩大存力规模,提升先进存储占比。

随着AI大模型的崛起,以及AI深入到超算、大型政企数字化等场景,会有更多企业倾向于进行本地化的AI训练与相关数据存储。这个过程中,既需要扩大存力整体规模,也需要提升以全闪存为代表的先进存储占比,以此来满足智能化发展所需。

2.提升存储技术创新,应对AI时代的数据复杂性。

AI带来了数据复杂性与应用流程多样性等一系列挑战,因此存储的先进性必须得到进一步提升。比如说,在建设数据湖的过程中,多数据中心、多业务系统的数据归集缓慢且复杂,跨业务的数据倒换的低效且繁琐,都给存储带来了考验。因此,存储需要提升协议互通能力、数据跨域调度、跨系统可视化数据管理等能力。以存储技术创新,应对AI时代的一系列技术挑战。

3.提升存储安全与运维能力,确保AI发展无忧。

AI大模型不仅带来了数据的复杂性,还带来了一系列全新的安全隐患,以及愈加复杂的存储运维管理压力。因此,存储需要积极践行主动安全、自动运维等能力,从而确保AI体系的健康发展。

在这些努力的坚持不懈下,AI存力将得到极大发展。就像我们知道AI算力即生产力,AI存力也将在未来成为生产力释放的关键,成为产业智能化的引擎。

总结起来,一项产业升级与技术发展,首先需要找到信标,读懂趋势。如果说此前我们对于AI专项存储的定义与发展还有争议,那么橡树岭国家实验室对未来数据中心的定义,就是为这一争论画下了句号。

依靠其在超算领域,乃至全球科研界的地位,首先我们可以看到AI存储本身的绝对必要性。其次可以对AI存储的定义、门槛与发展规范提出详细的要求。由此一来,我们可以在越来越多的证据下,清楚地看到AI大模型时代存储升级的必然。

AI存力的价值,在顶级实验室的论证与探索中可以证明;在存储产业多年来走向自主化、先进化的发展脚步中可以证明;在每一次AI训练之后,模型开发者对存储价值的慨叹中可以证明。

抓住AI机遇,促使存力勃发,是时代之选,更是时代之幸。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 存储
    +关注

    关注

    13

    文章

    4707

    浏览量

    89625
  • AI
    AI
    +关注

    关注

    90

    文章

    38271

    浏览量

    297326
  • 超算
    +关注

    关注

    1

    文章

    118

    浏览量

    9501
  • 大模型
    +关注

    关注

    2

    文章

    3462

    浏览量

    4998
  • 存力
    +关注

    关注

    0

    文章

    27

    浏览量

    268
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    江波龙与华曦达联合创新实验室揭牌,共建AI存储创新生态

    切入点,旨在构建覆盖端侧AI设备与智能家庭场景的技术验证体系。实验室秉承开源协作理念,致力于解决存储与AI终端适配中的关键痛点,形成联合调
    的头像 发表于 12-05 13:36 1060次阅读
    江波龙与华曦达联合创新<b class='flag-5'>实验室</b>揭牌,共建<b class='flag-5'>AI</b>存储创新生态

    Solidigm 成立AI中央实验室,配备高性能、大密度存储测试集群

    实验室。该实验室配备了专为多种AI工作负载量身打造的高性能、高密度的存储测试集群。 这座先进的 AI 中央实验室坐落于
    的头像 发表于 10-10 17:03 578次阅读

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的科学应用

    灵感的过程中发挥关键作用。五、用AI实现诺贝尔奖级别的科学发现 这想法这能够大胆的。 1、AI科学家的构建 全自主科学实验室需要哪些部分: ①自动
    发表于 09-17 11:45

    CTI华测检测与戴纳科技签署战略合作,共建AI驱动黑灯实验室

    基地完成战略签约,双方将合作打造AI驱动黑灯实验室,攻克关键技术瓶颈,共同推动检测认证实验室向全面数智化及自动化升级。 CTI华测检测集团总裁申屠献忠在签约仪式上表示:"本次合作是华测
    的头像 发表于 08-28 09:48 394次阅读
    CTI华测检测与戴纳科技签署战略合作,共建<b class='flag-5'>AI</b>驱动黑灯<b class='flag-5'>实验室</b>

    上海贝跻身国家认可实验室行列

    近日,上海贝股份有限公司检测中心可靠性实验室正式通过中国合格评定国家认可委员会(CNAS)的严格评审,获得CNAS认可实验室资质证书(注册号:CNAS L23589)。这标志着上海贝
    的头像 发表于 08-01 09:51 1108次阅读

    【书籍评测活动NO.64】AI芯片,过去走向未来:《AI芯片:科技探索与AGI愿景》

    创新、应用创新、系统创新五个部分,接下来一一解读。 算法创新 在深度学习AI芯片的创新上,书中围绕大模型与Transformer算法的算需求,提出了一系列架构与方法创新,包括内计算技术、基于开源
    发表于 07-28 13:54

    华为智算实验室方案加速构建AI4S新质生产

    为科学发现的核心引擎。在这场全球科研范式重构的浪潮中,国家实验室对基础设施的诉求已发生本质性嬗变——全栈自主创新、数据主权保障、多模态算融合正取代单纯的算规模,成为
    的头像 发表于 07-05 17:53 1519次阅读
    华为智算<b class='flag-5'>实验室</b>方案加速构建<b class='flag-5'>AI</b>4S新质生产<b class='flag-5'>力</b>

    实验室安全管理成焦点,汉威科技赋能实验室安全升级

    实验室国家科技创新体系的重要组成部分,是国家组织高水平基础研究和应用基础研究、聚集和培养优秀科学家、开展学术交流的重要基地。近年来,各高校、研究院所、科创园区、高新产业园区相关企业的实验室
    的头像 发表于 04-10 10:41 727次阅读
    <b class='flag-5'>实验室</b>安全管理成焦点,汉威科技赋能<b class='flag-5'>实验室</b>安全升级

    苏州地铁与科沃斯成立AI清洁机器人联合实验室

    为积极响应“人工智能+”与“交通强国”双国家战略,近日,苏州轨道交通城市运维服务有限公司与科沃斯商用机器人有限公司正式签署合作协议,共建“AI清洁机器人联合实验室”,运维公司总经理谷亚军与科沃斯机器人商用事业部副总经理高翔共同为
    的头像 发表于 03-26 16:36 1020次阅读

    达实智能“AI+物联网”开放实验室启动

    近日,“AI+物联网”开放实验室于达实智能大厦正式启动。开放实验室项目由深圳市科学技术协会、南山区科学技术协会作为指导单位;深圳达实智能股份有限公司为发起单位,首批有9家共建单位入驻。
    的头像 发表于 03-19 16:43 879次阅读

    零到一:集成电路封装测试实验室建设的关键要素

    集成电路封装测试实验室的建设是一项涉及多学科、多环节的系统工程。研发型实验室的精准温控需求到量产型实验室的高效动线设计,设备选型到合规认
    的头像 发表于 03-08 14:40 733次阅读
    <b class='flag-5'>从</b>零到一:集成电路封装测试<b class='flag-5'>实验室</b>建设的<b class='flag-5'>关键</b>要素

    华为智算实验室解决方案助力科研创新高质量发展

    AI浪潮席卷科研领域,以DeepSeek为代表的生成式AI技术正掀起新一轮科研革命。华为基于其在AI和高性能计算等领域的优势,推出智算实验室解决方案,与DeepSeek协同创新,加速科
    的头像 发表于 02-25 16:22 1290次阅读

    NVIDIA推出DRIVE AI安全检测实验室

    全新 NVIDIA 实验室获得美国国家标准学会国家认可委员会(ANAB)的认证,可执行自动驾驶汽车的功能安全、网络安全和 AI 检测。
    的头像 发表于 01-09 16:01 1199次阅读

    实验室部署42kW风冷算仓,加速AI for Science科研创新

    北京2025年1月6日 /美通社/ -- 日前,浪潮信息与一实验室(以下简称实验室)正式签署合作协议,将采用42kW智算风冷算仓打造算效能效双提升、性能扩展双极致、部署运维双简化的领先智算中心
    的头像 发表于 01-07 09:46 588次阅读

    梯度科技成为AI Cloud MSP技术服务实验室首批成员单位

    近日,2024全球数字经济大会云·AI·计算国际合作论坛成功召开。会上,公布了AI Cloud MSP技术服务实验室首批成员单位,梯度科技凭借在人工智能云管理服务领域的卓越实力成为AI
    的头像 发表于 12-18 10:07 1054次阅读