0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

GPU会完全取代用于AI工作负载的计算基础架构中的CPU?

我快闭嘴 来源:贤集网 作者:贤集网 2020-10-09 14:12 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

人工智能AI)最初只是实验室研究,但如今机器学习深度学习等人工智能技术正越来越多地应用到现实世界中,例如检测金融交易中的欺诈行为、分析零售数据以提供个性化的购物体验,或者找到运输工具的最佳路线。

这些趋势意味着人工智能正迅速成为许多企业工作流程中不可或缺的一部分,从电子邮件到CRM或ERP,尤其是数据分析,从组织自身的数据集中收集商业智能见解,以提高效率,甚至创造新的商业机会。

这并不奇怪,IDC最近的一项调查显示,85%的企业正在评估人工智能或已经在生产中使用人工智能。然而,IDC发现,大多数组织报告说,在他们的人工智能项目中,有四分之一的机构报告说,失败率高达50%。这些失败都归因于缺乏熟练员工或文化上的挑战,但另一个常见的失败原因是无法从概念验证项目扩展到能够服务于整个组织的生产能力。

退一步讲,重要的是要区分那些投资于人工智能以获得显著的战略优势或可能重塑其整个商业模式的组织,而不是那些仅仅寻求简化运营或使用人工智能来自动化某些任务的组织。对于后者,基于云的AI功能生态系统已经兴起,可以通过API进行访问并将其集成到业务工作流程中。

另一类公司则以电子商务巨头阿里巴巴(Alibaba)分拆出来的一家银行为例,该银行使用人工智能来管理其所有金融服务,在贷款审批等流程方面,它的速度比竞争对手快得多,而且员工人数只占其一小部分。正如《哈佛商业评论》(Harvard Business Review)所详述的,这家新银行的核心是一个基于人工智能的“决策工厂”,它将决策视为一门科学,利用数据来推动预测和洞察,从而指导和自动化公司的运营工作流程。

对于这类业务,实施你的人工智能战略首先要有正确的数据,并且要理解如何使用它。这意味着不仅要雇佣数据科学家,还要雇佣数据战略家,他们是能够将业务问题转化为分析解决方案和见解的专业人士。

人工智能是建立在数据基础上的

大量的数据是开发机器学习(ML)或深度学习(DL)算法的最终根本。您在模型上投入的样本数据越多,就可以将模型“训练”得越好,并且其输出越准确可靠。结果是,与传统的企业IT环境相比,为AI项目存储和处理数据通常需要与高性能计算(HPC)安装有更多共同点的硬件。

训练一个深度学习模型或分析大量数据需要大量的处理能力。这可以通过使用一堆服务器和高端处理器芯片并行处理问题来实现。但更有效的解决方案是求助于专门的加速器,如GPU,或图形处理单元。

GPU之所以得名,是因为它们最初是3D图形的加速器,需要数百万次重复计算才能渲染图像。因此,它们具有使用数百个简单处理核心的大规模并行体系结构,事实证明,它们也适用于AI模型所涉及的计算。

例如,谷歌发现一个仅用于48个Nvidia GPU即可处理用于在线图像识别的AI系统,该系统需要16,000个CPU

这并不意味着GPU会完全取代用于AI工作负载的计算基础架构中的CPU。在许多情况下,仍然需要CPU来处理应用程序逻辑和其他数据科学计算,因此在大多数情况下,结合使用CPU和GPU的计算节点将被证明是最佳解决方案。

存储源计算

与传统的HPC体系结构一样,获得最佳性能的关键是保持计算节点及其gpu以足够高的速率接收数据,以使它们保持忙碌,这意味着存储基础结构在提供所需的性能级别方面起着至关重要的作用。正确的数据存储系统必须提供高吞吐量,以防止昂贵的gpu闲置,但它也必须具有灵活性和可扩展性。

更复杂的是,不同的AI工作负载将以读写数据的方式显示不同的访问模式,存储层需要能够处理所有这些模式。ML训练工作负载往往遵循一种不可预测的访问模式,例如,生成大量的读写操作,这些读写操作可能包括大小不等的随机访问和顺序访问,存储层必须能够吸收这些数据并提供高吞吐量。

当训练数据集足够小时,例如在试验性部署中,它可能被缓存在本地内存中,或者从小型计算节点群集中的本地闪存驱动器(SSD)中提供服务,这可以提供足够的性能级别,特别是当闪存SSD是NVMe驱动器时。

NVMe是一种存储标准,它使用高速PCIe总线将SSD直接链接到系统中的处理器,而不是传统接口(如SASSATA)。它还指定了一种新的高效协议,可以减少软件开销,从而最大限度地提高闪存提供的低延迟。NVMe的一个关键特性是支持多个I/O队列(最多65535个),从而使闪存能够并行处理多个请求。这利用了NAND存储设备的内部并行性,并允许比SAS或SATA高得多的原始吞吐量。

然而,扩展这样一个试验性部署来支持生产性人工智能用例所需的大量数据是困难的和/或昂贵的,这可能是一些人工智能项目无法超越概念验证阶段的原因。

成本也是一个因素。许多全闪存存储体系结构都依赖于单独的对象存储池或类似的存储池来保存访问频率较低的冷数据。相比之下,存储公司DDN有一个名为热池的功能,用户可以通过在用于热数据的闪存层和用于冷数据的更大的旋转磁盘层之间自动迁移数据,将所有内容保存在一个文件系统中。这降低了由于管理开销而导致的成本,同时使所有数据更接近你的手边。

加速任意规模的AI

这方面的一个很好的例子可以从DDN的加速、任意规模的AI(A³I)投资组合中看到,DDN是一家专门从事高性能存储的公司。A³I系列是一套基于DDN EXAScaler系统的预配置设备,可选择所有闪存NVMe SSD或闪存与硬盘驱动器存储的混合,以提高存储容量。

为了扩大规模,客户只需添加额外的设备,每个AI200X/AI400X设备的闪存NVMe容量高达256TB,或AI7990X型号的混合存储容量为4PB。每个文件系统都可以看作是一个构建块,可以聚合成一个可以在容量、性能和功能上进行扩展的文件系统。

根据DDN,A³I设备针对所有类型的访问模式和数据布局进行了优化,以确保GPU资源的充分利用。每个设备还具有多个高速主机接口,最多有8个HDR100 InfiniBand或100Gbit/s以太网端口

AI基础设施认证

认识到这一点,领先的GPU供应商Nvidia在其参考架构中将DDNA³I存储与DGX A100系统结合在一起,DGX A100系统是一个专用的AI计算系统,其中包含八个最新的A100 Tensor Core GPU和一对AMD Epyc CPU。DGX A100系统的架构被设计为适用于所有AI工作负载的通用系统,可消耗高达192GB / s的大量数据。但是,四个并行工作的DDN AI400X存储设备能够使所有这些GPU完全存满数据。

虽然DGX A100是相当新的产品,但是客户已经在AI应用程序中将DDN存储与Nvidia的旧DGX-1平台一起使用。日本东北大学医学大银行组织(ToMMo)已实现DDN EXAScaler存储,该存储连接到运行Parabricks基因组分析软件的基于DGX-1 GPU的分析服务器,作为其医疗超级计算机系统的一部分。

据该大学称,这极大地提高了其分析能力和样品量。因为由于能够处理更大的数据集,所以以前只存在于理论上的方法现在变得可行,从而提高了数据分析的准确性。

不过教训是,要使用A来I转变业务运营,组织需要能够处理大量数据。这反过来又意味着要建立一个能够处理这些数据量的基础设施,以及在不破坏银行资金的情况下扩大对数据和计算资源的访问的方法,以支持未来的增长。

希望通过采用全面的数据战略来领先于竞争对手的公司需要确保自己不会在基础架构方面承担额外风险。选择一家在要求最苛刻的数据密集型的环境中提供一系列解决方案方面具有丰富经验的存储供应商是一个明智的起点。
责任编辑:tzh

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    91

    文章

    40982

    浏览量

    302534
  • 人工智能
    +关注

    关注

    1819

    文章

    50298

    浏览量

    266844
  • 机器学习
    +关注

    关注

    67

    文章

    8561

    浏览量

    137208
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    内存要取代GPU?HBM之父警告:以英伟达GPU为核心的架构要被颠覆

    主板和CPU成为了主角。   而最近“HBM之父”金正浩教授也语出惊人,提出未来内存将成为主角:“GPUCPU将会被集成到内存(HBM和HBF)里,沦为内存的一个组件”。   倒反
    的头像 发表于 04-03 09:54 6748次阅读
    内存要<b class='flag-5'>取代</b><b class='flag-5'>GPU</b>?HBM之父警告:以英伟达<b class='flag-5'>GPU</b>为核心的<b class='flag-5'>架构</b>要被颠覆

    基于openEuler平台的CPUGPU与FPGA异构加速实战

    随着 AI、视频处理、加密和高性能计算需求的增长,单一 CPU 已无法满足低延迟、高吞吐量的计算需求。openEuler 作为面向企业和云端的开源操作系统,在 多样算力支持 方面表现出
    的头像 发表于 04-08 11:02 589次阅读
    基于openEuler平台的<b class='flag-5'>CPU</b>、<b class='flag-5'>GPU</b>与FPGA异构加速实战

    为何CPUAI基础设施的核心

    人工智能 (AI) 并非一种具有单一理想基础设施的单一工作负载AI 涵盖了多样化的工作负载,需
    的头像 发表于 03-11 10:35 1294次阅读

    成功案例:象帝先计算技术与Imagination合作——面向现代图形与计算工作负载的专业GPU

    为专业计算设计桌面GPU桌面GPU不仅用于游戏,还能加速从专业可视化、高级模拟到数据密集型计算在内的多种现代
    的头像 发表于 03-09 09:17 433次阅读
    成功案例:象帝先<b class='flag-5'>计算</b>技术与Imagination合作——面向现代图形与<b class='flag-5'>计算</b><b class='flag-5'>工作</b><b class='flag-5'>负载</b>的专业<b class='flag-5'>GPU</b>

    OrangePi RV2 深度技术评测:RISC-V AI融合架构的先行者

    OrangePi RV2是香橙派推出的一款基于RISC-V架构AI开发板,搭载KY X1八核处理器。该板以“CPU 融合AI”为核心理念,内置2TOPS算力,并支持双M.2 NVMe
    发表于 03-03 20:19

    Banana Pi BPI-CM6 计算模块将 8 核 RISC-V 处理器带入 CM4 外形尺寸

    AI 加速器/NPU:该 SoC 的架构宣称可提供高达 2.0 TOPS 的 AI 计算能力(专为机器学习/AI
    发表于 12-20 09:01

    适应边缘AI全新时代的GPU架构

    电子发烧友网站提供《适应边缘AI全新时代的GPU架构.pdf》资料免费下载
    发表于 09-15 16:42 47次下载

    【「AI芯片:科技探索与AGI愿景」阅读体验】+第二章 实现深度学习AI芯片的创新方法与架构

    算法 5.2加速矩阵乘法的芯片架构 ①新的矩阵乘法器架构 ②基于RISC-V的矩阵乘法扩展指令集 ③用信息论的思想来减少AI推理计算量 三、用于
    发表于 09-12 17:30

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片的需求和挑战

    工作吗? 从书中也了解到了AI芯片都有哪些?像CPUGPU、FPGA、ASIC都是AI芯片。 其他的还是知道的,FPGA属于
    发表于 09-12 16:07

    AI 芯片浪潮下,职场晋升新契机?

    、新架构不断涌现。能够在工作中提出创新性的解决方案,推动 AI 芯片性能、功耗、成本等关键指标的优化,将极大提升在职称评审的竞争力。例如,在芯片设计
    发表于 08-19 08:58

    AI芯片:加速人工智能计算的专用硬件引擎

    人工智能(AI)的快速发展离不开高性能计算硬件的支持,而传统CPU由于架构限制,难以高效处理AI任务
    的头像 发表于 07-09 15:59 1939次阅读

    【「算力芯片 | 高性能 CPU/GPU/NPU 微架构分析」阅读体验】+NVlink技术从应用到原理

    前言 【「算力芯片 | 高性能 CPU/GPU/NPU 微架构分析」书中的芯片知识是比较接近当前的顶尖芯片水平的,同时包含了芯片架构的基础知识,但该部分知识比较晦涩难懂,或许是由于我一
    发表于 06-18 19:31

    GPU架构深度解析

    GPU架构深度解析从图形处理到通用计算的进化之路图形处理单元(GPU),作为现代计算机中不可或缺的一部分,已经从最初的图形渲染专用处理器,发
    的头像 发表于 05-30 10:36 2014次阅读
    <b class='flag-5'>GPU</b><b class='flag-5'>架构</b>深度解析

    能效提升3倍!异构计算架构AI跑得更快更省电

    。它是应对复杂计算需求的关键技术之一。   异构计算架构的核心优势   异构计算架构的核心要素主要包括多种
    的头像 发表于 05-25 01:55 4263次阅读

    iTOP-3588S开发板四核心架构GPU内置GPU可以完全兼容0penGLES1.1、2.0和3.2。

    ,8GB内存,32GBEMMC。 四核心架构GPU内置GPU可以完全兼容0penGLES1.1、2.0和3.2。 内置NPU RK3588S内置NPU,支持INT4/INT8/INT1
    发表于 05-15 10:36