0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI 创新的阻碍是对现有计算利用不足和成本增加

如意 来源:读芯术微信公众号 作者:读芯术微信公众号 2020-11-02 15:02 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

虽然人工智能融合到商业具有很高的商业价值,但通常这个价值还不能抵消把模型应用到商业中所需的计算成本。机器学习深度学习是计算密集型的学习,有人认为,除非云计算或本地计算成本降低,否则尽管具有空前的商业价值,也不值得付出这笔成本。

麻省理工学院的研究科学家兼《深度学习的计算极限》一书的作者尼尔·汤普森(Neil Thompson)在《连线》杂志上发表的文章中提到,Google、Facebook等众多组织已经建立了影响力广又能节约成本的模型,但由于计算成本高而导致这些模型无法盈利。

汤普森表示在最近的一些演讲和论文中表示,从事大型和前沿人工智能项目的研究人员开始抱怨,因为成本太高,他们无法测试多个算法设计,或者重新进行实验。

商业机构需要极大地完善计算效率的方法,以促进创新并提高人工智能工作的投资回报率。但是,高昂的计算成本以及人们对高效计算的关注并不应该就此背黑锅。

实际上,GPU加速基础架构和其他云供应商已经取得了重大的进步,极大提高了训练复杂人工智能网络的能力,这种速度是前所未有的。

2020年5月,DeepCube发布了基于软件的推理加速器,大大提高了所有现有硬件上的深度学习性能。换句话说,人们正在开发计算解决方案以满足机器学习和深度学习日益增长的需求。人工智能创新潜在的阻碍就是对现有计算利用不足,以及“计算债务”的成本不断增加。

什么是“计算债务”?

人工智能的领头羊或许会惊讶地发现,阻碍机器学习投资回报的主要因素之一是GPU,CPU和内存资源利用不足。

公司在计算上投资了数百万美元,这些计算有可能极大地加速人工智能工作的负载量并提高性能,但最终只利用其中的一小部分,有时只利用了20%的资源。计算分配和实际利用率之间的差距令人震惊,可能需要公司付出比想象中更高的成本。

计算、分配和利用率之间的差距可称为“计算债务”。指的是分配和能力之间的“浪费”。下图直观地对比了绿色所代表的平均利用率和黄色所代表的(当时的)分配。

当工作负载正在运行时,通常仅利用GPU的一部分,而另一部分则被其他潜在的工作负载所阻挡。灰色区域表示容量即GPU,CPU或内存可用的现有计算量,是所有闲置且未充分利用的计算区域。

资料来源:cnvrg.io

是什么导致了“计算债务”?

机器学习和深度学习是计算密集型的学习,管理起来很复杂,降低这种计算负担会更难。人工智能基础设施团队面临的最大挑战之一是知道如何提高利用率,并以最大化消耗的方式管理资源,提高机器学习项目的投资回报率。导致“计算债务”的主要原因包括:

(1) 基础设施团队缺乏人工智能项目可见性

机器学习项目的基础设施成本每年以两倍的速度增长,但是IT团队却缺乏正确管理、优化和预算机器学习资源的工具。大多数IT/DevOps领导者无法在给定时间了解GPU/CPU和内存的利用率、分配和容量。这导致无法控制消耗,无法提高效率。

(2) “计算债务”增长

随着人工智能计算需求变得越来越复杂,计算分配和实际利用率之间的差距也越来越大。通常来说,公司可能只消耗了全部资源的30%。这导致将近70%的计算资源闲置,浪费了公司几千甚至数百万美元。

(3) 无法识别效率低下的工作

基础架构团队无法轻松识别未充分利用GPU/CPU的工作负载。如果没有收集有关历史工作负载的数据,就无法分析和识别运行效率低下的工作负载。缺乏可见性导致难以提高利用率,也难以控制工作负载的优先级。

(4) 生产力中断

未充分利用的GPU被打断为其他工作让路,增加了数据科学家的等待时间。这导致在等待GPU上浪费了很多时间和资源。同时还包括资源处于闲置状态的问题,这些资源本来可以用于做其他工作的。

(5) 缺乏标准化和统一性

团队经常无法将一项工作与利用率指标关联起来。没有标准的可视化工具来查看特定时间点的工作分配、利用率和容量。这使得识别效率低下的工作变得十分困难,而且难以确定浪费的工作量。机器学习已经达到了成熟的阶段,为了成长,必须对人工智能基础架构进行战略化发展。

(6) 无法控制优化策略

有些团队能识别低效率并计划好优化的基础架构策略,却缺乏执行这些策略上的工具。IT / DevOps团队需要控制人工智能工作负载,以优化资源管理。如果没有办法确定工作的优先级、配置计算模板以及监视工作负载的分配和利用率,就无法做出重大改进。

减少“计算债务”的策略

这一问题没有明确的解决方法,但是有一些方法可以提高资源管理的效率。

(1) 投资最先进的具有GPU加速技术的人工智能基础设施

GPU加速技术已经取得了一些成就。硬件和软件深度学习加速解决方案已经出现,可提供前所未有的计算性能。研究最新的GPU加速解决方案,采用真正的现代人工智能基础架构。

(2) 采用混合的云基础架构

结合公共云、私有云和本地资源可在运行人工智能工作负载方面更加敏捷和灵活。由于人工智能工作负载之间的负载类型差异很大,因此公司搭建了混合云基础架构后,能够更灵活地分配资源和自定义大小。可以使用公共云降低资本支出,并提供高计算需求期间所需的可伸缩性。

如果一些公司有着严格的安全性要求,则必须添加私有云,随着时间的推移可降低运营支出。混合云可实现必要的控制和灵活性,以改善资源预算。

(3) 利用估算工具估算GPU / CPU内存消耗

根据Microsoft Research对Microsoft的4960个失败的深度学习任务的研究,8.8%的失败是由GPU内存耗尽导致的,这是所有深度学习故障中最主要的问题。当前已经开发出许多估算工具用以预估GPU内存消耗以减少这些故障。此外,如果能够收集利用率数据,则可以使用此历史数据更好地预测每个季度的GPU / CPU和内存需求。

(4) 规模化MLOps

引入可以简化机器学习工作流程,并标准化科学和工程角色之间转换的方法。由于IT和DevOps负责部署和管理工作负载,因此在执行不同的工作时拥有清晰的沟通渠道非常重要。适当的调度工具和对资源模板进行策略化可以改善人工智能工作负载的资源管理。

(5) 最大限度地提高利用率,减少“计算债务”

为了提高利用率,有必要将计算债务作为基础架构团队和数据科学团队的KPI。如果公司能减少计算债务并提高利用率,就可以在向人工智能的竞争中脱颖而出。

要想让基础架构团队最大限度地提高GPU/CPU的可见性和内存消耗从而提高利用率,基本上是没有万全之策。尽管业界正在迅速构建更高效的硬件和软件来解决计算债务的威胁,但仍然任重而道远。很多公司花费了几百万美元在计算上,而这些计算并未被充分利用。

通过使用现有资源并完善资源管理,公司可以使人工智能基础架构具有巨大的可扩展性。根据文章中的策略,你可以完全利用好计算资源。公司若专注于优化基础架构,将会看到辛苦付出得到更高的投资回报率,从而在竞争中获得优势。
责编AJX

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 计算
    +关注

    关注

    2

    文章

    458

    浏览量

    39835
  • AI
    AI
    +关注

    关注

    89

    文章

    38090

    浏览量

    296493
  • 人工智能
    +关注

    关注

    1813

    文章

    49734

    浏览量

    261472
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136230
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    华为发布AI容器技术Flex:ai,算力平均利用率提升30%

    电子发烧友网综合报道 2025年11月21日,在上海举办的“2025 AI容器应用落地与发展论坛”上,华为正式发布并开源了创新AI容器技术Flex:ai,为解决算力资源
    的头像 发表于 11-26 08:31 7109次阅读

    成本AI边缘计算盒子DIY:基于迅为RK3568和开源模型,轻松玩转智能识别

    成本AI边缘计算盒子DIY:基于迅为RK3568和开源模型,轻松玩转智能识别
    的头像 发表于 11-12 13:42 1283次阅读
    低<b class='flag-5'>成本</b><b class='flag-5'>AI</b>边缘<b class='flag-5'>计算</b>盒子DIY:基于迅为RK3568和开源模型,轻松玩转智能识别

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片到AGI芯片

    计算成本。 核心: MoE模型利用稀疏性驱动结构,通过包含多个专家网络的稀疏MoE层替换密集层,其中每个专家致力于特定的训练数据或任务的子集,并且一个可训练的门控机制动态地将输入标记分配给这些专家,从而
    发表于 09-18 15:31

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的未来:提升算力还是智力

    本章节作者分析了下AI的未来在哪里,就目前而言有来那个两种思想:①继续增加大模型②将大模型改为小模型,并将之优化使之与大模型性能不不相上下。 一、大模型是一条不可持续发展的道路 大模型的不可
    发表于 09-14 14:04

    【「AI芯片:科技探索与AGI愿景」阅读体验】+第二章 实现深度学习AI芯片的创新方法与架构

    的同时,能够利用更小、更快的数字格式,提升模型的整体性能。 1.3Transformer 模型中的矩阵乘法计算 2、存内计算AI芯片 存内计算
    发表于 09-12 17:30

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片的需求和挑战

    ②Transformer引擎③NVLink Switch系统④机密计算⑤HBM FPGA: 架构的主要特点:可重构逻辑和路由,可以快速实现各种不同形式的神经网络加速。 ASIC: 介绍了几种ASIC AI芯片
    发表于 09-12 16:07

    【「AI芯片:科技探索与AGI愿景」阅读体验】+可期之变:从AI硬件到AI湿件

    生物化学计算机,它通过离子、分子间的相互作用来进行复杂的并行计算。因而未来可期的前景是AI硬件将走向AI湿件。 根据研究,估算出大脑的功率是20W,在进行智力活动时,其功率会增大到25
    发表于 09-06 19:12

    【「AI芯片:科技探索与AGI愿景」阅读体验】+内容总览

    、集成芯片、分子器件与分子忆阻器,以及打印类脑芯片等。 第五章至第八章分别探讨用化学或生物方法实现AIAI在科学发现中创新应用、实现神经形态计算与类脑芯片的
    发表于 09-05 15:10

    【书籍评测活动NO.64】AI芯片,从过去走向未来:《AI芯片:科技探索与AGI愿景》

    创新、应用创新、系统创新五个部分,接下来一一解读。 算法创新 在深度学习AI芯片的创新上,书中围
    发表于 07-28 13:54

    Axelera AI:边缘计算加速智能创新解决方案

    随着人工智能技术的不断发展,边缘计算(EdgeComputing)已成为企业创新与数字化转型的重要引擎。如何在有限的计算资源下,实现高速且精确的AI推理任务,是企业面临的主要挑战之一
    的头像 发表于 07-17 11:00 1094次阅读
    Axelera <b class='flag-5'>AI</b>:边缘<b class='flag-5'>计算</b>加速智能<b class='flag-5'>创新</b>解决方案

    Deepseek海思SD3403边缘计算AI产品系统

    海思SD3403边缘计算AI框架,提供了一套开放式AI训练产品工具包,解决客户低成本AI系统,针对差异化
    发表于 04-28 11:05

    Banana Pi 发布 BPI-AI2N &amp; BPI-AI2N Carrier,助力 AI 计算与嵌入式开发

    RZ/V2N——近期在嵌入式世界2025上新发布,为 AI 计算、嵌入式系统及工自动化提供强大支持。这款全新的计算平台旨在满足开发者和企业用户对高性能、低功耗和灵活扩展的需求。 []() 领先的
    发表于 03-19 17:54

    Banana Pi 与瑞萨电子携手共同推动开源创新:BPI-AI2N

    创新应用。 ** 核心产品介绍** Banana Pi BPI-AI2N 核心板基于瑞萨最新的 RZ/V2N 处理器,搭载 4 核 Arm® Cortex®-A55(1.8GHz)与 Cortex
    发表于 03-12 09:43

    FPGA+AI王炸组合如何重塑未来世界:看看DeepSeek东方神秘力量如何预测......

    的发展,加速创新和降低成本。 总之,FPGA与AI的结合正在重塑芯片生态,推动技术融合、应用拓展和产业变革。未来,FPGA将在AI加速、边缘计算
    发表于 03-03 11:21

    AI云端计算资源的多维度优势

    AI云端计算资源,作为AI技术与云计算深度融合的产物,在成本效益、性能优化、数据安全、灵活扩展以及创新
    的头像 发表于 01-07 11:11 838次阅读