0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

机器学习如何满足DNN推理的要求

lPCU_elecfans 来源:电子发烧友网 作者:电子发烧友网 2022-09-14 09:55 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网报道(文/周凯扬)10年前谷歌作为互联网巨头,就已经嗅到了机器学习的潜力,尤其是在深度神经网络(DNN)模型上。就拿语音识别这样的功能来说,如果要考虑到1亿安卓用户每天和手机对话三分钟这样的高并发情况,单单只靠CPU的话,他们需要将现有数据中心的规模扩大至两倍,才能满足DNN推理的要求。

但扩建数据中心是一个投入极高的工作,于是他们考虑用定制的特定域架构的硬件来减少完成推理任务的总拥有成本,而且又要能运行已经为CPU和GPU开发的应用。谷歌在2014年开启了TPUv1的项目,15个月后,全新的TPU硬件就已经应用到了谷歌的数据中心里,连带架构、编译器、测试和部署都全部更新了一遍。

那时GPU在推理这块的性能也还是超过CPU的,但TPU的出现改变了这个格局。与当时英特尔的Haswell CPU相比,TPUv1的能耗比有了80倍的提升,相较当时的英伟达Tesla K80 GPU,其能耗比也高达它的30倍。

8da5c3c4-33b8-11ed-ba43-dac502259ad0.png

每代TPU的性能指标 / 谷歌

谷歌此举引爆了整个市场,大家发现了还有除了CPU、GPU之外的方案。英特尔察觉后也收购了一系列深度学习DSA芯片公司,比如Nervana、Movidius、Mobileye和Habana。谷歌在云服务上的竞争对手们,阿里巴巴和亚马逊也开始打造自己的推理、训练芯片。能耗比之战下,大家很快也意识到机器学习带来的碳足迹成了下一个急需解决的问题。

碳足迹的反噬

根据去年在IEEE Spectrum上发布的《深度学习受益递减》一文中提到,随着机器学习的发展,到了2025年,最强的深度学习系统在ImageNet数据集中进行物体识别时,错误率最高只有5%。但训练这样一个系统所需要的算力和能耗都是庞大的,更糟糕的是,其排放的二氧化碳将是纽约市一整个月的排放量。

机器学习的碳排放可以被分为两种,一种是运营排放,也就是数据中心在运行机器学习硬件中产生的碳排放;第二种是整个生命周期内的排放,不仅包含运营排放,还包含了各个环节的碳排放,比如芯片制造、数据中心建造等等。考虑到后者涉及更加复杂的研究,所以大部分碳足迹的研究都集中在运营排放上。

至于如何记录碳排放,这也很简单,只需要将训练/推理的时长x处理器数量x每个处理器的平均功耗x PUE x 每千瓦时的二氧化碳排放即可。除了最后一项参数需要从数据中心那获取外,其他的数据基本都是公开,或取决于机器学习研究者自己的选择。

如何减少机器学习的碳足迹图灵奖得主、谷歌杰出工程师David Patterson教授对现有的机器学习的研究和工作提出了以下几点建议。首先,从模型开始着手,机器学习研究者需要继续开发效率更高的模型,比如谷歌去年发布的GLaM通用稀疏语言模型,相较GPT-3,它多出了7倍的参数,在自然语言推理等任务上都要优于GPT-3。但同样重要的是它的能耗和碳足迹指标,根据谷歌公布的数据,与使用V100的GPT-3相比,使用TPUv4的GLaM二氧化碳排放减少了14倍,可见模型对于碳足迹的影响。其次,在发布新模型的时候,他建议也把能耗和碳足迹这样的数据公开,这样有助于促进机器学习模型在质量上的良性竞争。

接着是硬件,他指出我们需要像TPUv4或者A100 GPU等,这类机器学习能效比更高的硬件。其实这一点反倒是最不需要担心的,这几乎是每个初创AI芯片公司都在尝试的做法,即便在峰值上不敌这些硬件,也绝对会在能效比上尽可能做大极致。

8de675fe-33b8-11ed-ba43-dac502259ad0.png

全球大规模数据中心的平均PUE / Uptime Institute

还有就是常见的能效衡量指标PUE,大型机器学习负载往往要在数据中心上运行,而要让数据中心的PUE接近1并不是一件简单的事。根据Uptime Institute的统计,各家厂商旗下最大数据中心的年度PUE为1.57,就连我国工信部印发的《新型数据中心发展三年行动计划(2021-2023)》中提出的最终目标也只是将新建大型数据中心PUE降低至1.3以下。但好在新建的数据中心往往都不会只满足于这个目标,而是往1.1乃至1.06这样的指标推进。

可这个指标并不是一个死数据,随着负载和用量的变动,PUE是在持续波动的,不少数据中心仅仅在建成时发布了能效指标,之后就再未公布过任何数据了。在这块做得最好的也还是谷歌,谷歌每年都会发布年度能效报告,将各个数据中心每个季度的PUE公布出来。

不过仅仅只有极低的PUE只能体现出高能耗比,David Patterson教授认为还必须一并公布每个地区数据中心的清洁能源占比。比如阿里巴巴首次发布的《2022阿里巴巴环境、社会和治理报告》中就提到了2021年,阿里巴巴在中国企业可再生能源购买者中排名第一,2022财年阿里云21.6%的电力来自清洁能源。

在双碳目标的提出下,我国其实已经落实到了机器学习的硬件上,但在软件和碳足迹透明度这方面还有可以改善的空间。机器学习要想做到消耗更低的算力来实现更优的效果,就必须从各个环节做到节能减排。

审核编辑:彭静
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • cpu
    cpu
    +关注

    关注

    68

    文章

    11218

    浏览量

    222968
  • 神经网络
    +关注

    关注

    42

    文章

    4827

    浏览量

    106803
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136236

原文标题:机器学习的双碳目标

文章出处:【微信号:elecfans,微信公众号:电子发烧友网】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    FPGA在机器学习中的具体应用

    随着机器学习和人工智能技术的迅猛发展,传统的中央处理单元(CPU)和图形处理单元(GPU)已经无法满足高效处理大规模数据和复杂模型的需求。FPGA(现场可编程门阵列)作为一种灵活且高效的硬件加速平台
    的头像 发表于 07-16 15:34 2637次阅读

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    学习、大规模数据分析等前沿技术。DeepSeek-R1具备卓越的逻辑推理、多模态分析(文本/图像/语音)和实时交互能力,能够高效处理代码生成、复杂问题求解、跨模态学习等高阶任务。凭借其开源、高效、多
    发表于 07-16 15:29

    Aux-Think打破视觉语言导航任务的常规推理范式

    视觉语言导航(VLN)任务的核心挑战,是让机器人在复杂环境中听懂指令、看懂世界,并果断行动。我们系统性地引入推理任务,探索其在导航策略学习中的作用,并首次揭示了VLN中的“推理崩塌”现
    的头像 发表于 07-08 10:00 438次阅读
    Aux-Think打破视觉语言导航任务的常规<b class='flag-5'>推理</b>范式

    大模型推理显存和计算量估计方法研究

    过程中需要占用大量显存,导致推理速度变慢,甚至无法进行。 计算量过大:大模型的计算量较大,导致推理速度慢,难以满足实时性要求。 为了解决这些问题,本文将针对大模型
    发表于 07-03 19:43

    边缘计算中的机器学习:基于 Linux 系统的实时推理模型部署与工业集成!

    你好,旅行者!欢迎来到Medium的这一角落。在本文中,我们将把一个机器学习模型(神经网络)部署到边缘设备上,利用从ModbusTCP寄存器获取的实时数据来预测一台复古音频放大器的当前健康状况。你将
    的头像 发表于 06-11 17:22 786次阅读
    边缘计算中的<b class='flag-5'>机器</b><b class='flag-5'>学习</b>:基于 Linux 系统的实时<b class='flag-5'>推理</b>模型部署与工业集成!

    详解 LLM 推理模型的现状

    2025年,如何提升大型语言模型(LLM)的推理能力成了最热门的话题之一,大量优化推理能力的新策略开始出现,包括扩展推理时间计算、运用强化学习、开展监督微调和进行提炼等。本文将深入探讨
    的头像 发表于 04-03 12:09 1249次阅读
    详解 LLM <b class='flag-5'>推理</b>模型的现状

    新品 | Module LLM Kit,离线大语言模型推理模块套装

    ●●●PART.01产品简介ModuleLLMKit是一款专注于离线AI推理与数据通信接口应用的智能模块套件,整合了ModuleLLM与Module13.2LLMMate模块,满足多场景下的离线AI
    的头像 发表于 03-28 18:49 895次阅读
    新品 | Module LLM Kit,离线大语言模型<b class='flag-5'>推理</b>模块套装

    使用OpenVINO™进行推理时的内存泄漏怎么解决?

    使用 OpenVINO™ 进行推理时,内存会随着时间的推移而增加,并导致程序崩溃。
    发表于 03-06 08:29

    为什么深度学习中的Frame per Second高于OpenVINO™演示推理脚本?

    在 DL Workbench 上使用 Microsoft 通用对象上下文 (MS COCO) 数据集运行 YOLOv4 对象检测模型,并获得 50 - 60 FPS。 OpenVINO™演示推理脚本运行,并获得更高的 FPS。
    发表于 03-06 07:27

    机器学习模型市场前景如何

    当今,随着算法的不断优化、数据量的爆炸式增长以及计算能力的飞速提升,机器学习模型的市场前景愈发广阔。下面,AI部落小编将探讨机器学习模型市场的未来发展。
    的头像 发表于 02-13 09:39 625次阅读

    使用NVIDIA推理平台提高AI推理性能

    NVIDIA推理平台提高了 AI 推理性能,为零售、电信等行业节省了数百万美元。
    的头像 发表于 02-08 09:59 1328次阅读
    使用NVIDIA<b class='flag-5'>推理</b>平台提高AI<b class='flag-5'>推理</b>性能

    嵌入式机器学习的应用特性与软件开发环境

    设备和智能传感器)上,这些设备通常具有有限的计算能力、存储空间和功耗。本文将您介绍嵌入式机器学习的应用特性,以及常见的机器学习开发软件与开发环境。 嵌入式
    的头像 发表于 01-25 17:05 1214次阅读
    嵌入式<b class='flag-5'>机器</b><b class='flag-5'>学习</b>的应用特性与软件开发环境

    传统机器学习方法和应用指导

    在上一篇文章中,我们介绍了机器学习的关键概念术语。在本文中,我们会介绍传统机器学习的基础知识和多种算法特征,供各位老师选择。 01 传统机器
    的头像 发表于 12-30 09:16 1982次阅读
    传统<b class='flag-5'>机器</b><b class='flag-5'>学习</b>方法和应用指导

    如何选择云原生机器学习平台

    当今,云原生机器学习平台因其弹性扩展、高效部署、低成本运营等优势,逐渐成为企业构建和部署机器学习应用的首选。然而,市场上的云原生机器
    的头像 发表于 12-25 11:54 700次阅读

    《具身智能机器人系统》第7-9章阅读心得之具身智能机器人与大模型

    医疗领域,手术辅助机器人需要毫米级的精确控制,书中有介绍基于视觉伺服的实时控制算法,以及如何利用大模型优化手术路径规划。工业场景中,协作机器人面临的主要挑战是快速适应新工艺流程。具身智能通过在线学习
    发表于 12-24 15:03