0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

实践经验:在深度学习中喂饱GPU

DPVg_AI_era 来源:lq 2019-09-13 17:07 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

深度学习模型训练是不是大力出奇迹,显卡越多越好?非也,没有512张显卡,也可以通过一些小技巧优化模型训练。本文作者分析了他的实践经验。

前段时间训练了不少模型,发现并不是大力出奇迹,显卡越多越好,有时候 1 张 v100 和 2 张 v100 可能没有什么区别,后来发现瓶颈在其他地方,写篇文章来总结一下自己用过的一些小 trick,最后的效果就是在 cifar 上面跑 vgg 的时间从一天缩到了一个小时,imagenet 上跑 mobilenet 模型只需要 2 分钟每个 epoch。(文章末尾有代码啦)

先说下跑 cifar 的时候,如果只是用 torchvision 的 dataloader (用最常见的 padding/crop/flip 做数据增强) 会很慢,大概速度是下面这种,600 个 epoch 差不多要一天多才能跑完,并且速度时快时慢很不稳定。

我最初以为是 IO 的原因,于是挂载了一块内存盘,改了一下路径接着用 torchvision 的 dataloader 来跑,速度基本没啥变化。。。

然后打开资源使用率看了下发现 cpu 使用率几乎已经满了(只能申请 2cpu 和一张 v100...),但是 gpu 的使用率非常低,这基本可以确定瓶颈是在 cpu 的处理速度上了。

后来查了一些资料发现 nvidia 有一个库叫 dali 可以用 gpu 来做图像的前处理,从输入,解码到 transform 的一整套 pipeline,看了下常见的操作比如 pad/crop 之类的还挺全的,并且支持 pytorch/caffe/mxnet 等各种框架。

可惜在官方文档中没找到 cifar 的 pipeline,于是自己照着 imagenet 的版本写了个,最初踩了一些坑(为了省事找了个 cifar 的 jpeg 版本来解码,发现精度掉得很多还找不到原因,还得从 cifar 的二进制文件来读取),最后总归是达到了同样的精度,再来看一看速度和资源使用率,总时间直接从一天缩短为一小时,并且 gpu 使用率高了很多。

再说下 imagenet 的训练加速,最初也是把整个数据集拷到了挂载的内存盘里面(160g 大概够用了,从拷贝到解压完成大概 10 分钟不到),发现同样用 torchvision 的 dataloader 训练很不稳定,于是直接照搬了 dali 官方的 dataloader 过来,速度也是同样起飞 hhhh(找不到当时训练的图片了),然后再配合 apex 的混合精度和分布式训练,申请 4 块 v100,gpu 使用率可以稳定在 95 以上,8 块 v100 可以稳定在 90 以上,最后直接上到 16 张 v100 和 32cpu,大概也能稳定在 85 左右(看资源使用率发现 cpu 到顶了,不然估计 gpu 也能到 95 以上),16 块 v100 在 ImageNet 上跑 mobilenet 只需要 2 分钟每个 epoch。

写的 dataloader 放到了 github 上,我测试的精度跟 torchvision 的版本差不多,不过速度上会比 torchvision 快很多,后面有空也会写一些其他常用 dataloader 的 dali 版本放上去。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5105

    浏览量

    134488
  • 数据集
    +关注

    关注

    4

    文章

    1232

    浏览量

    26055
  • 深度学习
    +关注

    关注

    73

    文章

    5591

    浏览量

    123926

原文标题:在深度学习中喂饱GPU

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    汽车GPU是如何使用的?

    。我们从GPU汽车的应用场景及其具体需求出发,深入探讨了GPU对汽车行业发展的影响,并对未来趋势提出了关键判断。1、GPU计算在汽车
    的头像 发表于 12-03 14:45 7683次阅读
    汽车<b class='flag-5'>中</b>的<b class='flag-5'>GPU</b>是如何使用的?

    天合储能在系统安全设计与防爆防控方面的实践经验

    最新一期 BESS Basics 系列访谈,天合储能北美产品负责人 Mike Watson 深入探讨了基于《NFPA 69 标准》的储能系统爆炸风险综合防控策略,分享了天合储能在系统安全设计与防爆防控方面的实践经验与技术思考
    的头像 发表于 10-29 09:27 346次阅读

    自动驾驶Transformer大模型会取代深度学习吗?

    持续讨论。特别是自动驾驶领域,部分厂商开始尝试将多模态大模型(MLLM)引入到感知、规划与决策系统,引发了“传统深度学习是否已过时”的激烈争论。然而,从技术原理、算力成本、安全需求与实际落地路径等维度来看,Transforme
    的头像 发表于 08-13 09:15 3934次阅读
    自动驾驶<b class='flag-5'>中</b>Transformer大模型会取代<b class='flag-5'>深度</b><b class='flag-5'>学习</b>吗?

    FPGA机器学习的具体应用

    ,越来越多地被应用于机器学习任务。本文将探讨 FPGA 机器学习的应用,特别是加速神经网
    的头像 发表于 07-16 15:34 2646次阅读

    智芯公司与华北电力大学RISC-V MCU联合实践教学基地成立

    近日智芯公司与华北电力大学共建的“RISC-V MCU联合实践教学基地”和“大学生实习实践基地”双基地揭牌仪式在华电隆重举行,开启RISC-V芯片领域协同发展新篇章。此次合作深度融合华电的高校科研优势与智芯公司的企业工程
    的头像 发表于 07-07 18:20 916次阅读

    GPS时钟的精准之道:技术原理与长期稳定运行的实践经验

    现代时间同步领域,GPS时钟以其高精度和可靠性成为关键基础设施的重要组成部分。它的核心功能是通过接收卫星信号校准本地时间,确保毫秒级甚至微秒级的同步精度。然而,实际应用,许多因素可能影响其性能。本文将从技术原理与工程实践角度
    的头像 发表于 06-30 14:54 490次阅读
    GPS时钟的精准之道:技术原理与长期稳定运行的<b class='flag-5'>实践经验</b>

    研华工业AI Agent的发展态势及实践思考

    工业 4.0 风起云涌之际,AI Agent 产业化落地成为各界竞逐焦点。研华科技凭借深厚的行业积淀,勇于创新、积极探索,企业级工业 AI Agent 方面积累了扎实的实践经验。本期访谈邀请到研华
    的头像 发表于 06-23 09:31 827次阅读

    GPU架构深度解析

    GPU架构深度解析从图形处理到通用计算的进化之路图形处理单元(GPU),作为现代计算机不可或缺的一部分,已经从最初的图形渲染专用处理器,发展成为强大的并行计算引擎,广泛应用于人工智能
    的头像 发表于 05-30 10:36 1371次阅读
    <b class='flag-5'>GPU</b>架构<b class='flag-5'>深度</b>解析

    ARM Mali GPU 深度解读

    ARM Mali GPU 深度解读 ARM Mali 是 Arm 公司面向移动设备、嵌入式系统和基础设施市场设计的图形处理器(GPU)IP 核,凭借其异构计算架构、能效优化和生态协同,成为全球移动
    的头像 发表于 05-29 10:12 3062次阅读

    端子电流循环寿命试验机电子系统设计与实践经验

    一、引言 端子电流循环寿命试验机是评估电气连接器、开关触点等元件反复通断电流条件下耐久性能的关键设备。作为电子工程师,我有幸参与了多款此类设备的研发工作,本文将分享其中的电子系统设计经验实践心得
    的头像 发表于 05-15 08:58 448次阅读
    端子电流循环寿命试验机电子系统设计与<b class='flag-5'>实践经验</b>

    安世半导体全球化发展实践经验与前瞻思考

    此前,4月4日至6日,第28届哈佛大学中国论坛成功举办。闻泰科技半导体业务(安世半导体)董事长兼CEO张学政受邀出席,并在“智能时代的变革与未来”分论坛上发表精彩观点,与行业领袖共同探讨全球化、技术迭代与社会责任等议题,分享百年半导体公司全球化发展
    的头像 发表于 04-12 14:52 1433次阅读

    军事应用深度学习的挑战与机遇

    ,并广泛介绍了深度学习两个主要军事应用领域的应用:情报行动和自主平台。最后,讨论了相关的威胁、机遇、技术和实际困难。主要发现是,人工智能技术并非无所不能,需要谨慎应用,同时考虑到其局限性、网络安全威胁以及
    的头像 发表于 02-14 11:15 828次阅读

    电子工程师的电源设计经验分享

    作为一名电子工程师,电源设计一直是我在工作重点关注的领域。电源设计不仅需要扎实的理论基础,还需要丰富的实践经验。以下是我多年工作总结的一些经验: 一、电源设计的核心理念 电源设计的
    的头像 发表于 01-21 15:53 897次阅读

    AI自动化生产:深度学习质量控制的应用

    生产效率、保证产品质量方面展现出非凡的能力。阿丘科技「AI干货补给站」推出《AI自动化生产:深度学习质量控制的应用》文章,探讨深度
    的头像 发表于 01-17 16:35 1227次阅读
    AI自动化生产:<b class='flag-5'>深度</b><b class='flag-5'>学习</b><b class='flag-5'>在</b>质量控制<b class='flag-5'>中</b>的应用

    Triton编译器机器学习的应用

    1. Triton编译器概述 Triton编译器是NVIDIA Triton推理服务平台的一部分,它负责将深度学习模型转换为优化的格式,以便在NVIDIA GPU上高效运行。Triton编译器支持
    的头像 发表于 12-24 18:13 1646次阅读