0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

什么是最好的深度学习GPU?分析几款目前最优秀的GPU

zhKF_jqr_AI 来源:未知 作者:李倩 2018-10-18 09:47 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

编者按:8月份时候,我们曾出过一篇深度学习显卡选型指南,由于当时新显卡还没发售,文章只能基于新一代创新做一些推测性分析,对读者来说,这样的结果可能太晦涩,也不够直观。今天,论智就给大家带来了另一篇更具说服力的文章,它来自人工智能硬件公司Lambda,主要对比分析了RTX 2080 Ti、RTX 2080、GTX 1080 Ti、Titan V和Tesla V100的成本、价格差异。

在深度学习实践中,很多人会经常问一个问题:什么是最好的深度学习GPU?在这篇文章中,我们将主要分析以下几款目前最优秀的GPU:

RTX 2080 Ti

RTX 2080

GTX 1080 Ti

Titan V

Tesla V100

为了从中挑选出最佳GPU,我们会从定价、性能两个维度对它们进行分析。

实验结果

根据全面定性定量的实验结果,截至2018年10月8日,NVIDIA RTX 2080 Ti是现在最好的深度学习GPU(用单个GPU运行Tensoflow)。以单GPU系统的性能为例,对比其他GPU,它的优劣分别是:

FP32时,速度比1080 Ti快38%;FP16时,快62%。在价格上,2080 Ti比1080 Ti贵25%

FP32时,速度比2080快35%;FP16时,快47%。在价格上,2080 Ti比2080贵25%

FP32时,速度是Titan V的96%;FP16时,快3%。在价格上,2080 Ti是Titan V的1/2

FP32时,速度是Tesla V100的80%;FP16时,是Tesla V100的82%。在价格上,2080 Ti是Tesla V100的1/5

请注意,所有实验都使用Tensor Core(可用时),并且完全按照单个GPU系统成本计算。

深入分析

实验中,所有GPU的性能都是通过在合成数据上训练常规模型,测量FP32和FP16时的吞吐量(每秒处理的训练样本数)来进行评估的。为了标准化数据,同时体现其他GPU相对于1080 Ti的提升情况,实验以1080 Ti的吞吐量为基数,将其他GPU吞吐量除以基数计算加速比,这个数据是衡量两个系统间相对性能的指标。

训练不同模型时,各型号GPU的吞吐量

对上图数据计算平均值,同时按不同浮点计算能力进行分类,我们可以得到:

FP16时各GPU相对1080 Ti的加速比

FP32时各GPU相对1080 Ti的加速比

可以发现,2080的模型训练用时和1080 Ti基本持平,但2080 Ti有显著提升。而Titan V和Tesla V100由于是专为深度学习设计的GPU,它们的性能自然会比桌面级产品高出不少。最后,我们再将每个GPU的平均加速情况除以各自总成本:

FP16时各GPU相对1080 Ti的每美元加速情况

FP32时各GPU相对1080 Ti的每美元加速情况

根据这个评估指标,RTX 2080 Ti是所有GPU中最物有所值的。

2080 Ti vs V100:2080 Ti真的那么快吗?

可能有人会有疑问,为什么2080 Ti的速度能达到Tesla V100的80%,但它的价格只是后者的八分之一?答案很简单,NVIDIA希望细分市场,以便那些有足够财力的机构/个人继续购买Tesla V100(约9800美元),而普通用户则可以选择在自己价格接受范围内的RTX和GTX系列显卡——它们的性价比更高。

除了AWS、Azure和Google Cloud这样的云服务商,个人和机构可能还是买2080 Ti更划算。但这不是说亚马逊、微软、Google这些公司“人傻钱多”,Tesla V100确实有一些其他GPU所没有的重要功能:

如果你需要FP64计算。如果你的研究领域是计算流体力学、N体模拟或其他需要高数值精度(FP64)的工作,那么你就得购买Titan V或V100s。

如果你对32 GB的内存有极大需求(比如11G的内存都不够存储模型的1个batch)。这类情况很少见,它面向的是想创建自己的模型体系架构的用户。而大多数人使用的都是像ResNet、VGG、Inception、SSD或Yolo这样的东西,这些人的占比可能不到5%。

面对2080 Ti,为什么还会有人买Tesla V100?这就是NVIDIA做生意的高明之处。

2080 Ti是保时捷911,V100是布加迪威龙

V100有点像布加迪威龙,它是世界上最快的、能在公路上合法行驶的车,同时价格也贵得离谱。如果你不得不担心它的保险和维修费,那你肯定买不起这车。另一方面,RTX 2080 Ti就像一辆保时捷911,它速度非常快,操控性好,价格昂贵,但在炫耀性上就远不如前者。

毕竟如果你有买布加迪威龙的钱,你可以买一辆保时捷,外加一幢房子、一辆宝马7系、送三个孩子上大学和一笔客观的退休金。

原始性能数据

FP32吞吐量

FP32(单精度)算法是训练CNN时最常用的精度。以下是实验中的具体吞吐量数据:

FP16吞吐量(Sako)

FP16(半精度)算法足以训练许多网络,这里实验用了Yusaku Sako基准脚本:

FP32(Sako)

FP16时训练加速比(以1080 Ti为基准)

FP32时训练加速比(以1080 Ti为基准)

价格表现数据(加速/$1,000)FP32

价格表现数据(加速/$1,000)FP16

实验方法

所有模型都在合成数据集上进行训练,这能将GPU性能与CPU预处理性能有效隔离开来。

对于每个GPU,对每个模型进行10次训练实验。测量每秒处理的图像数量,然后在10次实验中取平均值。

计算加速基准的方法是获取的图像/秒吞吐量除以该特定模型的最小图像/秒吞吐量。这基本上显示了相对于基线的百分比改善(在本实验中基准为1080 Ti)。

2080 Ti、2080、Titan V和V100基准测试中考虑到了Tensor Core。

实验中使用的batch size

此外,实验还有关于硬件、软件和“什么是典型的单GPU系统”的具体设置,力求尽量还原普通用户的模型训练环境,充分保障了结果的准确性。相信看到这里,结合之前那篇长文,大家已经对该买什么GPU有了清楚认识,祝各位剁手愉快!

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5324

    浏览量

    136219
  • 人工智能
    +关注

    关注

    1821

    文章

    50523

    浏览量

    267791
  • 深度学习
    +关注

    关注

    73

    文章

    5614

    浏览量

    124759

原文标题:TensorFlow GPU基准测试:2080 Ti vs V100 vs 1080 Ti vs Titan V

文章出处:【微信号:jqr_AI,微信公众号:论智】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    内存要取代GPU?HBM之父警告:以英伟达GPU为核心的架构要被颠覆

    主板和CPU成为了主角。   而最近“HBM之父”金正浩教授也语出惊人,提出未来内存将成为主角:“GPU和CPU将会被集成到内存(HBM和HBF)里,沦为内存中的一个组件”。   倒反天罡,在内存里装GPU?   目前AI计算的
    的头像 发表于 04-03 09:54 7383次阅读
    内存要取代<b class='flag-5'>GPU</b>?HBM之父警告:以英伟达<b class='flag-5'>GPU</b>为核心的架构要被颠覆

    GPU云服务器哪家强?深度学习与AI训练性能实测

    进入2026年,AI大模型已从“百模大战”转向“应用爆发”。无论是进行大语言模型的微调、文生视频的渲染,还是复杂的自动驾驶仿真,GPU云服务器已成为企业的核心生产力工具。 然而,GPU服务器动辄
    的头像 发表于 03-19 16:45 621次阅读

    如何在 VisionFive v2 上使用外部 GPU

    如果旧的 amd gpu 在 VisionFive V2 上运行,我想使用带有开源 amd 驱动程序的 amd gpu。我需要什么以及如何将 GPU 连接到 VisionFive v2?
    发表于 03-13 06:38

    FPGA+GPU异构混合部署方案设计

    为满足对 “纳秒级实时响应” 与 “复杂数据深度运算” 的双重需求,“FPGA+GPU”异构混合部署方案通过硬件功能精准拆分与高速协同,突破单一硬件的性能瓶颈 ——FPGA聚焦低延迟实时交易链路,GPU承接高复杂度数据处理任务,
    的头像 发表于 01-13 15:20 575次阅读

    NVIDIA RTX PRO 5000 Blackwell GPU深度评测

    NVIDIA RTX PRO 5000 Blackwell 是 NVIDIA RTX 5000 Ada Generation 的升级迭代产品,其各项核心指标均针对 GPU 加速工作流的高性能
    的头像 发表于 01-06 09:51 4938次阅读
    NVIDIA RTX PRO 5000 Blackwell <b class='flag-5'>GPU</b>的<b class='flag-5'>深度</b>评测

    汽车中的GPU是如何使用的?

    (HMI)的发展尤为迅猛。随着电子电气架构(EEA)的集中化,车辆对高性能计算能力的需求显著提升,GPU(图形处理单元)的灵活性、可扩展性以及高效并行计算能力,使其成为支持这些创新应用的核心组件
    的头像 发表于 12-03 14:45 9772次阅读
    汽车中的<b class='flag-5'>GPU</b>是如何使用的?

    如何看懂GPU架构?一分钟带你了解GPU参数指标

    分析GPU核心参数体系:算力、显存大小、显存带宽、热门架构特性等关键指标,旨在帮您理解不同应用场景下,如何选择最合适的GPU算力解决方案。1、算力GPU执行浮点运算
    的头像 发表于 10-09 09:28 1701次阅读
    如何看懂<b class='flag-5'>GPU</b>架构?一分钟带你了解<b class='flag-5'>GPU</b>参数指标

    NVIDIA桌面GPU系列扩展新产品

    NVIDIA 桌面 GPU 系列扩展,推出 NVIDIA RTX PRO 4000 SFF Edition GPU 和 RTX PRO 2000 Blackwell GPU,可提高工程、内容创作和 3D 可视化等应用的性能。
    的头像 发表于 08-18 11:50 1753次阅读

    aicube的n卡gpu索引该如何添加?

    请问有人知道aicube怎样才能读取n卡的gpu索引呢,我已经安装了cuda和cudnn,在全局的py里添加了torch,能够调用gpu,当还是只能看到默认的gpu0,显示不了gpu1
    发表于 07-25 08:18

    如何在Ray分布式计算框架下集成NVIDIA Nsight Systems进行GPU性能分析

    在大语言模型的强化学习训练过程中,GPU 性能优化至关重要。随着模型规模不断扩大,如何高效地分析和优化 GPU 性能成为开发者面临的主要挑战之一。
    的头像 发表于 07-23 10:34 2670次阅读
    如何在Ray分布式计算框架下集成NVIDIA Nsight Systems进行<b class='flag-5'>GPU</b>性能<b class='flag-5'>分析</b>

    别让 GPU 故障拖后腿,捷智算GPU维修室来救场!

    在AI浪潮汹涌的当下,GPU已然成为众多企业与科研机构的核心生产力。从深度学习模型训练,到影视渲染、复杂科学计算,GPU凭借强大并行计算能力,极大提升运算效率。然而,就像高速运转的精密
    的头像 发表于 07-17 18:56 1391次阅读
    别让 <b class='flag-5'>GPU</b> 故障拖后腿,捷智算<b class='flag-5'>GPU</b>维修室来救场!

    【「算力芯片 | 高性能 CPU/GPU/NPU 微架构分析」阅读体验】+NVlink技术从应用到原理

    自家GPU 提出的多卡算力互连技术,是早期为了应对深度学习对超高算力需求而单卡算力不足的局面的解决方案,当然这都是官方用来吹牛的话术。我自己在2019年左右第一次接触到多卡交火的GIY玩法(从学生到
    发表于 06-18 19:31

    GPU架构深度解析

    GPU架构深度解析从图形处理到通用计算的进化之路图形处理单元(GPU),作为现代计算机中不可或缺的一部分,已经从最初的图形渲染专用处理器,发展成为强大的并行计算引擎,广泛应用于人工智能、科学计算
    的头像 发表于 05-30 10:36 2086次阅读
    <b class='flag-5'>GPU</b>架构<b class='flag-5'>深度</b>解析

    ARM Mali GPU 深度解读

    ARM Mali GPU 深度解读 ARM Mali 是 Arm 公司面向移动设备、嵌入式系统和基础设施市场设计的图形处理器(GPU)IP 核,凭借其异构计算架构、能效优化和生态协同,成为全球移动
    的头像 发表于 05-29 10:12 5159次阅读