电子发烧友网 > 控制/MCU > 正文

深度学习服务器组装经验过程分享

2018年08月31日 09:20 次阅读

本文作者详细描述了自己组装深度学习服务器的过程,从 CPUGPU、主板、电源、机箱等的选取到部件的安装,再到服务器的设置,可谓面面俱到。作者指出,组装者首先要弄清自己的需求,然后根据预算做出合理的选择。

我刚开始学习 fast.ai 课程的第一部分——“Practical Deep Learning for Coders”,我想搭建自己的服务器来训练模型,作为使用 AWS p2 和存储的升级。我将会使用更大的数据集,并且我不希望在训练模型时因为缺乏足够的处理能力而等待数小时,因此构建自己的 DL rig 服务器对我来说是一个不错的选择,而且从长远来看,它将为我节省大量的时间和金钱,而且可以积累组装服务器的良好经验。

组装

列出部件清单

在准备部件之前,你要弄清楚自己到底想从机器中得到什么。个人而言,我想获得以下改进:

比 Amazon p2 更加强大

容纳额外 GPU、RAM、存储及定制液体冷却的空间

可以用很久的硬件

预算控制在 3000 美元左右

我用 pcpartpicker.com来细化各个部件,因为它可以将对比和组装其它部件变得非常简单,而且还具备很不错的部件兼容性检查器。我将详细解释选择每个部件的原因以及它们如何与整个系统协同工作。

GPU: GTX 1080 TI Hybrid

因为你要使用显卡来训练模型,所以这是组装过程中最重要的一部分,因此,GPU 越强大,你处理大型数据集的速度就越快。GPU 内存越大,处理能力也就越强(如:训练速度更快,批尺寸更大……)。我为自己的服务器选了两块这种显卡,因为我在预算里为它们预留了空间,这样我就能用其中一块显卡训练模型,让另一个用户在第二块卡上训练其模型。你可以根据自己的预算缩减 GPU 内存(1070、1060 等),防止与其它部件争抢预算。Hybrid 1080 GPU 也不错,因为除了大多数 GPU 具有的正常风扇冷却之外,它还预装了 aio 水冷系统。1080 TI 在满负载运行时会过热,因此,在训练模型时,良好的冷却系统对于延长显卡寿命并保持其性能至关重要。关于显卡选择的更多细节,请参见 ,该文帮助我真正了解了如何选择适合深度学习环境的显卡。

CPU: AMD Threadripper 1900x

虽然你用显卡训练神经网络,但 CPU 依然很重要,因为你要用它来进行数据准备等操作,因此那些多核 CPU 将有助于加快速度。我用的是“线程撕裂者”Treadripper,因为这是市面上非常新的一款多核 CPU(ThreadRipper 2 代有 32 个内核!),而且比因特尔价格低得多。1900x 是去年发布的基础版 TR,它只有 8 个内核,不过我对这台服务器的整体目标是保持它的可升级性。

需要注意的一点是,在选择 CPU 时,要确保有 8 或 16 个 pcie 插槽供显卡使用,这样才能保证它们在低负载下发挥最好的性能,否则就有堵塞系统的风险。在高端 CPU 上,如果你的服务器中有 4 个显卡,那么你就有足够的 pcie 插槽。

主板:MSI X399 SLI Plus

选择这块主板是因为它是一块完整的 ATX 板,可容纳 4 个 GPU,RAM 最多可达 128GB。正如我前面所说,这个服务器的主要目标之一是保持它可升级。

内存:32GB Corsair Vengeance LPX DDR4 (2 x 16GB)

内存越大,处理大型数据集就越容易。我的下一个升级计划是再添加两个 16GB RAM 内存条,这也是我没有安装四通道内存(4 个 8GB 内存条)的原因,尽管它会提高我的服务器的性能。

存储:256GB Samsung SSD & 2TB HDD

我把 Ubuntu、我的所有库、我在 SSD 上正在使用的数据集以及手里的其它所有数据都存在 2TB 的机械硬盘上。

冷却器:Corsair H100i v2 液体冷却器

“线程撕裂者”没有备用冷却器(如果你有 30 美元的余款,至少应该买一个便宜的二手冷却器),所以我想要一个可以全天候使用的、便宜又容易维护的冷却器。这款集各种优点于一身的冷却器非常容易安装,而且非常可靠(在数十万台机组中,可能只有一两台发生冷却液泄漏)、安静。

电源:EVGA SuperNOVA 1000w 80 + Gold CerTIfied

最好有一个功率超过技术要求的 PSU。PCPartpicker 的功率计算器能够大致算出你需要多大的功率(我的服务器是 824w),然而它经常在数量上出错,因此最好进行安全操作,以防你的计算机无法打开。“Gold CerTIfied”只是指 PSU 的效率(浪费了多少功率作为热量)。

机箱:Corsair 760T Full Tower

我选择这个机箱是因为它的价格和内部空间大小。虽然它并不能提高你的模型训练速度,但是透明的侧面板和红色的 LED 确实让你看起来更酷。

技术专区

关注电子发烧友微信

有趣有料的资讯及技术干货

下载发烧友APP

打造属于您的人脉电子圈

关注发烧友课堂

锁定最新课程活动及技术直播
收藏 人收藏
分享:

评论

相关推荐

光纤跳线与光纤尾纤到底有什么区别?

一、什么是跳线和尾纤?跳线是与桌面计算机或设备直接相连接的线缆,以方便设备的连接和管理,跳线有较厚的...

发表于 2018-08-30 18:05 337次阅读
光纤跳线与光纤尾纤到底有什么区别?

Intel发布公布了新的Xeon路线图,看其拥有...

今年第四季度,Intel将更新的Xeon Scalable(至强可扩展)家族,代号或者说架构为Cas...

发表于 2018-08-30 17:25 185次阅读
Intel发布公布了新的Xeon路线图,看其拥有...

针对CIMS系统中测试集的筛选问题进行研究

检入管理 CIMS 系统中的集合覆盖问题 SCP 研究方琼,邵瑾摘要:在图形处理芯片 GPU 芯片架...

发表于 2018-08-30 17:20 184次阅读
针对CIMS系统中测试集的筛选问题进行研究

九代酷睿多款CPU曝光 采用钎焊散热

Intel上一次为CPU用钎焊还要追溯到SNB平台(二代酷睿),不过,各路资料都指出,为了压住8核高...

发表于 2018-08-30 16:46 37次阅读
九代酷睿多款CPU曝光 采用钎焊散热

AIC公司推出新款服务器FB201-LX,了解其...

AIC公司宣布推出新款服务器FB201-LX,这是一款性能平衡的服务器,在NVMe驱动器,内存子系统...

发表于 2018-08-30 14:37 102次阅读
AIC公司推出新款服务器FB201-LX,了解其...

ADUCM360:请问如何用外部中断将CPU从睡眠模式唤醒?

发表于 2018-08-30 11:49 11次阅读
ADUCM360:请问如何用外部中断将CPU从睡眠模式唤醒?

腾讯云客户“数据丢失”,该如何有效的预防丢失数据...

随着近年来云计算、云应用的技术创新和大幅普及,其安全问题也备受关注。然而,在国内公有云市场份额排名第...

发表于 2018-08-30 11:42 507次阅读
腾讯云客户“数据丢失”,该如何有效的预防丢失数据...

提供真正图形性能的移动平台GPU

作者:Benny Har-Even 虽然现在大多数人对于使用智能手机玩游戏习以为常,但是对于稍有记忆...

发表于 2018-08-30 09:53 539次阅读
提供真正图形性能的移动平台GPU

三重压缩技术应对PowerVR图片方案

作者:Robin Britton 由于屏幕分辨率的提高以及越来越复杂的渲染管道,使得游戏和其他应用对...

发表于 2018-08-30 09:48 299次阅读
三重压缩技术应对PowerVR图片方案

聊聊原子变量、锁、内存屏障那点事(1)

首先是现代编译器的代码优化和编译器指令重排可能会影响到代码的执行顺序。编译期指令重排是通过调整代码中...

发表于 2018-08-30 08:20 109次阅读
聊聊原子变量、锁、内存屏障那点事(1)

GPU助力列车开启自主运输的先河!

如今,列车专职人员已开始利用互联网、精密的传感设备,以及日益普及的 GPU 驱动深度学习等工具与技术...

发表于 2018-08-29 17:19 196次阅读
GPU助力列车开启自主运输的先河!

全球首款商用的7nm工艺的麒麟980处理器会超越...

不久前华为余承东曾公开表示,将在IFA展会上正式发布全球首款商用的7nm工艺SoC芯片——麒麟980...

发表于 2018-08-29 16:19 581次阅读
全球首款商用的7nm工艺的麒麟980处理器会超越...

系统调用问题

发表于 2018-08-29 16:18 20次阅读
系统调用问题

8K的优点有哪些?如何突破8K瓶颈?

对于普通家用,4K视频分辨率越来越受到欢迎。但在专业领域,真正的焦点在于8K。

发表于 2018-08-29 16:08 123次阅读
8K的优点有哪些?如何突破8K瓶颈?

2018年上半年全球半导体营收TOP15

2018年上半年全球半导体前十五大企业营收额为1823.33亿美元,同比增长24.0%,占到上半年全...

发表于 2018-08-29 16:02 271次阅读
2018年上半年全球半导体营收TOP15

光鲜成绩背后,英特尔发展的奠基人

鲜为人知的是,这些光鲜成绩背后,离不开一位华人的付出——他就是英特尔前资深副总裁虞有澄。

发表于 2018-08-29 14:39 385次阅读
光鲜成绩背后,英特尔发展的奠基人

浅析人工智能如何将芯片行业去商品化?

从计算的早期开始,人们就一直认为人工智能有朝一日会改变这个世界。几十年来,我们已经看到无数流行文化参...

发表于 2018-08-29 14:10 341次阅读
浅析人工智能如何将芯片行业去商品化?

在28377D技术手册中2.7.3.7 CPU Timer2 Clock (TIMER2CLK)节中“In most applications, timer 2 will run off of the SYSCLK.”是什么意思

发表于 2018-08-29 11:05 55次阅读
在28377D技术手册中2.7.3.7 CPU Timer2 Clock (TIMER2CLK)节中“In most applications, timer 2 will run off of the SYSCLK.”是什么意思

为什么说单片机会成为深度学习最肥沃的土壤

除此之外,皮特有个新的想法要和大家分享 他坚定地相信,未来的深度学习能够在微型的、低功耗的芯片上自由...

发表于 2018-08-29 10:55 267次阅读
为什么说单片机会成为深度学习最肥沃的土壤

AMD公布“全球第一块7nmGPU”,现已出货

目前,7nm VEGA GPU是全球第一个使用7nm工艺的GPU,现在已经开始样品出货,预计在今年下...

发表于 2018-08-29 10:48 544次阅读
AMD公布“全球第一块7nmGPU”,现已出货

STM8单片机中断的主要功能解析

内部中断:一般是由硬件错误或者运算过程中出错引起的,一般是不可避免的; 外部中断:是处理器的外设发出...

发表于 2018-08-29 10:35 42次阅读
STM8单片机中断的主要功能解析

Intel宣布更新8代酷睿CPU阵容,纳入U系W...

8月29日早间消息,Intel今晨宣布更新8代酷睿CPU阵容,代号Whiskey Lake和Ambe...

发表于 2018-08-29 10:23 365次阅读
Intel宣布更新8代酷睿CPU阵容,纳入U系W...

CPU芯片的几种封装技术详解

发表于 2018-08-29 10:20 22次阅读
CPU芯片的几种封装技术详解

处理器级别漏洞会引起哪些安全隐患

处理器级别漏洞一般可以影响整个云计算基础设施的发展历史,cpu本身的架构同时也面临着严峻的考验。在看...

发表于 2018-08-29 10:20 35次阅读
处理器级别漏洞会引起哪些安全隐患

为何说计算机视觉已经成为新时代风向标

目前,人工智能,机器学习,深度学习,计算机视觉等已经成为新时代的风向标。 这篇文章主要介绍了下面几点...

发表于 2018-08-29 09:49 540次阅读
为何说计算机视觉已经成为新时代风向标

基于PMBus接口的高密度降压转换器PMP11140参考设计

发表于 2018-08-29 09:15 164次阅读
基于PMBus接口的高密度降压转换器PMP11140参考设计

RISC-V是真的免费吗?RISC-V芯片到底有...

RISC-V仅仅是一套精简指令集的定义,开源的意思是任何人都可以免费获得指令集,并且自己去实现指令集...

发表于 2018-08-29 09:00 54次阅读
RISC-V是真的免费吗?RISC-V芯片到底有...

AI芯片大战后,ARM的“just enough...

最近,ARM进一步公开了ML Procesor的一些信息。EETimes的文章“Arm Gives ...

发表于 2018-08-29 08:55 63次阅读
AI芯片大战后,ARM的“just enough...

CISC和RISC是什么,二者有何区别?

RISC(reduced instruction set computer,精简指令集计算机)是一种...

发表于 2018-08-29 08:45 38次阅读
CISC和RISC是什么,二者有何区别?

芯科科技光模块利器预置I2C Bootloade...

Silicon Labs(亦称芯科科技)在全系列EFM8 8位MCU出厂时预置带I2C、UART或U...

发表于 2018-08-28 18:38 546次阅读
芯科科技光模块利器预置I2C Bootloade...

NVIDIA的GPU架构:Turing架构

领先的软件提供商们打造了诸多重要的应用,让我们能够借以设计所用的产品、驾驶的汽车、观看的电影,并让科...

发表于 2018-08-28 16:14 257次阅读
NVIDIA的GPU架构:Turing架构

AMD将聚焦7nm工艺 每瓦性能将提升至2倍

8月28日早间消息,AMD宣布将聚焦7nm工艺,扩大其在高性能领域的优势。

发表于 2018-08-28 11:58 64次阅读
AMD将聚焦7nm工艺 每瓦性能将提升至2倍

国产CPU性能接近i3处理器,与英特尔i5看齐

上海兆芯先前开发出的CPU已经与英特尔第六代i3处理器相当,下一步将採用16纳米制程,目标是与英特尔...

发表于 2018-08-28 11:46 462次阅读
国产CPU性能接近i3处理器,与英特尔i5看齐

CPU和主板都面临涨价 何时降价成未知数

有关注汇率行情的网友们应该也知道了,最近美元汇率最近在一点点地攀升,导致很多半导体产品都受此影响而在...

发表于 2018-08-28 11:00 166次阅读
CPU和主板都面临涨价 何时降价成未知数

基于Linux平台上S3C2440的物流配送系统...

43620431

发表于 2018-08-28 10:07 444次阅读
基于Linux平台上S3C2440的物流配送系统...

英伟达发布GTX 20系列显卡,引入了光线追踪技...

据消息,英伟达在德国科隆发布了基于图灵架构的新一代显卡RTX家族,这是继GTX10系列之后最新一代的...

发表于 2018-08-27 17:52 565次阅读
英伟达发布GTX 20系列显卡,引入了光线追踪技...

英特尔工艺或将落后5至7年 AMD躺赢

随着AMD股价突破22美元,这意味着2018年以来AMD股价已经上涨100%,这投资收益率让那些买A...

发表于 2018-08-27 16:47 112次阅读
英特尔工艺或将落后5至7年 AMD躺赢

AMD两款新U参数曝光 将在惠普笔记本上首发

上周,AMD官宣了“Raven Ridge 2018”的首款产品Ryzen 7 2800H,将用于移...

发表于 2018-08-27 16:44 266次阅读
AMD两款新U参数曝光 将在惠普笔记本上首发

Turing架构NVIDIA Quadro® R...

NVIDIA参与展会并将在会上介绍率先采用全新Turing™ 架构的全球首款光线追踪GPU——NVI...

发表于 2018-08-27 16:16 313次阅读
Turing架构NVIDIA Quadro® R...

什么是cgroups?有什么作用?

cgroups (Control Groups) 是 Linux 内核提供的一种机制,这种机制可以根...

发表于 2018-08-27 11:35 214次阅读
什么是cgroups?有什么作用?

采用GPU驱动深度学习提高列车系统的安全性能

在机器学习、图像识别和 NVIDIA GPU 的助力下,列车即将开启自主运输的先河。

发表于 2018-08-27 09:06 558次阅读
采用GPU驱动深度学习提高列车系统的安全性能

网友晒i7-9700K跑分 水冷上了5.5GHz

本周,有欧洲零售商将i9-9900k/i7-9700K等上架,抢先开启预购,看起来,在升级到8核之后...

发表于 2018-08-26 10:33 123次阅读
网友晒i7-9700K跑分 水冷上了5.5GHz

AMD与Intel之间的战争

消息报道指2017年AMD在中国市场的营收同比增长高达58%,增速远超过竞争对手Intel的6%,而...

发表于 2018-08-25 11:52 622次阅读
AMD与Intel之间的战争

麒麟980和骁龙855争抢CPU之王 谁更有胜算...

在本月初的华为终端上半年业绩沟通会上,余承东透露华为将于柏林IFA大展上,全球首发商用7纳米工艺制程...

发表于 2018-08-25 10:33 601次阅读
麒麟980和骁龙855争抢CPU之王 谁更有胜算...

英特尔将对AMD使出终极武器 AMD如临大敌

做为半导体科技产业界的领导巨头,英特尔在过去几年间所面临的市场环境越来越严苛,除了在 AI 计算领域...

发表于 2018-08-25 10:18 537次阅读
英特尔将对AMD使出终极武器 AMD如临大敌

Arm首次发布CPU路线图,有着怎样的重大意义?

Arm今日公开自当前至2020年Arm终端事业部的CPU前瞻性路线图与计算性能数据,旨在展望未来基于...

发表于 2018-08-24 15:21 413次阅读
Arm首次发布CPU路线图,有着怎样的重大意义?

超300亿晶体管——3倍于最高端服务器CPU

因为财力和风险原因,这些厂商目前以小规模芯片为主,很贴近国内客户,只是因为时间关系开发工具还不成熟,...

发表于 2018-08-24 14:55 464次阅读
超300亿晶体管——3倍于最高端服务器CPU

工程师聊AI芯片,算法的实现什么时候成为问题了?

1谈算法不谈智能 IEEE协会首次在京举办研讨会的时候,中国自动化学会副理事长兼秘书长、中科院自动化...

发表于 2018-08-24 14:34 914次阅读
工程师聊AI芯片,算法的实现什么时候成为问题了?

基于QML进行界面开发

发表于 2018-08-24 11:39 27次阅读
基于QML进行界面开发

英伟达发布了最新的消费级显卡系列——GeForc...

和英伟达的一贯做法一样,市场上许多带有 GeForce RTX 名称的 GPU 不会由英伟达自己制造...

发表于 2018-08-24 10:18 368次阅读
英伟达发布了最新的消费级显卡系列——GeForc...

英伟达GPU惨遭专业矿机碾压,黄仁勋宣布砍掉加密货币业务!

发表于 2018-08-24 10:11 109次阅读
英伟达GPU惨遭专业矿机碾压,黄仁勋宣布砍掉加密货币业务!

深入分析GeForce RTX 20系列显卡值不...

那么如何选择适合你的 GPU 呢?本文作者 Tim Dettmers 是瑞士卢加诺大学信息学硕士,热...

发表于 2018-08-24 08:49 678次阅读
深入分析GeForce RTX 20系列显卡值不...

请问F28335外设中断可不可以不设置PIE模块然后产生中断?

发表于 2018-08-23 16:58 359次阅读
请问F28335外设中断可不可以不设置PIE模块然后产生中断?

高性能、低延迟、低成本的全闪存SAN磁盘阵列解决...

博通公司的技术营销和性能总监、FCIA总裁马克•琼斯(Mark Jones)表示:“在Atto Te...

发表于 2018-08-23 15:39 693次阅读
高性能、低延迟、低成本的全闪存SAN磁盘阵列解决...

PLC在江西某自来水厂中的应用

根据系统要求,本地控制采用西门子S7-200系列CPU,扩展奥越信EM277智能DP从站模块、其它奥...

发表于 2018-08-23 14:19 199次阅读
PLC在江西某自来水厂中的应用

微星无线B360评测 一天不关机耗电才0.5度

你是否曾经看中了一款非常漂亮的小机箱,只是因为自己的主板太大而不得不放弃?

发表于 2018-08-23 14:01 144次阅读
微星无线B360评测 一天不关机耗电才0.5度

PLC在隧道窑温度控制系统中的应用

陶瓷隧道窑炉生产线有:轻体燃气节能隧道窑、辊道窑、双窑道燃气节能窑等形式。 适用于蜂窝陶瓷、日用陶瓷...

发表于 2018-08-23 13:50 86次阅读
PLC在隧道窑温度控制系统中的应用

S7-200 PLC在江苏无锡某污水处理项目中实...

目前S7-200 PLC系统最大IO容量为128 DI/128 DO,32 AI/32 AO,如系统...

发表于 2018-08-23 13:35 127次阅读
S7-200 PLC在江苏无锡某污水处理项目中实...

西门子300CPU和奥越信300PLC在空气压缩...

空气压缩机作为气动控制系统的气源设备,其在运行过程中的稳定程度和可靠性直接关系到生产安全性。由于早期...

发表于 2018-08-23 11:49 130次阅读
西门子300CPU和奥越信300PLC在空气压缩...

台达ES2系列CPU、PLC在太阳能热水系统中的...

台达系列人机界面,台达ES2系列CPU、台达PT-E2系列温度控制模块,台达AD-E2系列模拟量转数...

发表于 2018-08-23 11:32 96次阅读
台达ES2系列CPU、PLC在太阳能热水系统中的...

锐龙2700和8700谁好 全方位对比评测

所以为了让玩家们对锐龙7 2700、酷睿i7-8700之间的对比有更好的了解,我们安排了这次评测,帮...

发表于 2018-08-23 11:01 462次阅读
锐龙2700和8700谁好 全方位对比评测

Arm首发CPU路线图 为用户提供突破性性能

Arm近日公开自当前至2020年Arm终端事业部的CPU前瞻性路线图与计算性能数据,旨在展望未来基于...

发表于 2018-08-23 10:37 437次阅读
Arm首发CPU路线图 为用户提供突破性性能

微星b450主板怎么样 锐龙5最佳座驾

B450芯片组还支持“精准频率提升功能”,在超频时,倍频不必以整数单位调节,可以以0.25的倍率调整...

发表于 2018-08-23 10:19 150次阅读
微星b450主板怎么样 锐龙5最佳座驾

如何看上海兆芯,拟完成进口芯片替代

发表于 2018-08-23 10:01 516次阅读
如何看上海兆芯,拟完成进口芯片替代

CPU芯片封装技术详解

发表于 2018-08-23 09:33 266次阅读
CPU芯片封装技术详解

铭瑄b360主板怎么样 600元真的很值

铭瑄终结者B360W主板保留了挑战者B360M原有的优点,比如双M.2接口、USB 3.1 Type...

发表于 2018-08-23 09:31 122次阅读
铭瑄b360主板怎么样 600元真的很值

amd2950x跑分评测 算是1950X的精细优...

AMD之前发布了X399+1950X的发烧级平台(TR4)组合,代表AMD重新回归旗舰级平台的竞争阵...

发表于 2018-08-23 09:31 704次阅读
amd2950x跑分评测 算是1950X的精细优...

ARM发布了2020年客户端CPU IP性能路线...

今年5月,ARM发布了下一代Cortex A76 CPU,它可能是ARM历史上最大的一代性能飞跃。A...

发表于 2018-08-23 08:51 453次阅读
ARM发布了2020年客户端CPU IP性能路线...

华为将在年底前发布“吓人”的技术!

今年的安卓阵营争斗非常激烈,曾经的霸主三星也开始显露出疲态,而我们国内科技行业大佬华为却在科技领域中...

发表于 2018-08-23 08:37 484次阅读
华为将在年底前发布“吓人”的技术!

Arm公开至2020年的CPU路线图,预测未来两...

从ARM公布出的路线图中我们可以看到,在2019年他们将推出基于7nm工艺代号为Deimos的处理器...

发表于 2018-08-22 15:00 391次阅读
Arm公开至2020年的CPU路线图,预测未来两...