0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

深度学习框架只为GPU? 答案在这里

模拟对话 2018-03-14 18:29 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

目前大多数的机器学习是在处理器上完成的,大多数机器学习软件会针对GPU进行更多的优化,甚至有人认为学习加速必须在GPU上才能完成,但事实上无论是运行机器学习的处理器还是优化的深度学习框架,都不单只针对GPU,代号为“Skylake”的英特尔至强SP处理器就证明了这一点。

机器学习软件在英特尔至强SP系列白金版上的一系列基准测试性能表现与在GPU上非常相近,了解了底层架构之后,我们可以看到,在性能如此接近的情况下,使用GPU加速器更像是在购买一种“奢侈品”,用户在GPU以外还有很多其他的选择。毫无疑问,在用户只需要机器学习的情况下,“加速器”在性能和能耗方面更有优势,大多数人需要的不只是一台“智能的用于机器学习的服务器”,那就让我们来重点看一下英特尔至强SP 白金级处理器为什么是最佳的选择:

CPU优化深度学习框架和函数库

英特尔在基于GPU优化的框架中增加了CPU优化深度学习框架, 打破了深度学习框架偏重于GPU而忽视了CPU的行业现状,解决了目前这些框架缺乏CPU优化的实际问题。

- TensorFlow由谷歌开发,是一个领先的深度学习和机器学习框架,有面向Linux的处理器优化

- Caffe是图片识别领域最受欢迎的应用之一,英特尔提供的优化可以在CPU运行时提高Caffe的性能

- Torch是当下流行的深度学习框架,需要在优化的CPU上应用,可以通过英特尔软件优化(比如英特尔至强可扩展处理器)提高Torch在CPU上的性能

- Theano是一个开源的Python库,很受机器学习程序员的欢迎,它可以帮助程序员高效地定义、优化和评估涉及多维阵列的数学表达式

- Neon是一个基于Python的深度学习框架,目的是在现代深度神经网络上实现易用性和可扩展性,并致力于在所有硬件上实现性能的最大化

- MXNet是一个开源的深度学习框架

- Python及其函数库是机器学习应用里最受欢迎的基础组成,Python加速版过去几年里得到了广泛应用,并且可以直接下载或通过Conda、yum、apt-get或Docker images下载

- BigDL是一个面向Apache Spark的分布式深度学习函数库。通过BigDL用户可以把自己的深度学习应用当作标准Apache Spark程序来编写,直接在现有Apache Spark或Hadoop集群上运行。在Torch基础上开发的BigDL可以为深度学习提供综合性支持:包括数值计算(通过Tensor)和高级神经网络;此外用户还可以利用BigDL把提前训练的Caffe或Torch模型载入Spark程序。英特尔曾声称在一个单节点至强处理器上(例如与GPU相比),BigDL中的处理速度比原始开源Caffe、Torch或TensorFlow要高一个数量级

- 英特尔MKL-DNN是一个开源的、性能强化的函数库,用于加速在CPU上的深度学习框架

- 英特尔数据分析加速库(DAAL)是一个包含了被优化的算法构建模块的开源函数库,针对大数据问题最相关的数据分析阶段。这个函数库适用于当下流行的数据平台,包括Hadoop、Spark、R和Matlab

结果证明了一切,无论是TensorFlow、Caffe,还是Torch、Theano,这些深度学习框架都针对英特尔数学核心函数库(Intel MKL)和英特尔高级矢量扩展指令集(Intel AVX)进行了优化。通过CPU优化,TensorFlow和Caffe基准测试中的CPU性能分别提高了72倍和82倍。

机器学习加速器

科技与行业的发展都是瞬息万变的,机器学习的加速器也会从GPU转向FPGAASIC等等,除非我们永远只需要一台只能用于机器学习的服务器,只要在一台服务器上想实现可以支持各种的工作负载,英特尔至强可扩展处理器无疑是最佳的解决方案。加速器的选择正在变得多元化,这是整个行业的发展趋势,多核CPU(英特尔至强融核处理器,特别是“Knights Mill”版)和FPGA(英特尔至强处理器,包含Intel/Altera FPGA)都可以提供更灵活的选择、卓越的性价比和高能效。基于英特尔至强融核处理器训练或学习一个AlexNet图片分类系统的速度,是使用NVIDIA GPU的类似配置系统的2.3倍;英特尔至强融核处理器的性价比最高可以是GPU解决方案的9倍,每瓦性能高达8倍,英特尔Nervana将推出更多专为人工智能开发的产品。英特尔至强SP系列处理器为机器学习提供了卓越的性能,同时相比其他解决方案也为我们带来了更多的功能与选择,让我们在产品与行业的发展中都可以拥有更多可能。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • FPGA
    +关注

    关注

    1663

    文章

    22494

    浏览量

    638984
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5266

    浏览量

    136040
  • 人工智能
    +关注

    关注

    1819

    文章

    50298

    浏览量

    266843
  • 机器学习
    +关注

    关注

    67

    文章

    8561

    浏览量

    137208
  • 深度学习
    +关注

    关注

    73

    文章

    5604

    浏览量

    124609
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    原来流量开关可以用在这里

    流量开关
    华泰天科
    发布于 :2026年03月03日 09:17:08

    沐曦曦索GPU产品赋能AI4S重塑材料研发新范式

    2026年1月29日,“AI4Science 前沿:材料研发计算新范式——国产算力×深度学习框架技术沙龙·上海站”在张江百度飞桨人工智能产业赋能中心举办。
    的头像 发表于 02-10 14:28 644次阅读

    人工智能与机器学习在这些行业的深度应用

    自人工智能和机器学习问世以来,多个在线领域的数字化格局迎来了翻天覆地的变化。这些技术从诞生之初就为企业赋予了竞争优势,而在线行业正是受其影响最为显著的领域。人工智能(AI)与机器学习(ML)的深度应用,彻底重塑了整个行业的发展模
    的头像 发表于 02-04 14:44 659次阅读

    如何构建稳定可靠的PLC无线网络?关键步骤在这里

    在工业自动化领域, PLC无线组网 正逐渐成为提升生产效率与灵活度的关键技术。 一、PLC无线组网方案 针对不同工业应用场景,有多种 PLC无线组网 方案,包括点对点通信、 点对多点通信。以下是部分典型方案: 组态王与 AB820 PLC 的 Modbus TCP/IP 无线以太网通信方案 组态王与欧姆龙 CP1E PLC 的 Host-Link 无线通信方案 汇川 H5U PLC 之间的 EtherNET/IP 无线以太网通信方案 信捷触摸屏和台达 PLC 之间的无线通信方案 二、典型应用场景 1. 电厂智能化改造 在河北某热电
    的头像 发表于 12-29 11:12 336次阅读
    如何构建稳定可靠的PLC无线网络?关键步骤<b class='flag-5'>在这里</b>

    【团购】独家全套珍藏!龙哥LabVIEW视觉深度学习实战课(11大系列课程,共5000+分钟)

    GPU加速训练(可选) 双轨教学:传统视觉算法+深度学习方案全覆盖 轻量化部署:8.6M超轻OCR模型,适合嵌入式设备集成 无监督学习:无需缺陷样本即可训练高精度检测模型 持续更新:
    发表于 12-04 09:28

    【团购】独家全套珍藏!龙哥LabVIEW视觉深度学习实战课程(11大系列课程,共5000+分钟)

    GPU加速训练(可选) 双轨教学:传统视觉算法+深度学习方案全覆盖 轻量化部署:8.6M超轻OCR模型,适合嵌入式设备集成 无监督学习:无需缺陷样本即可训练高精度检测模型 持续更新:
    发表于 12-03 13:50

    如何深度学习机器视觉的应用场景

    深度学习视觉应用场景大全 工业制造领域 复杂缺陷检测:处理传统算法难以描述的非标准化缺陷模式 非标产品分类:对形状、颜色、纹理多变的产品进行智能分类 外观质量评估:基于学习的外观质量标准判定 精密
    的头像 发表于 11-27 10:19 319次阅读

    国产传感器产业发展破局点或在这里

        “十四五”期间中国传感器产业发展中存在的最严峻问题,“十五五”传感器产业政策破局方向或在这里!     进入10月份,踏入2025年的第四季度,2025年是我国经济发展中的“节点”年
    的头像 发表于 10-29 18:13 1195次阅读
    国产传感器产业发展破局点或<b class='flag-5'>在这里</b>

    NVIDIA Isaac Lab多GPU多节点训练指南

    NVIDIA Isaac Lab 是一个适用于机器人学习的开源统一框架,基于 NVIDIA Isaac Sim 开发,其模块化高保真仿真适用于各种训练环境,可提供各种物理 AI 功能和由 GPU 驱动的物理仿真,缩小仿真与现实世
    的头像 发表于 09-23 17:15 2617次阅读
    NVIDIA Isaac Lab多<b class='flag-5'>GPU</b>多节点训练指南

    如何在Ray分布式计算框架下集成NVIDIA Nsight Systems进行GPU性能分析

    在大语言模型的强化学习训练过程中,GPU 性能优化至关重要。随着模型规模不断扩大,如何高效地分析和优化 GPU 性能成为开发者面临的主要挑战之一。
    的头像 发表于 07-23 10:34 2554次阅读
    如何在Ray分布式计算<b class='flag-5'>框架</b>下集成NVIDIA Nsight Systems进行<b class='flag-5'>GPU</b>性能分析

    别让 GPU 故障拖后腿,捷智算GPU维修室来救场!

    在AI浪潮汹涌的当下,GPU已然成为众多企业与科研机构的核心生产力。从深度学习模型训练,到影视渲染、复杂科学计算,GPU凭借强大并行计算能力,极大提升运算效率。然而,就像高速运转的精密
    的头像 发表于 07-17 18:56 1298次阅读
    别让 <b class='flag-5'>GPU</b> 故障拖后腿,捷智算<b class='flag-5'>GPU</b>维修室来救场!

    变压器输入和输出电压该怎么选?答案在这里

    变压器作为一种电力设备,输入和输出电压的选用对于确保设备正常运行和安全至关重要。以下是选择输入和输出电压时,需要考虑的因素:
    的头像 发表于 07-04 14:49 1357次阅读

    【高云GW5AT-LV60 开发套件试用体验】基于开发板进行深度学习实践,并尽量实现皮肤病理图片的识别

    。 `clahe.py 但是上面的代码和相关的逻辑暂时就停在这里了。 后来又过了几天,尝试一些有关cnn的实现。 记得在综合的时候要将这个文件里面的模块名替换一下: 上面虽然综合通过,但是还有一些警告。后面有时间的话
    发表于 06-11 22:35

    GPU架构深度解析

    GPU架构深度解析从图形处理到通用计算的进化之路图形处理单元(GPU),作为现代计算机中不可或缺的一部分,已经从最初的图形渲染专用处理器,发展成为强大的并行计算引擎,广泛应用于人工智能、科学计算
    的头像 发表于 05-30 10:36 2009次阅读
    <b class='flag-5'>GPU</b>架构<b class='flag-5'>深度</b>解析

    ARM Mali GPU 深度解读

    ARM Mali GPU 深度解读 ARM Mali 是 Arm 公司面向移动设备、嵌入式系统和基础设施市场设计的图形处理器(GPU)IP 核,凭借其异构计算架构、能效优化和生态协同,成为全球移动
    的头像 发表于 05-29 10:12 4885次阅读