0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

斯坦福机器学习硬件加速器的课程学芯片技术机会来了

人工智能和机器人研究院 2018-07-21 09:27 次阅读

芯片技术的机会来了!斯坦福大学2018秋季学期推出《机器学习硬件加速器》课程,深入介绍机器学习系统中设计训练和推理加速器的架构技术。课程涵盖经典的ML算法,用于ML模型推理和训练的加速器设计等,超多专业材料和PPT,是本领域不可多得的专业课程。

本课程将深入介绍用于在机器学习系统中设计训练和推理加速器的架构技术。本课程将涵盖经典的ML算法,如线性回归和支持向量机,以及DNN模型,如卷积神经网络和递归神经网络。我们将考虑这些模型的训练和推理,并讨论诸如batch size、精度、稀疏度和压缩等参数对这些模型精度的影响。我们将介绍用于ML模型推理和训练的加速器设计。学生将熟悉使用并行性、局部性和低精度来实现ML中使用的核心计算内核的硬件实现技术。为了设计高效节能的加速器,学生们将建立直觉,在ML模型参数和硬件实现技术之间进行权衡。学生将阅读最近的研究论文并完成一个设计项目。

主讲教师:

Kunle Olukotun

Kunle Olukotun是斯坦福大学电气工程和计算机科学的Cadence设计系统教授,自1991年以来一直在该系任教。Olukotun以领导Stanford Hydra研究项目而著名,该项目开发了首批支持thread-level speculation的芯片处理器

Ardavan Pedram

Ardavan Pedram是斯坦福大学电气工程系研究助理,与Kunle Olukotun教师合作的Pervasive Prallelism Laboratory (PPL)项目的成员。

特邀讲师:

Boris Ginsburg, NVIDIA

Robert Schreiber, Cerebras Systems

Mikhail Smelyanskiy, Facebook

Cliff Young, Google

课程安排和阅读材料

第1课:简介,摩尔定律和Dennard Scaling定律后硬件加速器的作用

阅读:暗硅(Dark Silicon)有用吗? Hennessy Patterson第7.1-7.2章

https://ieeexplore.ieee.org/document/6241647/

第2课:经典ML算法:回归、SVM

阅读:TABLA:基于统一模板的加速统计机器学习的架构

https://www.cc.gatech.edu/~hadi/doc/paper/2015-tr-tabla.pdf

第3课:线性代数基础和加速线性代数BLAS运算

20世纪的技术:收缩阵列和MIMD,CGRAs

阅读:为什么选择收缩架构?

www.eecs.harvard.edu/~htk/publication/1982-kung-why-systolic-architecture.pdf

高性能GEMM的剖析

https://www.cs.utexas.edu/users/pingali/CS378/2008sp/papers/gotoPaper.pdf

第4课:评估性能、能效、并行性,局部性、内存层次,Roofline模型

阅读:Dark Memory and Accelerator-Rich System Optimization in the Dark Silicon Era

https://arxiv.org/abs/1602.04183

第5课:真实世界的架构:将其付诸实践

加速GEMM:定制,GPU,TPU1架构及其GEMM性能

阅读:Google TPU

https://arxiv.org/pdf/1704.04760.pdf

Codesign Tradeoffs

https://ieeexplore.ieee.org/document/6212466/

NVIDIA Tesla V100

images.nvidia.com/content/volta-architecture/pdf/volta-architecture-whitepaper.pdf

第6课:神经网络:MLP和CNN推理

阅读:IEEE proceeding

Brooks’s book (Selected Chapters)

第7课:加速CNN的推理:实践中的阻塞(Blocking)和并行(Parallelism)

DianNao, Eyeriss, TPU1

阅读:一种阻塞卷积神经网络的系统方法

https://arxiv.org/abs/1606.04209

Eyeriss:用于卷积神经网络的节能数据流的空间架构

https://people.csail.mit.edu/emer/papers/2016.06.isca.eyeriss_architecture.pdf

Google TPU (see lecture 5)

第8课:使用Spatial建模神经网络,分析性能和能量

阅读:Spatial:一种应用程序加速器的语言和编译器

http://arsenalfc.stanford.edu/papers/spatial18.pdf

第9课:训练:SGD,反向传播,统计效率,batch size

阅读:去年的NIPS workshop:Graphcore

https://supercomputersfordl2017.github.io/Presentations/SimonKnowlesGraphCore.pdf

第10课:DNN的弹性:稀疏性和低精度网络

阅读:EIE:压缩深度神经网络的高效推断机(Efficient Inference Engine)

https://arxiv.org/pdf/1602.01528.pdf

Flexpoint of Nervana

https://arxiv.org/pdf/1711.02213.pdf

Boris Ginsburg:卷积网络的Large Batch训练

https://arxiv.org/abs/1708.03888

LSTM Block Compression by Baidu?

第11课:低精度训练

阅读:HALP:High-Accuracy Low-Precision Training

https://arxiv.org/abs/1803.03383

Ternary or binary networks

See Boris Ginsburg's work (lecture 10)

第12课:分布式和并行系统训练:Hogwild!,异步和硬件效率

阅读:Deep Gradient compression

https://arxiv.org/abs/1712.01887

Hogwild!:一种并行化随机梯度下降的Lock-Free 方法

https://people.eecs.berkeley.edu/~brecht/papers/hogwildTR.pdf

大规模分布式深度网络

https://static.googleusercontent.com/media/research.google.com/en//archive/large_deep_networks_nips2012.pdf

第13课:FPGA和CGRAs:Catapult,Brainwave, Plasticine

Catapult

https://www.microsoft.com/en-us/research/wp-content/uploads/2016/10/Cloud-Scale-Acceleration-Architecture.pdf

Brainwave

https://www.microsoft.com/en-us/research/uploads/prod/2018/03/mi0218_Chung-2018Mar25.pdf

Plasticine

dawn.cs.stanford.edu/pubs/plasticine-isca2017.pdf

第14课:ML基准:DAWNbench,MLPerf

DawnBench

https://cs.stanford.edu/~matei/papers/2017/nips_sysml_dawnbench.pdf

MLPerf

https://mlperf.org/

第15课:Project presentations

更多阅读材料:https://cs217.github.io/readings

课程PPT:https://cs217.github.io/lecture_slides

第一课对深度学习的发展、摩尔定律、Dennard Scaling、相关理论方法等做了较为详尽的介绍,非常干货,下面附上第一课的PPT。

深度学习的挑战:深度学习存在理论吗?

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 加速器
    +关注

    关注

    2

    文章

    739

    浏览量

    36564
  • 机器学习
    +关注

    关注

    66

    文章

    8092

    浏览量

    130510

原文标题:斯坦福2018秋季课程大放送!深入浅出带你玩转机器学习加速

文章出处:【微信号:gh_ecbcc3b6eabf,微信公众号:人工智能和机器人研究院】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    无法导入硬件加速器

    嗨!我已经创建了一个硬件加速器(在vhdl中)并且合成成功完成。但是,当我使用创建和导入外围设备向导时,它向我显示我的包在库中不可用,尽管它是。我能做什么 ???L'enfer,c'est l
    发表于 02-27 14:15

    协调屏幕旋转和硬件加速器

    )。而且,在我的测试中,我发现关闭“硬件加速器”允许屏幕在旋转时正确地绘制,但是这使得系统使用起来非常缓慢和痛苦(坏的用户体验)。谢谢任何帮助。
    发表于 04-03 10:56

    斯坦福机器学习公开课笔记之单变量线性回归

    斯坦福机器学习公开课笔记 一 --单变量线性回归
    发表于 06-11 13:53

    机器学习实战:GNN加速器的FPGA解决方案

    的提升,对传统的机器学习算法设计以及其实现技术来了严峻的挑战。在此背景之下,诸多基于Graph的新型机器
    发表于 10-20 09:48

    如何充分利用数字信号处理上的片内FIR和IIR硬件加速器

    上的片内FIR和IIR硬件加速器也分别称为FIRA和IIRA,我们可以利用这些硬件加速器来分担FIR和IIR处理任务,让内核去执行其他处理任务。在本文中,我们将借助不同的使用模型以及实时测试示例来探讨如何在实践中利用这些加速器
    发表于 12-28 06:26

    H.264解码中CABAC硬件加速器怎么实现?

    H.264解码中CABAC硬件加速器怎么实现?
    发表于 06-07 06:48

    GNN(图神经网络)硬件加速的FPGA实战解决方案

    ,对传统的机器学习算法设计以及其实现技术来了严峻的挑战。在此背景之下,诸多基于Graph的新型机器学习
    发表于 07-07 08:00

    问下ARM3的硬件加速器只能用verilog写吗?

    问下ARM3的硬件加速器只能用verilog写吗?
    发表于 09-30 10:45

    利用硬件加速器提高处理器的性能

    处理器内部集成的硬件加速器可以实现三种广泛使用的信号处理操作:FIR(有限冲激响应)、IIR(无限冲激响应)和FFT(快速傅里叶变换)。硬件加速器减轻了核处理器的负担,能潜在的提升处理器的计算吞吐
    发表于 12-04 15:22 1071次阅读

    Veloce仿真环境下的SoC端到端硬件加速器功能验证

    很多人认为硬件加速器无非是一种速度更快的仿真器而已。毫无疑问,由于硬件加速器使用物理硬件进行仿真,使用硬件加速器验证复杂的集成电路和大型片上系统(SoC)能比软件仿真器快若干数量级。与
    发表于 03-28 14:50 3212次阅读
    Veloce仿真环境下的SoC端到端<b class='flag-5'>硬件加速器</b>功能验证

    斯坦福大学开放课程机器学习课程》[中英双语字幕]视频下载

    斯坦福大学开放课程机器学习课程》[中英双语字幕]视频下载 来源:互联网(转载协议)发布日期:2011-09-13 14:30浏览: 10
    发表于 06-27 18:49 231次阅读

    基于Xilinx FPGA的Memcached硬件加速器的介绍

    本教程讨论基于Xilinx FPGA的Memcached硬件加速器技术细节,该硬件加速器可为10G以太网端口提供线速Memcached服务。
    的头像 发表于 11-27 06:41 3454次阅读

    OpenHarmony 分论坛-华秋电子新硬件加速器

    OpenHarmony 分论坛-华秋电子新硬件加速器 今天的华为开发者大会2021上,OpenHarmony分论坛上展示了华秋电子新硬件加速器 。 HDC分论坛-OpenHarmony 分论坛推荐链接:http://t.elecfans.com/live/1708.htm
    的头像 发表于 10-23 16:53 1519次阅读
    OpenHarmony 分论坛-华秋电子新<b class='flag-5'>硬件加速器</b>

    用于 AI 应用的硬件加速器设计师指南

    当 AI 设计人员将硬件加速器整合到用于训练和推理应用的定制芯片中时,应考虑以下四个因素
    发表于 08-19 11:35 1299次阅读
    用于 AI 应用的<b class='flag-5'>硬件加速器</b>设计师指南

    借助硬件加速器开发您的设计

    借助硬件加速器开发您的设计
    的头像 发表于 01-03 09:45 619次阅读