0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

多核计算芯片领域国际权威Kunle Olukotun教授:解读用摩尔定律扩展机器学习性能

章鹰观察 来源:鲲云科技 作者:鲲云科技 2018-05-08 10:55 次阅读

多核计算芯片领域国际权威Kunle Olukotun教授:解读用摩尔定律扩展机器学习性能

4月18日,由鲲云科技协办的2018全球人工智能应用创新峰会在深圳落下帷幕,一场聚焦于人工智能落地应用的高端峰会暂告一段落。而峰会所传达的最新科研成果和前沿思想却在持续发酵。

峰会上,鲲云邀请到了来自全球人工智能各个领域的权威大咖进行个人演讲,分享他们的最新观点。本文所分享的《摩尔定律对机器学习的性能提升》,便是由其中一位大咖——Kunle Olukotun教授带来的。

Kunle Olukotun是斯坦福大学教授,Afara芯片创始人,UltraSPARC T1 芯片架构师。是多核计算芯片领域国际权威。

在他的演讲中,Kunle Olukotun教授介绍了DAWN(数据分析的下一步)项目。 其中包括一系列用于开发机器学习加速器的算法,方法和工具。这些加速器可由具有特定领域知识但没有硬件或机器学习背景的人员开发。通过忽略多核锁定; 低精度算术;并行编程语言和设计空间探索,该项目帮助提供高性能,高生产力和高效率的机器学习实现。


Kunle Olukotun 教授

今天非常高兴跟大家讲一下“用摩尔定律扩展机器学习性能”,我们这个项目的名字叫做下一阶段的数据分析。

机器学习的兴起

最近在影像识别、自然语言处理的进步,都是由机器学习所驱动的。这些应用已经在整个社会产生了非常重大的影响,我们觉得未来可能会出现自动驾驶的汽车,另外有一些更个性化的药物,比如根据基因序列产生出来的。它的药物作用是专门为你的基因所创造出来的。还可以进行医疗的诊断和预测。预测的质量有可能比医生预测的质量更高,所以机器学习有非常大的潜力。

开发高质量的机器学习应用,非常具有挑战性。前景非常好,但要开发应用程序却非常具有挑战性。这需要我们有深入的机器学习的知识、定制的工具以及这些要素如何组合以实现高性能的系统。

DAWN 提案

我们研究的项目包括什么?只要有数据以及某一个领域专业的知识,我们可以使任何人建立起自己的产品级机器学习产品。这也意味着这样的人不需要有机器学习方面博士学位,也没有必要成为一个DB系统的专家,更不需要理解最新的硬件。如果不了解最新硬件,不具备这方面的情况下,机器学习可以怎么样做呢?

20世纪80年代的机器学习

机器学习在20世纪80年代,这里显示的是例如影像识别或者自然语言处理任务的准确度以及它跟你对于机器学习的算法所提供的数据规模的关系。

80年代,当我们第一次讨论机器学习时,大家知道怎么样建立起一个多层神经网络。那个时代,一个普通的算法表现反倒更好,机器学习表现没有那么好。因为机器学习需要更多计算、更加复杂的模型。当然,机器学习有了这些之后,就能超过传统的算法。这就是为什么现在对于机器学习有那么多高期望。

软件 1.0 vs 软件 2.0

换句话说,在说到软件2.0,就是实现的一个概念,软件1.0大家都懂,先写代码,写完之后还要理解某一个领域,再把这个领域的专业知识进行应用。这样就可以做一个算法出来,然后可以把这个算法放到一个系统中。但软件2.0就不一样了。2.0你要做一个模型,就是一个神经网络,然后要把一些数据放到一个神经网络的架构中。软件2.0中最重要的一点是训练的数据量和能够训练一个非常复杂的神经网络的能力。这是要看计算能力了。训练数据就是编程2.0的关键。

训练数据的机遇和挑战

我现在想跟大家说一下训练数据。我们经常说训练数据就是新时代的石油。如果你想要做一些全新的基于神经网络的系统,就需要训练数据,也必须要标签。你要知道这是一个猫,那是一只狗,那是一部车。如果这是很简单的贴标签,那网上随便谁都可以做。但如果要看一个非常复杂的图像,比如诊断一个人有没有患癌,就需要一个专家。

呼吸管主要想法

这种训练数据的获得就更加难。传统训练的另外一个问题是,标签是静态的。但其实你要解决的问题不同,可能把这个标签改变了。但这个训练数据不会进行进化。我们做model时就在想怎么样才能更加容易更加高层次的生成训练数据,让我们更加容易的创造更多的训练数据。我们叫做弱监督,不再给很多标签,而是有更多的噪音输入,给它们进行训练。

整个系统看起来像是这样的,用一个标签功能。比如你看到这个化学物品,可能这个人得了那种病,就可以生成一系列标签功能,再把它跟数据合成。这样就可以去噪音,可以知道哪个标签是比较好用的,哪个标签成功率是90%,哪个标签只有50%的正确率。在基于有概率的标签,就能够做一个噪声感知的判别模型。

我们的目标是希望能够用这个创建应用程序。比如这是一个知识库,我们想做的事情是让这个神经网络的训练变得更加容易,希望让这个训练的数据更加容易。解决方案就是创造另外一个全新的神经网络模型。如果要让我们更加容易的做这个神经网络,让软件2.0做得更加容易,要做更多神经网络的训练,要做更多计算。

机器学习受计算限制

这个机器训练模型是受到计算能力所限制的。百度的工程师说可能需要让计算性能改善100倍。我们怎么做到?比如这个微处理器的改善,这是在过去40年微处理器改善的趋势,我的研究团队参加了这个研究。在这里会看到最顶层的是摩尔定律。每隔18月或者2年处理器性能会翻一番。但这个单线程的性能已经达到一个顶点,主要是因为功耗的问题,因为功耗是有限制的。这就限制了我们进行计算的能力。

当然,这也就影响了随之的表现以及影响了整个行业。这个行业就在一个芯片上多放一些核,就能有效使用能耗,不需要一个芯片把所有的事都做了。我也参与到这个多核的技术研发中。说到能耗和性能时,可以说这个能耗是效率乘性能就等于整个能耗。你就会知道功率是固定的,但你想要做的事情是希望它的性能可以改善,性能改善就可以训练更加复杂的神经网络的模型。

每年机器学习Arxiv论文

但问题是软件的算法也没有在原地踏步。这就给我们看到Arxiv的论文,在过去十几年,关于机器学习的论文的增长,它的增长是比摩尔定律更快。我们看到有多新的想法不断创造出来,但是我们没有办法去执行这些好的想法。

要懂执行这些算法的硬件,我们需要的时间更加长,它比软件算法的改善需要的时间更长。你的Arxiv设计时间大概需要两年。运用在Arxiv的想法在它做完时就已经过时了,因为设计时间那么长。

所以我们必须找一个更加灵活的方法解决这个问题。我们到现在还不知道到底是要让这个通用的机器设计怎么进行设计,而且现在的机器视觉想做的东西可能跟自然语言不一样,跟决策也不一样。比如商业决策或者其他地方的决策,也是不一样的。我们当然想要加快机器学习的速度,希望它们至少能够增加100倍。另外我们也希望让它每瓦特的性能提高,让我们可以在TB甚至PB上的大数据用实时/交互式机器学习。我们也可以开发一个神经架构。

关键问题和方法

现在最重要最核心的问题是怎么样在得到每一瓦类ASIC性能同时又能得到处理器一般的灵活性。这看起来是互相矛盾的,但我觉得有解决方法。我们必须要同时改善算法、编程语言、编译器和硬件架构。

硬件感知的机器学习算法可以改善效率,旧的计算模型也是前人开发出来的,他们要决定人来开发算法,计算是确定性的,因为这个人必须要知道到底怎么样去进行调试。但在软件2.0应用的底层模型是基于神经网络的,他们是根据概率的机器模型,是由数据进行训练的。而且技术很有意思,它们不需要是确定的,也不需要永远都是100%正确的,只需要在统计学上正确就可以了。既然它只需要统计学上正确,那我们有很多机会来改善它的性能,可以使用基础性的计算模型来改善。

方法一:硬件感知机器学习算法,可显著提高效率

现在说说用什么样的方法、算法做这个模型。它是改善或者最小化一个损失模型或者所谓的Loss function。我们有很多数据或者训练的例子,可能有数以十亿计的数据,其中有很多不同的机器与学习的方法,能够做分类或者深度学习等等。我们最重要的进行优化的方法是大家可能都熟悉的随机梯度下降。我们看着一个例子,就可以估计渐变。反过来,也可以看到某一个模型点,然后就可以推到一个训练集的数据点。有很多次迭代,最终得到最优化的模型,可以通过非常小的程序迭代来进行改善。

这个迭代的机器学习是有两种效率需要看。

1、统计学效率,我们到底需要做多少次迭代才能得到最高质量的训练结果

2、硬件效率,每次迭代需要多长时间。我们进行训练的总时间,是越低越好、越少越好,但我们需要进行一个取舍和衡量。

我们是不是要改善一个硬件效率,让统计效率稍微低一点。随机梯度下降法的核心是可能有数十亿个小的步骤。你可以问一个问题,我们能不能够并行做一个事情。这看起来是一个顺序的算法,但可以并行做。怎么样并行做?我在教我的学生时,你在放你的数据时,必须要锁了它,所以做一个已经编码的SGD。但锁了之后发现它做得没有那么好,因为加了更多处理器时会变得更加慢。

另外一件事情是低精度。低精度使用的能量能源会低了,另外存储的内容也会下降。也能够把你所需要的带宽尽量降低。既然你可以同时并行的处理计算更多信息。比如有8字节数据而不是16字节或者32字节的数据,也能增加吞吐量。这是我们经常要做的,比如在TPU、FPGA都在用。它最大的问题是准确性会降低。刚才说要做判断,低准确性是可以的。我们以前觉得训练至少需要16位的准确性。但我们做了一个高准确率低精度,我们能够随着更接近最佳值时把它的渐变变得更加小,我们在逐渐靠近中心

方法二:编写一个机器学习程序并在所有这些体系结构上高效运行

加速器上可以有更好的效率,我们把机器学习的算法映射到加速器上,可以看到这些机构,它们也有一个编程模式。比如说有集群信息、GPU、FPGA。我们有一个算法,如果想进行有效的训练,需要在硬件的架构上进行实现。我们对于这个算法的描述以及有效的执行之间,是有一条鸿沟的。

因此,我们可不可以编写一个机器学习程序,它能够在这些体系结构上都高效运用。这样就可以填补这个鸿沟了。我们把这个叫做适定于特定情况的语言。现在有AI的应用,把不同领域的语言结合起来,他们专注于这个应用不同的组成部分。比如有一个比较稠密或者稀疏的算法,还有算法中的关系。比如你的重点是不是图像的算法。

总的来说,有各个不同领域的语言,把它结合起来,你怎么样把它组合起来。我们可以使用一个Delite DSL框架,可以在不同领域进行应用。我们有一个Delite DSL框架,把它叫做OptiML。这里有一些绿点,我们希望把它们分成群,有蓝色的X。首先把每一个样本分配到最近的平均值,计算到当前平均值的距离。将每一个群集移动到分配给他们的点的平均值。在这里有一个高层次的描述,可以在多核集群GPU上进行应用,甚至是FPGA。

我们看一下TensorFlow,也是注重于机器学习的,也使用了很多OptiML中使用的想法,它也是高性能适用于不同领域的语言。这里有一个高度抽象化,它比TensorFlow做得更好,而且同样给出描述。我们需要以这个领域为主的语言,就意味着需要不同的架构,所以就是Delite。任何人想开发以特定领域为基础的语言,我们希望这个工作变得更加容易。我们在这当中有一个嵌入在Scala中的DSL和IR。

除此之外,我们在继续改善机器学习,我们看到现在在做什么事情,也要看未来怎么做。怎么使用比较低的精度,稀疏性也是比较有意思的,很多开发者在关注稀疏新的神经网络模型。我们想要这个东西是比较灵活性的,加速性也是可编程的。这是为什么我们在用FPGA,这个架构现在受到越来越多的注意力。

对于分层控制也一样,在控制模板中也定义了哪些程序是要有加速器加速的,所以必须有加速器的范围。另外也需要有方法进行嵌套,怎么样进行合适的嵌套。最终用Spatial语言写了SGD,我们有自定义语言做加速器范围、内存分配,非常明确的内存传输方法和梯度计算。这是非常高层级的,让开发者能很容易的进行定义。

现在的问题是FPGA总的表现怎么样,这张图给大家看到了,在不同的芯片中,全部把它们标准化成28纳米,CPU在左边,能耗效率是1-10。专用的硬件是右边,有效率大概是1000-10000,CPU是最灵活和最能够编译的,专用的硬件是不可以进行编码,但我们会发现专用的硬件比一个GPU的效率高1000倍。GPU比CPU大概好10倍。

但我们看看能不能够在维持FPGA的灵活性的方法,但让编码性更加靠近CPU,能耗更加靠近GPU和FPGA。这就是一个变形模式的可重构架构,这是一个空间表示,可以关注到这个架构,以跟FPGA相似的方式进行理解。这里有PCU和PMU,模式记忆单元和模式计算单元。一个是更看带宽的,带宽能以不同方法配置满足这个程序的需要。另外可以把它们组合到一起来满足你们所需要的空间运用。

我们做了这个之后,如果跟25纳米的这个比较一下,它的性能能够改善95倍,每瓦的能耗能改善77倍。但我们能做很多事,这要看架构到底怎么做,它看起来是怎么样的,怎么样进行一个平衡。性能和能耗的取舍怎么样,还有可编程性的取舍。这是我们最关注的东西和我们现在在做的事。我们非常希望软件定义的硬件架构,能够更加节省能耗,同时也能够更加可编程,比FPGA的表现更加好一些。

总 结

我总结一下,我们的确觉得能一石二鸟,什么都能有,功率能做得很好,性能做得好,可编程性也非常高,但需要做全栈的方法,要综合整合的方法做,需要算法,比如Hogwild和HALP,在语言和编译器方面也需要进行改善,让它们更好的更有效的进行执行。原有的语言是不够的,需要高层级专门面向加速器的抽象语言,才能更好的理解这个域相关的语言和我们所需要的代表加速器的语言。我们需要一个中间的形式,就好象Spatial。

(本文来自鲲云科技微信号,多核计算芯片领域国际权威Kunle Olukotun教授在AI领域声名卓著,希望小编上传后可以分享给更多的工程师,方便大家了解国际AI技术最新发展趋势。)

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 摩尔定律
    +关注

    关注

    4

    文章

    622

    浏览量

    78516
  • 算法
    +关注

    关注

    23

    文章

    4446

    浏览量

    90714
  • 机器学习
    +关注

    关注

    66

    文章

    8094

    浏览量

    130512
  • AI芯片
    +关注

    关注

    17

    文章

    1636

    浏览量

    34347
收藏 人收藏

    评论

    相关推荐

    功能密度定律是否能替代摩尔定律摩尔定律和功能密度定律比较

    众所周知,随着IC工艺的特征尺寸向5nm、3nm迈进,摩尔定律已经要走到尽头了,那么,有什么定律能接替摩尔定律呢?
    的头像 发表于 02-21 09:46 207次阅读
    功能密度<b class='flag-5'>定律</b>是否能替代<b class='flag-5'>摩尔定律</b>?<b class='flag-5'>摩尔定律</b>和功能密度<b class='flag-5'>定律</b>比较

    摩尔定律的终结:芯片产业的下一个胜者法则是什么?

    在动态的半导体技术领域,围绕摩尔定律的持续讨论经历了显着的演变,其中最突出的是 MonolithIC 3D 首席执行官Zvi Or-Bach于2014 年的主张。
    的头像 发表于 01-25 14:45 515次阅读
    <b class='flag-5'>摩尔定律</b>的终结:<b class='flag-5'>芯片</b>产业的下一个胜者法则是什么?

    中国团队公开“Big Chip”架构能终结摩尔定律

    摩尔定律的终结——真正的摩尔定律,即晶体管随着工艺的每次缩小而变得更便宜、更快——正在让芯片制造商疯狂。
    的头像 发表于 01-09 10:16 338次阅读
    中国团队公开“Big Chip”架构能终结<b class='flag-5'>摩尔定律</b>?

    英特尔CEO基辛格:摩尔定律仍具生命力,且仍在推动创新

    摩尔定律概念最早由英特尔联合创始人戈登·摩尔在1970年提出,明确指出芯片晶体管数量每两年翻一番。得益于新节点密度提升及大规模生产芯片的能力。
    的头像 发表于 12-25 14:54 254次阅读

    摩尔定律时代,Chiplet落地进展和重点企业布局

    电子发烧友网报道(文/吴子鹏)几年前,全球半导体产业的重心还是如何延续摩尔定律,在材料和设备端进行了大量的创新。然而,受限于工艺、制程和材料的瓶颈,当前摩尔定律发展出现疲态,产业的重点开始逐步转移到
    的头像 发表于 12-21 00:30 1017次阅读

    应对传统摩尔定律微缩挑战需要芯片布线和集成的新方法

    应对传统摩尔定律微缩挑战需要芯片布线和集成的新方法
    的头像 发表于 12-05 15:32 319次阅读
    应对传统<b class='flag-5'>摩尔定律</b>微缩挑战需要<b class='flag-5'>芯片</b>布线和集成的新方法

    摩尔定律不会死去!这项技术将成为摩尔定律的拐点

    因此,可以看出,为了延续摩尔定律,专家绞尽脑汁想尽各种办法,包括改变半导体材料、改变整体结构、引入新的工艺。但不可否认的是,摩尔定律在近几年逐渐放缓。10nm、7nm、5nm……芯片制程节点越来越先进,
    的头像 发表于 11-03 16:09 277次阅读
    <b class='flag-5'>摩尔定律</b>不会死去!这项技术将成为<b class='flag-5'>摩尔定律</b>的拐点

    超越摩尔定律,下一代芯片如何创新?

    摩尔定律,下一代芯片要具有更高的性能、更低的功耗、更多的功能、更广的应用等特点。下一代芯片是信息产业的核心和驱动力,也是人类社会的创新和进步的源泉。其创新主要涉及到
    的头像 发表于 11-03 08:28 474次阅读
    超越<b class='flag-5'>摩尔定律</b>,下一代<b class='flag-5'>芯片</b>如何创新?

    半导体行业产生深远影响的定律摩尔定律

    有人猜测芯片密度可能会超过摩尔定律的预测。佐治亚理工学院的微系统封装研究指出,2004年每平方厘米约有50个组件,到2020年,组件密度将攀升至每平方厘米约100万个组件。
    的头像 发表于 10-08 15:54 664次阅读

    异构计算场景下构建可信执行环境

    OpenHarmony技术峰会上提出了几点思考。 金意儿首先从摩尔定律放缓现象作为切入点。摩尔定律自1975年起至2020年得到了快速的发展,使得芯片中集成晶体管的密度大幅提升,推动了半导体商业模式
    发表于 08-15 17:35

    摩尔定律为什么会消亡?摩尔定律是如何消亡的?

    虽然摩尔定律的消亡是一个日益严重的问题,但每年都会有关键参与者的创新。
    的头像 发表于 08-14 11:03 1323次阅读
    <b class='flag-5'>摩尔定律</b>为什么会消亡?<b class='flag-5'>摩尔定律</b>是如何消亡的?

    什么是摩尔定律?

    摩尔定律是近半个世纪以来,指导半导体行业发展的基石。它不仅是技术进步的预言,更是科技领域中持续创新的见证。要完全理解摩尔定律的影响和意义,首先必须了解它的起源、内容及其对整个信息技术产业的深远影响。
    的头像 发表于 08-05 09:36 3506次阅读
    什么是<b class='flag-5'>摩尔定律</b>?

    【芯闻时译】扩展摩尔定律

    层半导体,如钼基和钨基TMD,是扩展摩尔定律并确保MOSFET晶体管最终成为有希望的候选材料,因为2D-FET提供固有的亚1nm晶体管沟道厚度。它们适用于高性能和低功耗平台,因为它们具有良好的载流子运输和移动性,即使是原子薄层也
    的头像 发表于 07-18 17:25 280次阅读

    摩尔定律时代新赛道—硅光子芯片技术

    纵观芯片发展的历史,总是离不开一个人们耳熟能详的概念 ——“摩尔定律”。
    的头像 发表于 06-15 10:23 823次阅读
    后<b class='flag-5'>摩尔定律</b>时代新赛道—硅光子<b class='flag-5'>芯片</b>技术

    摩尔定律已过时?谁还能撑起芯片的天下?

    熟悉半导体行业的人想必对摩尔定律很熟悉,摩尔定律自问世以来就是半导体行业的最高目标,正是基于该目标,电子设备变得更加快速、高效且便宜,然而随着集成电路的尺寸越来越小,摩尔定律逐渐难以实现,因此很多人
    的头像 发表于 05-18 11:04 387次阅读