0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

巨头们的人工智能芯片研发得怎么样了

0BFC_eet_china 来源:未知 作者:邓佳佳 2018-03-04 16:31 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

前言

根据百度(Baidu)深度学习(deep learning)资深研究人员针对最新加速器进行的测试结果显示,现有的加速器芯片和软件仍然存在一些美中不足之处,应该尽快迎头赶上。

这些结果有一部份来自于使用DeepBench测试。DeepBench是使用32位浮点数学训练神经网络的开放来源基准。号称“中国Google”的百度于2016年9月发布DeepBench,并在去年6月进行了更新,使其涵盖推论工作以及使用16位数学运算。

DeepBench利用神经网络库测试不同硬件的基本运算效能(来源:Baidu)

百度硅谷人工智能实验室(Silicon Valley AI Lab)资深研究员Greg Daimos解释。在一些像矩阵乘法这样的底层作业中,具有专用硬件的芯片(例如Nvidia Volta GPU的张量核心)能够提供“数百TeraFlops (每秒1兆次浮点运算)。..比前一代的5-10TFLOPS更快几个数量级。”

然而,他说:“在实际应用中所使用的一些底层作业并没有足够的(数据)区域性,让这些专用处理器充份发挥效能,所以我们必须为其适度地加速,或者改变算法。”

百度研究小组目前正探索两种方式使用新芯片获得更大回报。一方面,研究人员在其算法中开启控制功能,以便同时接收馈入数据,期望能提高10倍的资料平行性。

另一条途径是让所有的模型看起来更像一般用于成像应用的卷积神经网络(CNN)。Daimos说,CNN比一般用于文本或音频应用(app)等循序数据的递归神经网络(RNN)具有更多区域性。

研究人员在从文本产生音频的百度模型中,“以CNN层取代RNN层堆栈”,使得“运算密度提高了40倍”,从而带来了更好的新硬件利用率。他强调,“我们必须透过编写的所有应用程序来检视是否可以普遍使用这种方法,或只是将其用于语音合成。”

目前尚不清楚这两种方法的研究成果何时可用于生产系统。同时,Daimos也分享了硬件测试的其它观察结果。

编程、内存与灵活性

虽然百度取得将近90%的Nvidia Volta最佳利用率,但编程GPU并非易事。Diamos说,该芯片“有着成千上万个线程,你必须在一个问题上进行协调和同步。..。..编写这样的程序代码并不容易,而当面对的是像张量核心这样的对象时就更困难了。”

的确,Diamos表示,“让这些任务变得更易于编程,正是我们面临的最大挑战。....而其中最大的问题就出在内存。我们想要执行更大的神经网络,但内存比预期地更快耗尽,这并不是透过打造更好的处理器就能解决的问题。”

他补充说,该问题的一部份答案在于寻找能与新兴内存搭配作业的技术,例如许多最新加速器所使用的高带宽内存(HBM)芯片堆栈等。

在百度的测试中,英特尔Intel)多核心x86处理器Xeon Phi的利用率甚至高于Nvidia Volta。然而,英特尔的芯片还没有任何张量专用核心,因此该芯片在神经网络作业上的性能不若Volta。

Nvidia Volta配备640个Tensor核心,每秒提供超过100TFLOPS的深度学习效能(来源:Nvidia)

直接进行比较并不容易,因为不同的芯片通常使用不同的运算格式。例如,Xeon Phi采用定点数学,而Volta则混合使用16位和32位浮点运算。

Diamos说:“英特尔芯片的测试结果显示,对于一些CNN来说,定点数学运算没问题。然而Nvidia发布的结果显示在影像和语音应用上表现良好,所以我们取得了一些数据,但还需要进行更多研究。”

他称赞AMD最新的GPU及其新的机器学习开放软件是正确的发展方向,但指出他们也缺乏张量核心。他表示,对于英特尔Nirvana和Graphcore Colossus等芯片“没啥可分享的消息”,也许是因为百度可能还在测试其预先发布的样片。

拥有大量的矩阵乘法单元通常是一件好事。但是,Volta、Nervana和Colossus处理器则以充满矩阵乘法数组的芯片将其性能指针推进到或接近其工艺节点所能实现的极限。

他说:“最终你的收益会递减。..。..让你不得不放弃灵活度,以便为更多不同的工作负载进行更精密的运算。因此,我们应该找到曲线的转折点,让芯片不仅在CNN上运作良好,在其它方面也表现出色。”

神经网络软件架构各执一端

除了底层数学之外,加速器还可能缺少优化,因为它们并不完全了解深度学习应用的所有范围。

当今用于设计神经网络的竞争软件架构各执一端,可能会让情况变得复杂。遗憾的是,跨不同架构建立标准规格的努力也是各自为政,Diamos指出他的团队注意到目前有11种开发中规格分别处于不同的完善阶段。

他说,由Facebook和微软(Microsoft)发起的开放神经网络交换格式(ONNX)“正朝着正确的方向发展,但仍缺乏一些像是如何表达控制流程和反向传播的特性。”

最近有20多家厂商(主要是半导体供应商)宣布了神经网络交换格式(Neural Network Exchange Format),他们认为该格式对芯片厂商来说更好。Diamos说:“要搞清这些格式中是否有些能成功实施可能还为时过早,但我们正踏上一条更好的发展道路,确实也需要其中某一种规格胜出。”

他补充说:“在2014年,我当时认为未来将会看到人工智能(AI)架构的融合,就像如今在绘图API中所看到的,但人们仍然在发明新的神经网络类型,有时还会创造新的原型,所以它可能会像编程语言的多样性一样不断地与时俱进。”

也就是说,Daimos仍然看好深度学习。在今年稍早时,他的团队发表研究指出,这一领域尚未成熟,预计接下来将会看到更多的突破。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1821

    文章

    50527

    浏览量

    267794
  • 人工智能芯片

    关注

    1

    文章

    124

    浏览量

    31151

原文标题:巨头们的人工智能芯片研发得怎么样了?

文章出处:【微信号:eet-china,微信公众号:电子工程专辑】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    浅谈人工智能(2)

    接前文《浅谈人工智能(1)》。 (5)什么是弱人工智能、强人工智能以及超人工智能? 弱人工智能(Weak AI),也称限制领域
    的头像 发表于 02-22 08:24 443次阅读
    浅谈<b class='flag-5'>人工智能</b>(2)

    自然智能与人工智能融合如何重塑芯片设计

    人类大脑是所有处理器中最复杂的,能够构思出不可思议的创意,解决复杂、微妙的问题。相比之下,人工智能擅长快速分析海量数据并高效执行任务。当自然智能人工智能融合的结果,就是芯片设计领域正
    的头像 发表于 01-15 13:58 791次阅读

    嵌入式系统中的人工智能

    本文编译自ElectronicDesign人工智能(AI)正彻底变革嵌入式系统,改变技术融入日常生活的方式。如今的人工智能不再局限于执行基础任务,它还被应用于智能汽车、工业自动化、医疗设备和
    的头像 发表于 12-18 11:49 1299次阅读
    嵌入式系统中<b class='flag-5'>的人工智能</b>

    微软与新思科技分享智能人工智能技术的行业影响

    在2025年世界移动通信大会(MWC 2025)上,微软(Microsoft)与新思科技(Synopsys)两家科技巨头携手登台,分享他们对人工智能(AI)发展的最新洞见、智能
    的头像 发表于 11-30 09:48 600次阅读

    人工智能+消费:技术赋能与芯片驱动未来

    电子发烧友网站提供《人工智能+消费:技术赋能与芯片驱动未来.pptx》资料免费下载
    发表于 11-26 14:50 41次下载

    经纬恒润亮相AICC人工智能计算大会,以智能体技术助推汽车电子研发创新

    经纬恒润携汽车电子智能体应用亮相AICC人工智能计算大会,全面展示其在AI技术与汽车电子研发深度融合方面的创新成果与技术实力。公司依托智能
    的头像 发表于 11-06 15:03 1828次阅读
    经纬恒润亮相AICC<b class='flag-5'>人工智能</b>计算大会,以<b class='flag-5'>智能</b>体技术助推汽车电子<b class='flag-5'>研发</b>创新

    AI 芯片浪潮下,职场晋升新契机?

    方向,就明确涵盖了人工智能芯片研发、部署与优化技术岗位 。如果你从事 GPU 相关研发工作,在申报职称时,就需着重突出在图形处理加速、大规模并行计算等方面的成果,因为 GPU 的高并
    发表于 08-19 08:58

    挖到宝人工智能综合实验箱,高校新工科的宝藏神器

    的深度学习,构建起从基础到前沿的完整知识体系,一门实验箱就能满足多门课程的学习实践需求,既节省经费又不占地 。 五、代码全开源,学习底层算法 所有实验全部开源,这对于想要深入学习人工智能技术的人来说
    发表于 08-07 14:30

    挖到宝!比邻星人工智能综合实验箱,高校新工科的宝藏神器!

    的深度学习,构建起从基础到前沿的完整知识体系,一门实验箱就能满足多门课程的学习实践需求,既节省经费又不占地 。 五、代码全开源,学习底层算法 所有实验全部开源,这对于想要深入学习人工智能技术的人来说
    发表于 08-07 14:23

    关于人工智能处理器的11个误解

    应用,以及哪些是真实情况而哪些只是炒作,仍存在诸多误解。GPU是最佳的人工智能处理器尽管GPU在人工智能的实现过程中发挥了关键作用,而且如今它们的应用也极为广泛,但将其推
    的头像 发表于 08-07 13:21 1340次阅读
    关于<b class='flag-5'>人工智能</b>处理器的11个误解

    爱芯元智亮相2025世界人工智能大会

    近日,2025年世界人工智能大会(WAIC 2025)正式开幕,爱芯元智作为行业领先的人工智能感知与边缘计算芯片创新研发企业,再次亮相展会。在这场为期3天的展会上,爱芯元智以“AI芯赋
    的头像 发表于 08-01 10:41 2016次阅读

    超小型Neuton机器学习模型, 在任何系统级芯片(SoC)上解锁边缘人工智能应用.

    Neuton 是一家边缘AI 公司,致力于让机器 学习模型更易于使用。它创建的模型比竞争对手的框架小10 倍,速度也快10 倍,甚至可以在最先进的边缘设备上进行人工智能处理。在这篇博文中,我们将介绍
    发表于 07-31 11:38

    最新人工智能硬件培训AI 基础入门学习课程参考2025版(大模型篇)

    人工智能大模型重塑教育与社会发展的当下,无论是探索未来职业方向,还是更新技术储备,掌握大模型知识都已成为新时代的必修课。从职场上辅助工作的智能助手,到课堂用于学术研究的智能工具,大模型正在工作生活
    发表于 07-04 11:10

    如何构建边缘人工智能基础设施

    随着人工智能的不断发展,其争议性也越来越大;而在企业和消费者的眼中,人工智能价值显著。如同许多新兴科技一,目前人工智能的应用主要聚焦于大规模、基础设施密集且高功耗的领域。然而,随着
    的头像 发表于 06-09 09:48 1289次阅读