0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Flex Logix公司称它解决了深度学习的DRAM问题

IEEE电气电子工程师 来源:未知 作者:李倩 2018-11-08 14:12 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

深度学习有一个DRAM问题。设计用来实时处理复杂任务(比如,在汽车的备份摄像头视频流中分辨猫和孩子)的系统,不断地将构成神经网络内容的数据从存储器传送到处理器

根据初创公司Flex Logix的说法,问题并不是缺乏存储这些数据的空间,而是处理器和存储器之间缺乏带宽。为了将数百千兆比特的数据提供给处理器,有些系统需要4个甚至8个DRAM芯片,这既使占用的空间增加了不少,又消耗了大量的电能。Flex Logix表示,它为可重构芯片开发的互连技术和tile-based架构将使AI系统只需要1个DRAM芯片的带宽,且功耗仅为十分之一。

图片来源:Flex Logix

NMAX512tile的架构。

位于加州山景城的Flex Logix公司已经开始将一种新的嵌入式现场可编程门阵列(eFPGA)架构商业化。但经过一番探索后,其创始人之一Cheng C. Wang意识到,这项技术可以加快神经网络的速度。

神经网络由连接和表示连接强度的“权重”组成。另一位创始人Geoff Tate解释说,一个好的AI芯片需要两样东西。一种是一些做关键“推断”计算(即乘法和累加)的电路。“但更困难的是,你必须非常擅长引入所有这些权重,以便其乘法器总能得到它们需要的数据,从而进行所需的数学运算。Wang意识到我们在FPGA的互连方面所拥有的技术,他可以对它做适应性改造,来创建一种非常擅长快速高效地加载权重、高性能和低功耗的架构。”

需要快速连续地将数百万个权重加载到网络中,这就是每秒要做数万亿次到数十万亿次运算的AI系统为什么需要那么多DRAM芯片的原因。DRAM芯片上的每个引脚每秒最多可以传输4Gb数据,因此要达到所需的每秒数百Gb的数据传输速度,就需要多个芯片。

在为FPGA开发最初的技术时,Wang注意到,这些芯片有约80%的面积互连,因此他寻求一种能够缩小互连面积并考虑到更多逻辑的架构。他和他在加州大学洛杉矶分校的同事对一种称为folded-Beneš网络的电信架构做了适应性改造来完成这项工作。这使得FPGA架构看起来像一堆逻辑和SRAM的瓦片(tile)。

图片来源:Flex Logix

Flex Logix公司表示,在芯片中构建分布式SRAM可加快计算速度并降低功耗。

Tate说,在这种专用互连方案中使用分布式SRAM最终会对深度学习的DRAM带宽问题产生重大影响。“我们正在用芯片上的SRAM取代DRAM带宽。”

图片来源:Flex Logix

若干NMAXtile可以置于一个芯片上并连在一起,以扩大计算能力。

用于Flex Logix的AI产品的tile称为NMAX,采用了台积电的16纳米技术,面积不到2平方毫米。每个tile都由一组核心组成,这些核心这些核心负责关键的乘法和累加计算、控制数据的处理和流动的可编程逻辑以及SRAM。这涉及三种不同类型的互连技术。一种tile上的所有零件连接在一起。另一种将tile与位于tile之间的附加SRAM及外部的DRAM相连接。第三种将相邻的tile连接在一起。

在深度学习领域,很难进行真正的横向比较。但Flex Logix的分析显示,将使用1个DRAM芯片的模拟的6×6tile的NMAX512阵列与使用8个DRAM的Nvidia Tesla T4进行比较,结果是新架构每秒能识别4,600张图像,而Nvidia每秒识别3,920张图像。在一项名为YOLOv3的实时视频处理测试中,同样大小的NMAX阵列可达到每秒22万亿次运算,而使用的DRAM带宽是其他系统的十分之一。

Tate表示,首批NMAX芯片的设计将于2019年下半年送至代工厂以便进行制造。

Flex Logix将波音公司视作其高吞吐量嵌入式FPGA产品的客户之一。但Tate承认,与神经网络相比,嵌入式FPGA是个很难卖的产品。“嵌入式FPGA是一项很好的业务,但是推理可能很快就会超越它。”Tate说。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • DRAM
    +关注

    关注

    40

    文章

    2373

    浏览量

    188174
  • 神经网络
    +关注

    关注

    42

    文章

    4827

    浏览量

    106803
  • 深度学习
    +关注

    关注

    73

    文章

    5590

    浏览量

    123912

原文标题:Flex Logix公司称它解决了深度学习的DRAM问题

文章出处:【微信号:IEEE_China,微信公众号:IEEE电气电子工程师】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    如何深度学习机器视觉的应用场景

    深度学习视觉应用场景大全 工业制造领域 复杂缺陷检测:处理传统算法难以描述的非标准化缺陷模式 非标产品分类:对形状、颜色、纹理多变的产品进行智能分类 外观质量评估:基于学习的外观质量标准判定 精密
    的头像 发表于 11-27 10:19 56次阅读

    PSRAM融合SRAM与DRAM优势的存储解决方案

    PSRAM(伪静态随机存储器)是一种兼具SRAM接口协议与DRAM内核架构的特殊存储器。既保留了SRAM无需复杂刷新控制的易用特性,又继承DRAM的高密度低成本优势。这种独特的设计
    的头像 发表于 11-11 11:39 378次阅读

    如何在机器视觉中部署深度学习神经网络

    人士而言往往难以理解,人们也常常误以为需要扎实的编程技能才能真正掌握并合理使用这项技术。事实上,这种印象忽视该技术为机器视觉(乃至生产自动化)带来的潜力,因为深度学习并非只属于计算机科学家或程序员。 从头开始:什么
    的头像 发表于 09-10 17:38 697次阅读
    如何在机器视觉中部署<b class='flag-5'>深度</b><b class='flag-5'>学习</b>神经网络

    深度学习对工业物联网有哪些帮助

    深度学习作为人工智能的核心分支,通过模拟人脑神经网络的层级结构,能够自动从海量工业数据中提取复杂特征,为工业物联网(IIoT)提供从数据感知到智能决策的全链路升级能力。以下从技术赋能、场景突破
    的头像 发表于 08-20 14:56 761次阅读

    自动驾驶中Transformer大模型会取代深度学习吗?

    [首发于智驾最前沿微信公众号]近年来,随着ChatGPT、Claude、文心一言等大语言模型在生成文本、对话交互等领域的惊艳表现,“Transformer架构是否正在取代传统深度学习”这一话题一直被
    的头像 发表于 08-13 09:15 3922次阅读
    自动驾驶中Transformer大模型会取代<b class='flag-5'>深度</b><b class='flag-5'>学习</b>吗?

    嵌入式AI技术之深度学习:数据样本预处理过程中使用合适的特征变换对深度学习的意义

      作者:苏勇Andrew 使用神经网络实现机器学习,网络的每个层都将对输入的数据做一次抽象,多层神经网络构成深度学习的框架,可以深度理解数据中所要表示的规律。从原理上看,使用
    的头像 发表于 04-02 18:21 1285次阅读

    如何使用flex-builder构建aruco库?

    我正在尝试构建 libopencv-aruco,通常附带新版本的 OpenCV。当我运行 bld -c opencv 时,我没有看到正在构建此库。 谁能提供一些关于如何使用 flex-builder 构建 aruco 库的指导?
    发表于 03-31 06:13

    用树莓派搞深度学习?TensorFlow启动!

    介绍本页面将指导您在搭载64位Bullseye操作系统的RaspberryPi4上安装TensorFlow。TensorFlow是一个专为深度学习开发的大型软件库,消耗大量资源。您可以在
    的头像 发表于 03-25 09:33 968次阅读
    用树莓派搞<b class='flag-5'>深度</b><b class='flag-5'>学习</b>?TensorFlow启动!

    如何排除深度学习工作台上量化OpenVINO™的特定层?

    无法确定如何排除要在深度学习工作台上量化OpenVINO™特定层
    发表于 03-06 07:31

    请问DLPLCRC900DEVM上的Flex 和dlp050XY上的Flex网络名称怎么对应?

    请问DLPLCRC900DEVM上的Flex 和dlp050XY上的Flex网络名称怎么对应? 控制板M_DDA[15:0]对应 DMD DDC_[15:0] 控制板M_DDB[15:0]对应
    发表于 02-24 07:36

    军事应用中深度学习的挑战与机遇

    人工智能尤其是深度学习技术的最新进展,加速不同应用领域的创新与发展。深度学习技术的发展深刻影响了军事发展趋势,导致战争形式和模式发生重大变
    的头像 发表于 02-14 11:15 819次阅读

    BP神经网络与深度学习的关系

    ),是一种多层前馈神经网络,通过反向传播算法进行训练。BP神经网络由输入层、一个或多个隐藏层和输出层组成,通过逐层递减的方式调整网络权重,目的是最小化网络的输出误差。 二、深度学习的定义与发展
    的头像 发表于 02-12 15:15 1348次阅读

    AI自动化生产:深度学习在质量控制中的应用

    随着科技的飞速发展,人工智能(AI)与深度学习技术正逐步渗透到各个行业,特别是在自动化生产中,其潜力与价值愈发凸显。深度学习软件不仅使人工和基于规则的算法难以胜任的大量生产任务得以自动
    的头像 发表于 01-17 16:35 1213次阅读
    AI自动化生产:<b class='flag-5'>深度</b><b class='flag-5'>学习</b>在质量控制中的应用

    英飞凌携手Flex展示用于软件定义汽车的区域控制器设计平台

      【 2025 年 1 月 17 日 , 德国慕尼黑讯】 在2025年国际消费电子展(CES 2025)期间,全球功率系统和物联网领域的半导体领导者英飞凌科技股份公司(FSE代码:IFX
    发表于 01-17 14:35 462次阅读
    英飞凌携手<b class='flag-5'>Flex</b>展示用于软件定义汽车的区域控制器设计平台

    DRAM的基本构造与工作原理

    本文介绍动态随机存取器DRAM的基本结构与工作原理,以及其在器件缩小过程中面临的挑战。 DRAM的历史背景与发展 动态随机存取器(Dynamic Random Access Memory,简称
    的头像 发表于 12-17 14:54 5228次阅读
    <b class='flag-5'>DRAM</b>的基本构造与工作原理