0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

知存科技致力于开发的基于NOR Flash的存算一体化人工智能芯片

uGUA_ARMacceler 来源:未知 作者:李倩 2018-07-04 16:07 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

知存科技致力于开发的基于NOR Flash的存算一体化人工智能芯片,其芯片特点是能耗低、运算效率高、速度快和成本低,适用于终端设备的人工智能应用。

知存科技演讲实录

知存科技是一家刚刚成立半年的公司,今年3月份正式运营,专注于开发低功耗低成本的存算一体AI芯片。

人工智能目前还处于发展阶段,当前的落地的应用场景较少,没有达到社会的期望。随着人工智能算法的进步以及芯片算力的提升,未来人工智能将会出现一个更大的爆发点,会涌现更多的应用落地。

人工智能芯片作为人工智能的载体,被大家寄予厚望,在2020年,人工智能芯片市场预计达到千亿量级。传统芯片巨头比如armIntel、NVIDIA都通过自研和收购推出了数款芯片,互联网巨头比如Google、亚马逊和微软等也都正推出和开发的人工智能芯片。这个领域的创业公司就更多了,中国的几家头部公司就做得非常好。

人工智能依赖的算法有几大特点:这是一个很庞大和复杂的网络,有很多参数要存储,也需要完成大量的计算,这些计算当中又会产生大量数据。为了完成大量计算的过程当中,一般芯片的设计思路是将大量增加并行的运算单元,比如上千个卷积单元,需要调用的存储资源也在增大,然而存储资源一直是有限的。随着运算单元的增加,每个运算单元能够使用的存储器的带宽和大小在逐渐减小,存储器是人工智能芯片的瓶颈。

在很多人工智能推理运算中,90%以上的运算资源都消耗在数据搬运的过程。芯片内部到外部的带宽以及片上缓存空间限制了运算的效率。现在工业界和学术界很多人都认为存算一体化是未来的趋势。

存算一体化分为几种:DRAM和SSD中植入计算芯片或者逻辑计算单元,可以被叫做存内处理或者近数据计算,这种方式非常适合云端的大数据和神经网络训练等应用;另一种就是存储和计算完全结合在一起,使用存储的器件单元直接完成计算,比较适合神经网络推理类应用。我们研发的是后者这样的技术,将存储和计算结合到闪存单元中的存算一体。闪存技术已经非常成熟,商用几十年了,成本很低。

当前商用的神经网络非常庞大,拥有几百万到几千万的权重参数,或者推理过程中需要完成几百万到上千万个乘加法运算。传统的计算系统需要将网络权重参数存在片外的非易失性存储器中,比如NAND Flash或者NOR Flash。运算的过程中,需要把部分需要的权重参数搬运到DRAM,再把小部分参数传入到芯片中的SRAM和eDRAM中,之后导入寄存器和运算单元完成运算。神经网络运算需要大面积SRAM和eDRAM来减少片内外数据搬运和提高运算效率,但是由于片上存储成本的限制,也需要高成本高速度的DRAM来缓存片上无法容纳的权重参数和临时数据。

我们存算一体化的做法是这样的:我们的Flash存储单元本身就可以存储神经网络的权重参数,同时又可以完成和此权重相关的乘加法运算,就是将乘加法运算和存储全部融合到一个Flash单元里面。举个例子,只需要100万个Flash单元,就可以存储100万个权重参数同时并行完成100万次乘加法运算。我们做的是这样一款芯片,深度学习网络被映射到多个Flash阵列,这些Flash阵列不仅存储和深度学习网络同时完成网络的推理,这个过程不需要逻辑计算电路。这种方式的运算效率非常高,成本很低,单个Flash单元能够完成7、8 bit的乘加法运算。

之前我们说我们芯片有两个特点:一个是运算效率高,相比于现在基于冯诺依曼架构的深度学习芯片,大概能够提高运算效率10-50倍;另一个是产品成本低,节省了DRAM、SRAM、片上并行计算单元的面积消耗,简化了系统的设计,同时无需采用先进的芯片加工工艺,可以数倍地降低生产成本,几十倍地降低流片和研发成本。当前阶段,我们寻找的是对成本和运算效率(功耗)敏感的应用,比如终端的低功耗低成本的语音识别应用。未来,随着人工智能和物联网的发展,我们会拓展更多的应用场景,比如说低成本和低功耗的感知应用和人机交互。

2014年,我们开始在加州大学圣芭芭拉分校的实验室做这项技术的研发,完成过6次流片和技术验证。去年年末在北京注册的公司,今年3月份正式开始运营,仅仅5个月的时间我们就把设计送出去流片,顺利的话,过3-4个月就会完成芯片测试,争取明年量产。我们的团队毕业于北京大学、北京航空航天大学、美国加州大学洛杉矶分校,加州大学圣芭芭拉分校等学校。核心团队成员大部分都有十年以上的行业经验,团队目前有11个人,年末也会扩大团队规模。

晶体管电容这些东西怎么在Cell做到Computing?

乘法计算的方式是通过类似模拟电路的电流镜方式。输入电流转换成电压耦合到Flash晶体管的控制栅上,Flash晶体管的输出电流等于输入电流和存储的权重相乘。加法的计算方式类似于并联电路电流求和。

怎么看待Intel新的X Point技术?

这是一项很新的技术,目前主要问题是成本和系统支持度的问题,但随着产业链的发展,成本会越来越低,速度也会更快,系统也会更好的支持X-Point兼有的高速和非易失性的特性。这项技术的selector做得很好。作为存储器、内存或者他们的统一体这类应用来说,未来成本降低之后,会有非常大的优势。Intel在这个技术的市场推广上也投入很多精力,其他后来者可能会坐享其成。

北京知存科技有限公司成立于2017年10月,专注于开发基于存算一体的人工智能芯片和系统。公司通过自主研发的核心技术将计算和存储融合在NOR Flash存储芯片中,大幅度提高运算的并行读,提升人工智能核心运算效率多个数量级。该设计方法还简化了芯片设计架构,节省了内存、缓存和神将网络加速器模块的支出,显著地降低了芯片成本。当前公司正在流片的是面向终端设备的低功耗语音识别芯片。公司将长期致力于深入研发和优化存算一体化技术,将之应用于广阔的人工智能应用场景中。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片
    +关注

    关注

    462

    文章

    53581

    浏览量

    459715
  • 存储器
    +关注

    关注

    39

    文章

    7715

    浏览量

    170916
  • 人工智能
    +关注

    关注

    1813

    文章

    49775

    浏览量

    261836
  • 存算一体
    +关注

    关注

    1

    文章

    114

    浏览量

    4979

原文标题:五期Demo Day路演回顾 | 知存科技:让AI设备无所不在

文章出处:【微信号:ARMaccelerator,微信公众号:安创空间ARMaccelerator】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    2025 CCF SYS科技专场论坛精彩回顾

    近日,2025 CCF SYS 科技专场论坛《多模态大模型的一体加速》以超预期的火爆人气与丰硕交流成果,在北京圆满收官。
    的头像 发表于 10-11 09:21 590次阅读

    一体AI芯片公司九天睿芯完成超亿元B轮融资

    全球领先的一体AI芯片公司九天睿芯(英文:Reexen Technology)近日宣布,公司已完成B轮融资,规模超亿元人民币。
    的头像 发表于 10-10 11:41 746次阅读

    科技荣获2025半导体市场创新表现奖

    8月26日,第22届深圳国际电子展(elexcon2025)现场正式揭晓聚焦行业技术突破与价值创造的“2025半导体市场创新表现奖” ,科技凭借WTM系列
    的头像 发表于 08-28 17:09 1284次阅读

    芯动科技与科技达成深度合作

    随着3D堆叠方案凭借低功耗、高带宽特性,有望成为下代移动端高端热门技术。芯动科技瞄准3DIC市场,与全球领先的一体芯片企业
    的头像 发表于 08-27 17:05 1058次阅读

    文看懂“一体

    今天这篇文章,我们来聊个最近几年很火的概念——一体。为什么会提出“
    的头像 发表于 08-18 12:15 972次阅读
    <b class='flag-5'>一</b>文看懂“<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b>”

    一体技术加持!后摩智能 160TOPS 端边大模型AI芯片正式发布

    ,同步推出力擎™系列M.2卡、力谋®系列加速卡及计算盒子等硬件组合,形成覆盖移动终端与边缘场景的完整产品矩阵。这系列动作标志着后摩智能一体
    的头像 发表于 07-30 07:57 7660次阅读
    <b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b>技术加持!后摩<b class='flag-5'>智能</b> 160TOPS 端边大模型AI<b class='flag-5'>芯片</b>正式发布

    缓解高性能一体芯片IR-drop问题的软硬件协同设计

    在高性能计算与AI芯片领域,基于SRAM的一体(Processing-In-Memory, PIM)架构因兼具计算密度、能效和精度优势成为主流方案。随着
    的头像 发表于 07-11 15:11 939次阅读
    缓解高性能<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b><b class='flag-5'>芯片</b>IR-drop问题的软硬件协同设计

    国际首创新突破!中国团队以一体排序架构攻克智能硬件加速难题

    2025 年 6 月 25 日,北京大学团队在智能计算硬件方面取得领先突破,国际上首次实现了基于一体技术的高效排序硬件架构 (A fast and reconfigurable
    的头像 发表于 07-02 16:50 568次阅读
    国际首创新突破!中国团队以<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b>排序架构攻克<b class='flag-5'>智能</b>硬件加速难题

    第二届科技杯华东高校内计算创新应用大赛正式启动

    在数字浪潮席卷各行业的当下,数据量呈爆炸式增长,力需求也水涨船高。内计算架构作为创新解决方案,备受产学研各界关注。为推动内计算技术产学研融合创新和发展,
    的头像 发表于 05-06 17:51 708次阅读

    苹芯科技 N300 一体 NPU,开启端侧 AI 新征程

    随着端侧人工智能技术的爆发式增长,智能设备对本地力与能效的需求日益提高。而传统冯·诺依曼架构在数据处理效率上存在瓶颈,“内存墙”问题成为制约端侧AI性能突破的关键掣肘。在这背景下,
    的头像 发表于 05-06 17:01 885次阅读
    苹芯科技 N300 <b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b> NPU,开启端侧 AI 新征程

    科技产学研融合战略再启新篇

    科技产学研融合战略再启新篇。近日,清华大学-科技“多模态智能
    的头像 发表于 04-24 09:11 923次阅读

    【「芯片通识课:本书读懂芯片技术」阅读体验】从deepseek看今天芯片发展

    和计算是分开的。一体化是近年来计算技术上的重大创新。 现如今的npu,如rk3588上的版本,力已经达到6TOPS,足以运行眼下最流行的DeepSeek(1.5B版本)!笔者移植
    发表于 04-02 17:25

    济南市中区一体化中心上线DeepSeek

    济南市中未来产业发展有限公司(简称“市中产发”)联合华为、北京昇腾和清昴智能基于市中区一体化中心(国家大学科技园节点)昇腾
    的头像 发表于 02-19 10:38 1181次阅读

    一体行业2024年回顾与2025年展望

    2024年,大模型技术的迅猛发展成为人工智能领域的核心驱动力,其对硬件力和存储效率的极致需求,促使一体技术在全球范围内迎来前所未有的关
    的头像 发表于 01-23 11:24 1714次阅读

    芯 · 智启未来 — 2024苹芯科技产品发布会盛大召开

    8月8日,国际领先的一体芯片开拓者——苹芯科技在北京召开“
    的头像 发表于 12-18 15:31 2376次阅读
    <b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>于</b>芯 · 智启未来 — 2024苹芯科技产品发布会盛大召开