0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

英特尔发布新一代神经拟态系统Hala Point,11.5亿神经元,12倍性能提升

looger123 来源:looger123 作者:looger123 2024-04-19 09:43 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

作为英特尔首个神经元数量达到11.5亿的神经拟态系统,Hala Point为更高效、规模更大的AI开辟了道路。


英特尔发布了代号为Hala Point的大型神经拟态系统。Hala Point基于英特尔Loihi 2神经拟态处理器打造而成,旨在支持类脑AI领域的前沿研究,解决AI目前在效率和可持续性等方面的挑战。在英特尔第一代大规模研究系统Pohoiki Springs的基础上,Hala Point改进了架构,将神经元容量提高了10倍以上,性能提高了12倍。

英特尔研究院神经拟态计算实验室总监Mike Davies 表示:“目前,AI模型的算力成本正在持续上升。行业需要能够规模化的全新计算方法。为此,英特尔开发了Hala Point,将高效率的深度学习和新颖的类脑持续学习、优化能力结合起来。我们希望使用Hala Point的研究能够在大规模AI技术的效率和适应性上取得突破。”

Hala Point在主流AI工作负载上展现了出色的计算效率。研究显示,在运行传统深度神经网络时,该系统能够每秒完成多达2万万亿次(20 petaops)运算,8位运算能效比达到了15 TOPS/W,相当于甚至超过了基于GPUCPU的架构。Hala Point有望推动多领域AI应用的实时持续学习,如科学研究、工程、物流、智能城市基础设施管理、大语言模型(LLMs)和AI助手(AI agents)。

目前,Hala Point是一个旨在改进未来商用系统的研究原型。英特尔预计其研究将带来实际技术突破,如让大语言模型拥有从新数据中持续学习的能力,从而有望在AI广泛部署的过程中,大幅降低训练能耗,提高可持续性。

image.png

深度学习模型的规模正在不断扩大,参数量可达万亿级。这一趋势意味着AI技术在可持续性上面临着严峻的挑战,有必要探索硬件架构底层的创新。神经拟态计算是一种借鉴神经科学研究的全新计算方法,通过存算一体和高细粒度的并行计算,大幅减少了数据传输。在本月举行的声学、语音与信号处理国际会议(ICASSP)上,英特尔发表的研究表明,Loihi 2在新兴的小规模边缘工作负载上实现了效率、速度和适应性数量级的提升[1]。

Hala Point在其前身Pohoiki Springs的基础上实现了大幅提升,基于神经拟态计算技术提升了主流、常规深度学习模型的性能和效率,尤其是那些用于处理视频、语音和无线通信等实时工作负载的模型。例如,在今年的世界移动通信大会(MWC)上,爱立信研究院(Ericsson Research)就展示了其如何将 Loihi 2神经拟态处理器应用于电信基础设施效率的优化。

Hala Point基于神经拟态处理器Loihi 2打造,Loihi 2应用了众多类脑计算原理,如异步(asynchronous)、基于事件的脉冲神经网络(SNNs)、存算一体,以及不断变化的稀疏连接,以实现能效比和性能的数量级提升。神经元之间能够直接通信,而非通过内存通信,因此能降低整体功耗。

Hala Point系统由封装在一个六机架的数据中心机箱中的1152个Loihi 2处理器(采用Intel 4制程节点)组成,大小相当于一个微波炉。该系统支持分布在 140544 个神经形态处理内核上的多达 11.5 亿个神经元和 1280 亿个突触,最大功耗仅为 2600 瓦。Hala Point还包括 2300 多个嵌入式 x86 处理器,用于辅助计算。

在大规模的并行结构中,Hala Point集成了处理器、内存和通信通道,内存带宽达每秒16PB,内核间的通信带宽达每秒3.5 PB,芯片间的通信带宽达每秒5TB。该系统每秒可处理超过380万亿次8位突触运算和超过240万亿次神经元运算。

在用于仿生脉冲神经网络模型时,Hala Point能够以比人脑快20倍的实时速度运行其全部11.5亿个神经元,在运行神经元数量较低的情况下,速度可比人脑快200倍。虽然Hala Point并非用于神经科学建模,但其神经元容量大致相当于猫头鹰的大脑或卷尾猴的大脑皮层。

在执行AI推理负载和处理优化问题时, Loihi 2神经拟态芯片系统的速度比常规CPU和GPU架构快50倍,同时能耗降低了100倍[1]。早期研究结果表明,通过利用稀疏性高达10比1的稀疏连接(sparse connectivity)和事件驱动的活动,Hala Point运行深度神经网络的能效比高达15 TOPS/W[2],同时无需对输入数据进行批处理。批处理是一种常用于GPU的优化方法,会大幅增加实时数据(如来自摄像头的视频)处理的延迟。尽管仍处于研究阶段,但未来的神经拟态大语言模型将不再需要定期在不断增长的数据集上再训练,从而节约数千兆瓦时的能源。

世界各地领先的学术团体、研究机构和公司共同组成了英特尔神经拟态研究社区(INRC),成员总数超过200个。携手英特尔神经拟态研究社区,英特尔正致力于开拓类脑AI前沿技术,以将其从技术原型转化为业界领先的产品。

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英特尔
    +关注

    关注

    61

    文章

    10275

    浏览量

    179278
  • AI
    AI
    +关注

    关注

    89

    文章

    38090

    浏览量

    296510
  • 深度学习
    +关注

    关注

    73

    文章

    5590

    浏览量

    123900
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    神经元设备和脑机接口有何渊源?

    HUIYING神经元设备的发展历程概述神经元设备的发展经历了从基础信号检测到多功能智能集成的演进过程。自1920年脑电图(EEG)信号首次被发现以来,神经电极技术逐步发展,如1957
    的头像 发表于 11-03 18:03 1158次阅读
    <b class='flag-5'>神经元</b>设备和脑机接口有何渊源?

    脉冲神经元模型的硬件实现

    时,I_i等于1,否则 I_i等于0。当膜电位超过阈值,神经元发出脉冲,然后膜电位变为静息电位vrest,并且膜电位在段时间内不允许改变时间,称为不应期。如果膜电位没有超过阈值,膜电位呈指数衰减直到为静
    发表于 10-24 08:27

    SNN加速器内部神经元数据连接方式

    系统,图中1到N个方块分别表示N个神经元,每当发送端侧的神经元产生个脉冲时,脉冲信息将会通过编码模块编码成 AER 脉冲数据包,各个
    发表于 10-24 07:34

    液态神经网络(LNN):时间连续性与动态适应性的神经网络

    1.算法简介液态神经网络(LiquidNeuralNetworks,LNN)是种新型的神经网络架构,其设计理念借鉴自生物神经系统,特别是秀丽隐杆线虫的
    的头像 发表于 09-28 10:03 695次阅读
    液态<b class='flag-5'>神经</b>网络(LNN):时间连续性与动态适应性的<b class='flag-5'>神经</b>网络

    【「AI芯片:科技探索与AGI愿景」阅读体验】+神经形态计算、类脑芯片

    几年神经元计算及类脑芯片的重大进展。 、云端使用的神经形态计算与类脑芯片 神经形态计算旨在设计和构建包括硬件和软件在内的计算机系统,通过模
    发表于 09-17 16:43

    硬件与应用同频共振,英特尔Day 0适配腾讯开源混大模型

    今日,腾讯正式发布新一代开源大语言模型。英特尔凭借在人工智能领域的全栈技术布局,现已在英特尔® 酷睿™ Ultra 平台上完成针对该模型
    的头像 发表于 08-07 14:42 1117次阅读
    硬件与应用同频共振,<b class='flag-5'>英特尔</b>Day 0适配腾讯开源混<b class='flag-5'>元</b>大模型

    新一代神经拟态类脑计算机“悟空”发布神经元数量超20亿

    电子发烧友网综合报道 8月2日,浙江大学脑机智能全国重点实验室发布新一代神经拟态类脑计算机——Darwin Monkey(中文名“悟空”)。   “悟空”堪称国际首台
    的头像 发表于 08-06 07:57 7265次阅读
    <b class='flag-5'>新一代</b><b class='flag-5'>神经</b><b class='flag-5'>拟态</b>类脑计算机“悟空”<b class='flag-5'>发布</b>,<b class='flag-5'>神经元</b>数量超20<b class='flag-5'>亿</b>

    无刷直流电机单神经元自适应智能控制系统

    常规PID,大大提高了系统的跟随性,能满足BLDCM系统对实时性的要求。 纯分享帖,点击下方附件免费获取完整资料~~~ *附件:无刷直流电机单神经元自适应智能控制系统.pdf 【免责声
    发表于 06-26 13:36

    无刷直流电机单神经元PI控制器的设计

    摘要:研究了种基于专家系统的单神经元PI控制器,并将其应用于无刷直流电机调速系统中。控制器实现了PI参数的在线调整,在具有PID控制器良好动态性能
    发表于 06-26 13:34

    直击Computex 2025:英特尔重磅发布新一代GPU,图形和AI性能跃升3.4

    电子发烧友原创  章鹰 5月19日,在Computex 2025上,英特尔发布了最新全新图形处理器(GPU)和AI加速器产品系列。包括全新英特尔锐炫™ Pro B系列GPU——英特尔
    的头像 发表于 05-21 00:57 6958次阅读
    直击Computex 2025:<b class='flag-5'>英特尔</b>重磅<b class='flag-5'>发布</b><b class='flag-5'>新一代</b>GPU,图形和AI<b class='flag-5'>性能</b>跃升3.4<b class='flag-5'>倍</b>

    直击Computex2025:英特尔重磅发布新一代GPU,图形和AI性能跃升3.4

    5月19日,在Computex 2025上,英特尔发布了最新全新图形处理器(GPU)和AI加速器产品系列。包括全新英特尔锐炫™ Pro B系列GPU——英特尔锐炫Pro B60和
    的头像 发表于 05-20 12:27 5150次阅读
    直击Computex2025:<b class='flag-5'>英特尔</b>重磅<b class='flag-5'>发布</b><b class='flag-5'>新一代</b>GPU,图形和AI<b class='flag-5'>性能</b>跃升3.4<b class='flag-5'>倍</b>

    1.9性能提升英特尔至强6在MLPerf基准测试中表现卓越

    关键项目中,性能表现卓越。测试结果显示,相较于上一代产品,该处理器的AI性能实现了高达1.9的显著提升,这也充分显示了至强6处理器作为现代
    的头像 发表于 04-07 10:58 510次阅读

    英特尔OpenVINO 2025.0正式发布

    生成式AI(GenAI)在模型质量与应用范围上持续爆发式增长,DeepSeek 等顶尖模型已引发行业热议,这种势头预计将在 2025年延续。本次更新聚焦性能提升、更多生成式AI 模型的支持,并针对英特尔
    的头像 发表于 02-21 10:20 1668次阅读
    <b class='flag-5'>英特尔</b>OpenVINO 2025.0正式<b class='flag-5'>发布</b>

    HPE携手英特尔至强6,打造新一代服务器性能巅峰

    近日,慧与科技(HPE)推出了八款全新HPE ProLiant Compute Gen12服务器,标志着新一代企业级服务器领域的新标杆正式诞生。这系列服务器全面搭载了英特尔至强6处理
    的头像 发表于 02-18 10:38 701次阅读

    英特尔发布新一代Core Ultra芯片,为2025移动计算确立新标准

    电子发烧友原创 章鹰   1月6日,在美国拉斯维加斯举办的CES(消费电子)展上,英特尔发布了最新AI PC芯片产品,包括适用于“高性能轻薄”笔记本电脑的 Core Ultra 200H 芯片,以及
    的头像 发表于 01-14 00:58 5447次阅读
    <b class='flag-5'>英特尔</b><b class='flag-5'>发布</b><b class='flag-5'>新一代</b>Core Ultra芯片,为2025移动计算确立新标准