0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

进一步了解大规模部署AI的更优解:Habana® Gaudi®2

英特尔中国 来源:未知 2023-07-21 18:15 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

大语言模型(Large Language Model,下文简称为:LLM)的发展如火如荼。以ChatGPT为代表的LLM可执行更为广泛的任务并具有更高的智能化程度,刷新了人们对AI技术的新认知。当然,LLM规模庞大,通常包含数十亿参数,需要海量的训练数据与强大算力支撑才能达到预期的效果。

其实,无论LLM还是其他应用越来越广泛的深度学习模型,从模型训练到推理应用,都需要高性能、可扩展的基础设施作为底层支撑,这往往也意味着高昂的成本。近日,英特尔发布的最新Habana Gaudi2,专为训练大语言模型而构建,并为数据中心大规模扩展而设计,同时为深度学习训练和推理工作负载提供极具性价比的解决方案。

在6月公布的MLCommonsMLPerf基准测中,Gaudi2在GPT-3模型、计算机视觉模型ResNet-50(使用8个加速器)、Unet3D(使用8个加速器),以及自然语言处理模型BERT(使用8个和64个加速器)上均取得了优异的训练结果。与市场上其他面向大规模生成式AI和大语言模型的产品相比,Gaudi2拥有卓越的性能与领先的性价比优势,能够帮助用户提升运营效率的同时,降低运营成本。

Gaudi2实现性能、可扩展性和能效飞跃

第二代Gaudi AI深度学习夹层卡 HL-225B 专为数据中心实现大规模横向扩展而设计。其AI处理器基于第一代 Gaudi的高效架构打造而成,目前采用7纳米制程工艺,在性能、可扩展性和能效方面均实现了飞跃。

夹层卡搭载的HL-2080 处理器拥有24个完全可编程的第四代张量处理器核心(TPC)。这些核心原生设计便能够为广泛的深度学习工作负载加速,同时还赋予用户按需进行优化和创新的灵活性。此外,它还集成了96GB HBM2e内存和48MB SRAM,支持600瓦夹层卡级热设计功耗(TDP)。

Gaudi2 处理器具备出色的2.1 Tbps 网络容量可扩展性,原生集成21个100 Gbps RoCE v2 RDMA端口,可通过直接路由实现Guadi 处理器间通信。Gaudi2处理器集成了专用媒体处理器,用于图像和视频解码及预处理。

此外,Gaudi2 深度学习夹层卡符合OCP OAM 1.1(开放计算平台之开放加速器模块)等多种规范,可以为客户带来系统设计的灵活性。

wKgZomToEiOAHhCbAANfFZZIFfw645.pngwKgZomToEiOAKQBNAADoVCpclaA981.png

图:Gaudi2 深度学习夹层卡 HL-225B 主要参数

多维度技术创新,实现卓越性价比

Gaudi2 处理器是一款高性能、完全可编程的AI处理器,它整合了多项技术创新,从计算架构、内存和扩展能力三个维度打造全新的AI 专用处理器。同时,它具有高内存带宽/容量和基于标准以太网技术的纵向扩展能力,支持使用外接网卡通过PCIe接口实现横向扩展,满足多节点集群需要。

[ 性能更高的计算架构 ]

Gaudi2 采用经过验证的高性能深度学习AI训练处理器架构,利用Habana完全可编程的TPC和GEMM引擎,支持面向AI的高级数据类型:FP8、BF16、FP16、TF32和FP32。TPC核心旨在支持深度学习训练和推理工作负载。TPC是一款VLIW SIMD矢量处理器,其指令集和邮件经过定制,可高效处理上述工作负载。

[ 更先进的内存技术 ]

内存带宽和容量与计算能力同样重要。Gaudi2 采用先进的HBM内存技术,内存容量高达96GB,内存带宽高达2.4TB/s。Gaudi先进的HBM控制器已针对随机访问和线性访问进行了优化,在各种访问模式下均可提供高内存带宽。

[ 通过集成RDMA实现纵向扩展 ]

Gaudi AI训练处理器芯片上集成了RDMA(RoCEv2),可与成熟且广泛使用的以太网进行连接。HL-2080芯片互连技术基于42对56 Gbps Tx/Rx PAM4 SerDes(配置为21个100 GbE端口)发挥作用。

与广泛的软件生态一起,
帮助简化模型的开发和迁移

为支持客户轻松构建模型,或将当前基于GPU的模型业务和系统迁移到基于全新Gaudi2服务器,并帮助保护软件开发投入,SynapseAI软件套件针对Gaudi平台深度学习业务进行了优化,旨在与广泛的软件生态系统一起,帮助简化模型的开发和迁移。

SynapseAI 软件套件旨在提高 Habana AI处理器的易用性和支持高性能训练,能够将神经网络拓扑高效映射到Gaudi系列硬件上。该软件套件包括Habana 的图编译器和运行时、经过性能优化的TPC算子库、固件和驱动程序以及开放工具,例如用于自定义核心开发的TPC 编程工具套件和SynapseAI 图编译器。SynapseAI与TensorFlow和PyTorch等主流框架集成,并已针对基于Gaudi AI 处理器家族产品的训练进行了优化。数据科学家和开发人员在这里可以找到开始基于Gaudi AI 处理器进行训练所需的各类信息资料,包括教程、参考模型、操作指南、文档等。

wKgZomToEiSACjlXAAGSCOwikSM850.jpg

扩展AI产品阵容,加速AI落地

Gaudi2不仅以高性能为AI模型的训练与推理加速,其高扩展性和性价比,也将加速AI应用落地的进程。多年来,借助强大的软硬件基础,英特尔基于全面的AI产品和解决方案,与广泛合作伙伴一同构建开放生态,为越来越多不同需求和场景的AI应用落地提供更多元的解决方案,持续引领产品技术发展,进一步加速大规模深度学习部署,助力中国本地AI市场发展

wKgZomToEiSAIdlVAAJPLzW-Bdw902.jpg

想看更多“芯”资讯


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 英特尔
    +关注

    关注

    61

    文章

    10279

    浏览量

    179445
  • cpu
    cpu
    +关注

    关注

    68

    文章

    11224

    浏览量

    223131

原文标题:进一步了解大规模部署AI的更优解:Habana® Gaudi®2

文章出处:【微信号:英特尔中国,微信公众号:英特尔中国】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    晶科储能进一步扩大英国储能项目布局

    晶科储能近日宣布进一步扩大其在英国的项目布局,新增加套140MWh的电网级储能系统。首期的140MWh项目正在交付过程中,两期项目合计容量达到280MWh,成为英国规模最大的电池储能项目之
    的头像 发表于 12-09 15:19 411次阅读

    BlackBerry QNX与芯驰科技进一步深化战略合作

    BlackBerry有限公司(纽约证券交易所代码:BB;多伦多证券交易所代码:BB)旗下业务部门QNX与中国创新汽车半导体供应商芯驰科技今日宣布,双方将进一步深化合作,基于芯驰科技最新代X10
    的头像 发表于 12-04 16:42 1543次阅读

    BlackBerry QNX与众森软件进一步深化战略合作

    今日,深圳市众森软件有限公司(以下简称"众森软件")正式宣布与全球领先的实时操作系统与嵌入式软件供应商 QNX(BlackBerry有限公司旗下部门QNX)进一步深化战略合作。此次合作将进一步推动下代智能网联汽车与智慧出行解决
    的头像 发表于 12-04 16:40 1695次阅读

    纳微半导体与文晔科技进一步强化战略合作

    ——文晔科技股份有限公司(台股代码:3036)今日宣布双方将进一步强化战略合作,共同为亚洲市场提供更强大的氮化镓与碳化硅功率器件技术支持与供应链服务。
    的头像 发表于 12-04 15:13 788次阅读

    上汽奥迪与创维汽车智能合作进一步深化升级

    近日,创维汽车智能迎来重要突破:上汽奥迪客户将当前公司开发的显示屏项目沿用至上汽奥迪其他主力车型。这决定不仅体现了客户对创维汽车智能技术实力与服务品质的高度认可,更标志着双方合作进一步深化升级。
    的头像 发表于 11-25 10:32 498次阅读

    美国 | FCC即将通过新规,进一步封堵华为、海康威视

    FCC即将通过新规,进一步封堵华为、海康威视2025年10月7日,美国联邦通信委员会(FCC)主席宣布,FCC委员会即将投票表决项新规,旨在填补现有法规中可能被利用的两大漏洞,以阻止存在“风险
    的头像 发表于 10-13 18:11 477次阅读
    美国 | FCC即将通过新规,<b class='flag-5'>进一步</b>封堵华为、海康威视

    云知声与头部财产保险公司进一步扩大合作

    近日,云知声智能科技股份有限公司(以下简称“云知声”,股票代码:9678.HK)与某头部财产保险公司(以下简称“该财险公司”)进一步扩大合作,双方正式签署协议,将业务从智能医疗审核延伸至该财险公司关注的伤残等级、三期鉴定等更多维度的车险核赔风控业务,标志着双方合作进入规模
    的头像 发表于 09-10 15:43 631次阅读

    使用Ansible实现大规模集群自动化部署

    当你面对1000+服务器需要部署时,你还在台台手工操作吗?本文将揭秘如何用Ansible实现大规模集群的自动化部署,让运维效率提升10倍!
    的头像 发表于 08-27 14:41 575次阅读

    蔚来进一步拓展其全球业务

    8月18日,蔚来公司宣布将于2025年至2026年期间陆续进入新加坡、乌兹别克斯坦和哥斯达黎加三个市场,进一步拓展其全球业务,为当地用户带来创新、可持续、高品质的智能电动出行体验。
    的头像 发表于 08-20 17:00 1152次阅读

    软通动力与中国联通合作关系进一步深化

    近日,软通动力成功中标联通(广东)产业互联网有限公司2025年软件技术开发集中采购项目,中标份额位列榜首。这突破性成果,不仅彰显了软通动力在数字技术服务领域的综合实力,也标志着其与中国联通合作关系的进一步深化。
    的头像 发表于 07-01 09:18 972次阅读

    晶圆级封装:连接密度提升的关键一步

    了解晶圆级封装如何进一步提高芯片的连接密度,为后续技术发展奠定基础。
    的头像 发表于 06-27 16:51 564次阅读

    三星携Galaxy AI和以软件为中心的网络技术亮相MWC 2025,进一步强化移动AI领先优势

    3月3日-6日,世界移动通信大会(MWC2025)在巴塞罗那 Fira Gran Via展馆举行。本次大会上,三星电子进一步创新移动AI体验,三星移动业务和网络业务部门在现场展示了旗下包括下
    的头像 发表于 03-05 15:43 618次阅读
    三星携Galaxy <b class='flag-5'>AI</b>和以软件为中心的网络技术亮相MWC 2025,<b class='flag-5'>进一步</b>强化移动<b class='flag-5'>AI</b>领先优势

    迅为2K0300开发板进一步刨析,打造HMI体机产品的灵活优势

    迅为2K0300开发板进一步刨析,打造HMI体机产品的灵活优势
    的头像 发表于 02-26 13:58 1059次阅读
    迅为<b class='flag-5'>2</b>K0300开发板<b class='flag-5'>进一步</b>刨析,打造HMI<b class='flag-5'>一</b>体机产品的灵活优势

    英特尔Gaudi 2D AI加速器助力DeepSeek Janus Pro模型性能提升

    近日,DeepSeek公司发布了备受瞩目的Janus Pro模型,其凭借超强性能和高精度在业界引发了广泛关注。为了进一步提升该模型的应用效能,英特尔宣布其Gaudi 2D AI加速器已
    的头像 发表于 02-10 11:10 940次阅读

    DeepSeek发布Janus Pro模型,英特尔Gaudi 2D AI加速器优化支持

    Gaudi 2D AI加速器现已针对该模型进行了全面优化。这优化举措使得AI开发者能够更轻松地实现复杂任务的
    的头像 发表于 02-08 14:35 927次阅读