0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AMD助力HyperAccel开发全新AI推理服务器

Xilinx赛灵思官微 来源:Xilinx赛灵思官微 2024-09-18 09:37 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

HyperAccel 是一家成立于 2023 年 1 月的韩国初创企业,致力于开发 AI 推理专用型半导体器件和硬件,最大限度提升推理工作负载的存储器带宽使用,并通过将此解决方案应用于大型语言模型来提高成本效率。HyperAccel 针对新兴的生成式 AI 应用提供超级加速的芯片 IP/解决方案。HyperAccel 已经打造出一个快速、高效且低成本的推理系统,加速了基于转换器的大型语言模型( LLM )的推理,此类模型通常具有数十亿个参数,例如 OpenAI 的 ChatGPT 和 Meta 的 Llama 3 等 Llama LLM。其 AI 芯片名为时延处理单元( LPU ),是专门用于 LLM 端到端推理的硬件加速器。

项目挑战

随着 LLM 应用的扩展,对高效、快速和具成本效益的推理解决方案的需求不断上升。对于云服务提供商而言,快速且成本效益高的推理硬件对于托管高性能的生成式 AI 应用并降低总拥有成本( TCO )至关重要。对于 AI 企业来说,一个直观的软件堆栈平台是实现其应用或模型无缝部署的必备条件。对于服务业务,提供全面的端到端解决方案也是必要的,有利于将最先进的 AI 技术集成到更有效和先进的服务中。

解决方案

HyperAccel 提出通过开发名为“Orion”的服务器来解决成本和性能问题,该服务器搭载了一个为 LLM 推理量身定制的专用处理器,基于多个高性能 AMD FPGA部署。Orion 充分利用每个 FPGA 的存储器带宽和硬件资源以获得最高水平的性能。这种可扩展的架构支持最新的 LLM,此类模型通常包含数十亿个参数。

Orion 拥有 16 个时延处理单元( LPU ),它们分布在两个 2U 机架中,提供总共 7.36TB/s 的 HBM 带宽和 14.4 万个 DSP。LPU 能加速内存和计算都非常密集的超大规模生成式 AI 工作负载。Orion 及其 256GB 的 HBM 容量支持多达千亿参数的最先进 LLM。上图展示了两个 2U 机箱之一,配有 8 个 LPU。

下图显示了 LPU 架构,其中矢量执行引擎由 AMD Alveo U55C 高性能计算卡支持。Alveo U55C 卡具有高带宽存储器( HBM2 ),解决了提供低时延AI 的最关键性能瓶颈——存储器带宽。此外,它们能够将 200 Gbps的高速网络集成到单个小型板卡中,并且经过精心设计可在任何服务器中部署。

反过来,每个 Alveo 加速卡都由 FPGA 架构驱动。鉴于 FPGA 的大规模硬件并行性和灵活应变的存储器层次结构,FPGA 固有的低时延特性非常适合 LLM 所需的实时 AI 服务。Alveo 卡采用了强大的 Virtex XCU55P UltraScale+ FPGA,可提供高达 38 TOPS 的 DSP 计算性能,有助于 AI 推理优化,包括用于定点与浮点计算的 INT8。这款 FPGA 能够根据客户反馈调整其处理器( LPU )的架构,例如,根据要求在Llama模型中实现一些非标准的处理,进而提供灵活的解决方案,能够适应不断变化的市场和 LLM 参数条件。

wKgaombqLxCAdBaIAAGAxEvslZA335.png

设计成效

Orion 的高性能和可扩展性是通过 LPU 实现的,由 AMD Alveo 加速卡和相关的 FPGA 以及HyperAccel 的可扩展同步链路( ESL )技术提供支持。这些技术最大限度提升了 P2P 传输中的存储器带宽使用,有利于灵活处理,同时消除了 P2P 计算的同步开销 ESL 属于为 LLM 推理中的数据传输优化的通信链路。值得注意的是,Orion 在支持标准 FP16 数据精度的硬件上保持了卓越的准确性。

HyperAccel Orion

的性能

针对时延进行优化的 HyperAccel Orion 与基于转换器的 LLM(如 GPT、Llama 和 OPT)无缝集成,能够在 1.3B 模型上每秒生成超过 520 个令牌,在 7B 模型上每秒生成 175 个令牌。除了卓越的性能外,Orion 还展示了出色的能源效率,在 66B 模型上生成单个令牌只需 24 毫秒,而功耗仅为 600W。

wKgaombqLxWAduahAADVjgfBfyc650.png

HyperAccel LPU 的性能(来源:https://www.hyperaccel.ai)

HyperAccel Orion

—— 工作负载多样性

Orion 提供端到端的解决方案服务,可作为云端服务部署。对于拥有专有 LLM 的AI 企业或存在内部数据隐私与安全需求的专业部门,Orion 也能够以本地解决方案的形式进行安装。Orion 能够处理以下工作负载/应用:

客户服务:通过虚拟聊天机器人和虚拟助手实时处理查询,因此人工客服将有时间处理更复杂的问题。

人机界面:在自助服务终端、机器人和其它设备中支持与语言相关的功能,以增强客户互动体验。

文本生成:协助生产、总结和精炼复杂的文本内容,为用户提供便利。

语言翻译:翻译客户查询和回复信息,打破语言障碍,扩大企业的全球影响力。

问答:根据大量数据以及此前的互动和偏好记录,定制针对个别客户的回复,以提高客户满意度。

进一步了解AMD Virtex UltraScale+ FPGA和Alveo U55C 加速卡,请访问产品专区。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • FPGA
    +关注

    关注

    1656

    文章

    22298

    浏览量

    630458
  • amd
    amd
    +关注

    关注

    25

    文章

    5650

    浏览量

    139056
  • 服务器
    +关注

    关注

    13

    文章

    10097

    浏览量

    90907
  • AI
    AI
    +关注

    关注

    90

    文章

    38188

    浏览量

    296985

原文标题:HyperAccel 借助 AMD 加速卡与 FPGA 打造全新 AI 推理服务器

文章出处:【微信号:赛灵思,微信公众号:Xilinx赛灵思官微】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Microchip推出模型语境协议(MCP)服务器助力AI驱动的产品数据访问

    服务器支持跨AI平台获取可信产品信息,简化工作流程、加速设计并提高生产力 为进一步兑现公司为嵌入式工程师开发AI解决方案的承诺,Microchip Technology Inc.(微
    的头像 发表于 12-04 16:45 515次阅读

    对话|AI服务器电源对磁性元件提出的新需求

    编者按: 自ChatGPT、DeepSeek等大型AI模型应用爆发以来,市场对AI服务器的需求激增,其配套电源的发展前景已成为行业共识。目前,I服务器电源企业的出货规模仍有限,
    的头像 发表于 10-11 14:55 508次阅读
    对话|<b class='flag-5'>AI</b><b class='flag-5'>服务器</b>电源对磁性元件提出的新需求

    ROHM推出全新100V功率MOSFET助力AI服务器和工业电源高效能

    近期,ROHM半导体公司发布了一款全新的100V功率MOSFET——RY7P250BM。这款器件专为48V电源架构中的热插拔电路设计,广泛应用于AI服务器及工业电源,尤其是在需要电池保护的场合。随着
    的头像 发表于 07-03 10:23 798次阅读
    ROHM推出<b class='flag-5'>全新</b>100V功率MOSFET<b class='flag-5'>助力</b><b class='flag-5'>AI</b><b class='flag-5'>服务器</b>和工业电源高效能

    ai服务器是什么?与普通服务器有什么区别

    AI服务器并非简单的硬件堆砌,而是专门为人工智能任务设计的高性能计算系统。其核心目标是高效处理海量数据并行计算(如矩阵乘法、模型推理),并针对AI工作负载(如深度学习训练、大模型
    的头像 发表于 06-24 16:39 2973次阅读

    AI 服务器电源如何迭代升级?

    AI 算力需求增长的今天,AI 服务器电源正陷入 “性能瓶颈与国产替代并行、场景适配与技术创新交织” 的双重挑战。 由Big-Bit商务网、广东省磁性元器件行业协会主办的2025中国电子热点
    的头像 发表于 06-23 14:51 878次阅读

    RAKsmart服务器如何助力企业破解AI转型的难题

    当今,企业AI转型已成为提升竞争力的核心战略。然而,算力不足、成本失控、部署复杂等问题却成为横亘在转型路上的“三座大山”。面对这一挑战,RAKsmart服务器凭借其技术创新与全球化资源整合能力,为企业提供了一套从底层硬件到上层应用的全栈解决方案,
    的头像 发表于 05-27 10:00 335次阅读

    基于RAKsmart云服务器AI大模型实时推理方案设计

    面对高并发请求、严格的响应延迟要求及波动的业务负载,传统本地化部署的算力瓶颈愈发显著。RAKsmart云服务器凭借其弹性计算资源池、分布式网络架构与全栈AI加速能力,为AI大模型实时推理
    的头像 发表于 05-13 10:33 473次阅读

    RAKsmart服务器如何赋能AI开发与部署

    AI开发与部署的复杂性不仅体现在算法设计层面,更依赖于底层基础设施的支撑能力。RAKsmart服务器凭借其高性能硬件架构、灵活的资源调度能力以及面向AI场景的深度优化,正在成为企业突破
    的头像 发表于 04-30 09:22 605次阅读

    AI服务器硬件攻坚战,从时钟缓冲到电容,解决功耗、带宽、散热难题

    电子发烧友网报道(文/李弯弯)AI服务器是 专为人工智能工作负载设计和优化的高性能计算系统,其核心作用是为机器学习、深度学习、大模型训练与推理等任务提供强大的算力支撑和高效的资源管理。AI
    的头像 发表于 04-28 01:09 4641次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>服务器</b>硬件攻坚战,从时钟缓冲到电容,解决功耗、带宽、散热难题

    AI 推理服务器都有什么?2025年服务器品牌排行TOP10与选购技巧

    根据行业数据,AI推理服务器的性能差异可以达到10倍以上。比如,用普通服务器跑一个700亿参数的大模型,可能需要30秒才能出结果,而用顶级服务器
    的头像 发表于 04-09 11:06 7406次阅读
    <b class='flag-5'>AI</b> <b class='flag-5'>推理</b><b class='flag-5'>服务器</b>都有什么?2025年<b class='flag-5'>服务器</b>品牌排行TOP10与选购技巧

    RAKsmart服务器如何重塑AI高并发算力格局

    AI大模型参数量突破万亿级、实时推理需求激增的当下,传统服务器架构的并发处理能力已逼近物理极限。RAKsmart通过“硬件重构+软件定义”的双引擎创新,推出新一代AI
    的头像 发表于 04-03 10:37 696次阅读

    国产推理服务器如何选择?深度解析选型指南与华颉科技实战案例

    人工智能技术的爆发催生了对推理算力的迫切需求,而进口服务器的高成本与技术依赖性,推动了国产推理服务器的快速发展。据IDC预测,到2025年,中国AI
    的头像 发表于 03-24 17:11 945次阅读
    国产<b class='flag-5'>推理</b><b class='flag-5'>服务器</b>如何选择?深度解析选型指南与华颉科技实战案例

    NVIDIA 推出开放推理 AI 模型系列,助力开发者和企业构建代理式 AI 平台

    月 18 日 ——  NVIDIA 今日发布具有推理功能的开源 Llama Nemotron 模型系列,旨在为开发者和企业提供业务就绪型基础,助力构建能够独立工作或以团队形式完成复杂任务的高级
    发表于 03-19 09:31 336次阅读
    NVIDIA 推出开放<b class='flag-5'>推理</b> <b class='flag-5'>AI</b> 模型系列,<b class='flag-5'>助力</b><b class='flag-5'>开发</b>者和企业构建代理式 <b class='flag-5'>AI</b> 平台

    助力AI服务器!思瑞浦提供高性能产品与技术应用方案

    聚焦模拟和数模混合当前,AIGC(人工智能生成内容)正蓬勃发展并成为全球关注焦点,AIGC技术的爆发式增长对算力基础设施提出了更高要求。AI服务器作为算力核心,需处理海量数据并支持复杂模型推理,其
    的头像 发表于 03-17 17:52 936次阅读
    <b class='flag-5'>助力</b><b class='flag-5'>AI</b><b class='flag-5'>服务器</b>!思瑞浦提供高性能产品与技术应用方案

    联想发布基于第五代AMD EPYC处理服务器产品

    系列服务器产品家族以及一款全新ThinkSystem AMD塔式服务器,双方共同携手加速中国 AI算力基础设施的高速发展,满足千行万业智能化
    的头像 发表于 12-16 16:23 1210次阅读