0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

是德科技如何破解人工智能的基础设施困局

是德科技KEYSIGHT 来源:是德科技KEYSIGHT 2025-05-09 15:53 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

人工智能正在改变世界。然而,它需要大量的处理能力。需求每 100 天翻一番,这推动了人工智能基础设施的投资热潮。

数据中心是未来人工智能创新的基础,其性能备受瞩目。由于涉及的规模和复杂性,确保数据中心的稳健性和可靠性是一项艰巨的任务。从芯片到 GPU,再到服务器、网络组件和软件,基础设施的每一个元素都必须在网络层面进行单独和综合评估,以确保其无缝运行并消除任何薄弱环节。这给服务提供商带来了沉重的负担;然而,考虑到其中的利害关系,每一次效率的提高都意义重大。

在深入探讨测试的必要性之前,我们先来看看人工智能是如何给数据中心带来负担的。当前AI技术的迅猛发展,源于其应用所依赖的复杂算法与模型体系;与特定任务软件相比,它们消耗了更多的计算资源,因此也消耗了更多的能源。这是因为训练支持生成式人工智能的大语言模型(LLMs)需要庞大的计算资源。而且,随着人工智能解决方案变得越来越精细和复杂,对更多处理资源和数据存储的需求并没有缓解的迹象。

例如,Sam Altman 最近声称,由于公司 "缺少 GPU",OpenAI 最新模型的推广速度放缓。更重要的是,高盛预测,到 2030 年,人工智能将推动数据中心电力增长 165%。这使得基础设施成为业界关注的焦点,因为业界正在寻找各种方法来创建一个能够支持未来迭代的技术环境。

前方道路上的坑洼

人工智能数据中心需要满足和管理对计算资源前所未有的需求;这些集群必须高效地支持智能时代,并提供必要的计算、内存和网络性能。测试在帮助克服挑战方面具有举足轻重的作用。要验证、优化和提高人工智能数据中心的性能,需要能够再现人工智能工作负载的复杂性和规模的系统级仿真器。随着基础设施的发展,系统级评估对于确保性能的稳健性和可靠性至关重要。

规模:数据中心运营的各个方面都必须增长,包括电力、冷却、基础设施、存储和带宽。实现这一目标的一个关键方面是解决分布式计算环境中的延迟问题。人工智能 集群(在 GPU 上分配任务)很容易因尾部延迟(系统最慢组件的滞后时间)而出现性能瓶颈。有效的扩展需要通过工作负载均衡来检测并尽量减少这种情况。

然而,仅仅符合标准是不够的,还必须对组件的性能进行评估,看它是如何处理网络协议数据和前向纠错的。例如,符合标准的收发器可能会因为没有在协议/网络层进行适当测试而失效。

测试可帮助服务商识别系统效率低下的问题,优化资源分配,并确保系统在所有节点上都能保持高性能。通过微调,数据中心可以在发展过程中提高效率,改善运营和资源利用率。

专用硬件:人工智能专用硬件对于提供更多计算资源至关重要。例如,Nvidia 的最新超级芯片将性能提高了 30 倍,同时能耗降低了 25 倍。不仅是芯片,AI要求所有组件全面提速——从互连架构、内存模块、网络推理卡到交换机,均需提升运行速度,同时能效要求也需同步提升。

然而,这些技术进步需要超越合规性测试的严格评估,以验证峰值负载下的性能表现。系统级验证对确保设备在实际运行环境中稳定可靠至关重要。压力测试可确保AI设备的性能,而互连架构与网络结构的优化(通过网络验证)能避免瓶颈;内存与存储评估则保障快速数据访问。通过整合全方位测试,服务提供商可实现高效扩展。

智能工作负载:要满足计算需求,就必须采用分解式架构,以便动态分配资源。测试可以验证智能管理,并应结合仿真技术,对网络结构以及动态资源分配和自动缩放进行基准测试。

要确保网络性能,就必须使用真实世界模型进行压力测试、制定基准并找出尾部延迟,所有这些都能改善工作负载分配。这使服务商能够实现性能目标,同时根据当前和预测的需求动态管理资源。在堆栈中添加先进的软件对于最大限度地提高性能至关重要。

可靠性是关键

人工智能模型将继续推动更多计算资源的指数级增长,这也推动了基础设施现代化的军备竞赛。然而,要想让高盛的预测成为现实,就必须在组件和系统层面进行严格评估,以发现效率低下的问题,确保数据中心的每个方面都稳健、可靠,并在必要的规模上进行优化。

作者:

Marie Hattar

是德科技高级副总裁兼首席市场官

是德科技全新KAI系列解决方案

旨在帮助客户通过仿真真实世界的AI工作负载来验证AI集群组件,从而扩展数据中心的AI处理能力,洞察系统的性能和效率。

AI数据中心构建器通过模拟真实工作负载验证AI基础设施的性能,通过评估新算法、组件或协议提高AI训练的性能。

KAI数据中心构建器的工作负载模拟功能将大型语言模型(LLM)和其他人工智能(AI)模型训练所需要的工作负载集成到AI基础设施组件的设计和验证中——包括网络、主机和加速器。该解决方案实现了硬件设计、协议、架构和AI训练算法之间的更紧密协同,提升系统性能。

KAI数据中心构建器的工作负载仿真解决方案再现了真实AI训练任务的网络通信模式,加速模型训练优化所需的学习曲线,并更深入洞察性能下降的原因,这些是现实AI训练任务过程中难以获得的。

•产品页面:KAI数据中心构建器

互连与网络性能测试仪1600GE(INPT-1600GE)硬件流量仿真器可运行先进的软件解决方案,可验证200GE到1600GE的AI基础设施、网络组件和数据中心互连。

新的互连和网络性能测试系统通过INPT-1600GE搭配ITS软件,可以作为一个整体系统,智能地组织、存储和使用数据,实现高速以太网网络和AI数据中心中的互连自动化验证。

•产品页面:互连与网络性能测试仪1600GE(INPT-1600GE)

全新采样示波器可优化1.6T光学收发器测试效率,用于研发和制造下一代数据中心AI集群光互连。

DCA-M采样示波器提供高达240 Gbps/通道的高速光信号分析,并且专为满足1.6T收发器光学测试的严格要求而设计,具有高光学测量灵敏度和集成时钟恢复功能,支持高达120 GBaud的数据速率,专门针对数据中心AI集群的下一代光互连的研发和制造需求。

•解决方案页面:DCA-M解决方案概述

关于是德科技

是德科技(NYSE:KEYS)启迪并赋能创新者,助力他们将改变世界的技术带入生活。作为一家标准普尔 500 指数公司,我们提供先进的设计、仿真和测试解决方案,旨在帮助工程师在整个产品生命周期中更快地完成开发和部署,同时控制好风险。我们的客户遍及全球通信工业自动化、航空航天与国防、汽车、半导体和通用电子等市场。我们与客户携手,加速创新,创造一个安全互联的世界。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1813

    文章

    49741

    浏览量

    261564
  • 是德科技
    +关注

    关注

    21

    文章

    1034

    浏览量

    85203
  • 算力
    +关注

    关注

    2

    文章

    1385

    浏览量

    16566

原文标题:算力突围:破解人工智能的基础设施困局

文章出处:【微信号:是德科技KEYSIGHT,微信公众号:是德科技KEYSIGHT】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    挖到宝了!人工智能综合实验箱,高校新工科的宝藏神器

    家人们,最近在研究人工智能相关设备,挖到了一款超厉害的宝藏——比邻星人工智能综合实验箱,必须来给大伙分享分享!可☎(壹捌伍 柒零零玖 壹壹捌陆) 一、开箱即学,便捷拉满 这个实验箱真的是为使用者
    发表于 08-07 14:30

    挖到宝了!比邻星人工智能综合实验箱,高校新工科的宝藏神器!

    家人们,最近在研究人工智能相关设备,挖到了一款超厉害的宝藏——比邻星人工智能综合实验箱,必须来给大伙分享分享!可☎(壹捌伍 柒零零玖 壹壹捌陆) 一、开箱即学,便捷拉满 这个实验箱真的是为使用者
    发表于 08-07 14:23

    Arm如何助力AI基础设施变革

    众所周知,人工智能 (AI) 有望革新人类活动的方方面面。然而,要充分释放这一潜力,就必须面对一个基本事实:支撑传统计算的基础设施已无法满足未来 AI 发展的需求。
    的头像 发表于 07-03 14:29 772次阅读

    人工智能正在改变世界

    它需要大量的处理能力,需求每一百天就会翻一番,这推动了人工智能基础设施的投资热潮。未来的数据中心需要满足和管理对计算资源前所未有的需求:既要能智能高效地提供支持,又要满足相应的计算、内存和网络性能。
    的头像 发表于 06-13 10:19 675次阅读

    中科曙光亮相2025全球人工智能技术大会

    此前,6月7日-8日,2025全球人工智能技术大会(GAITC 2025)在杭州举办。中科曙光携全栈AI基础设施多项核心成果深度参与本次大会,并携手中国人工智能学会成功举办“大模型时代的AI
    的头像 发表于 06-10 16:19 1102次阅读

    如何构建边缘人工智能基础设施

    随着人工智能的不断发展,其争议性也越来越大;而在企业和消费者的眼中,人工智能价值显著。如同许多新兴科技一样,目前人工智能的应用主要聚焦于大规模、基础设施密集且高功耗的领域。然而,随着
    的头像 发表于 06-09 09:48 850次阅读

    维谛加速推进人工智能基础设施演进,助力NVIDIA 800 VDC 电源架构发布

    :VRT)今日宣布与NVIDIA在人工智能发展路线图方面达成高度战略协同。NVIDIA发布全新规划,旨在为下一代AI数据中心部署800VDC电源基础设施。为积极响应这
    的头像 发表于 05-22 14:18 826次阅读
    维谛加速推进<b class='flag-5'>人工智能</b><b class='flag-5'>基础设施</b>演进,助力NVIDIA 800 VDC 电源架构发布

    机器“掘金潮”:面向人工智能时代扩展基础设施

    在淘金热时期,怀揣着致富梦想的探矿者们纷纷涌入美国西部,希望通过淘金发家致富。如今,科技领域的开拓者也同样跃跃欲试,希望在人工智能(AI)领域大展拳脚。普华永道(PWC)估计,到2030年,全球经济
    发表于 04-30 17:45 344次阅读

    机器“掘金潮”:面向人工智能时代扩展基础设施

    在淘金热时期,怀揣着致富梦想的探矿者们纷纷涌入美国西部,希望通过淘金发家致富。如今,科技领域的开拓者也同样跃跃欲试,希望在人工智能(AI)领域大展拳脚。普华永道(PWC)估计,到2030年,全球经济
    的头像 发表于 04-30 11:11 630次阅读
    机器“掘金潮”:面向<b class='flag-5'>人工智能</b>时代扩展<b class='flag-5'>基础设施</b>

    Cognizant将与NVIDIA合作部署神经人工智能平台,加速企业人工智能应用

    -Cognizant将与NVIDIA合作部署神经人工智能平台,加速企业人工智能应用 Cognizant将在关键增长领域提供解决方案,包括企业级AI智能体、定制化行业大型语言模型及搭载NVIDIA
    的头像 发表于 03-26 14:42 578次阅读
    Cognizant将与NVIDIA合作部署神经<b class='flag-5'>人工智能</b>平台,加速企业<b class='flag-5'>人工智能</b>应用

    PoE交换机如何助力智慧城市基础设施建设?

    随着全球城市化的加速发展,智慧城市的概念正逐步成为现实。通过技术手段提升居民生活质量、优化城市运营并促进可持续发展已成为趋势。弹性且高效的网络是智慧城市基础设施的关键支撑,而以太网供电(PoE
    发表于 03-25 10:20

    英伟达与xAI签AI基建协议 加入全球人工智能基础设施投资合作伙伴联盟

    全球人工智能基础设施投资合作伙伴联盟“Global AI Infrastructure Investment”联盟是由贝莱及其旗下的全球基础设施合伙公司(GIP)、微软与阿联酋投资机
    的头像 发表于 03-20 13:58 986次阅读

    DXC实现全球IT基础设施现代化

    Technology凭借人工智能影响力帮助各行业客户利用人工智能创新 作为协议的一部分,目前管理Skanska全球IT基础设施运营的服务和员
    的头像 发表于 02-26 11:41 536次阅读
    DXC实现全球IT<b class='flag-5'>基础设施</b>现代化

    1750亿美元资金筹备中:OpenAI加速人工智能基础设施建设

    近日,据OpenAI最新消息,该公司正紧锣密鼓地推进其人工智能基础设施的建设进程,并计划在2025年晚些时候,于阿比林地区交付第一批数据中心计算资源。这一举措标志着OpenAI在推动人工智能
    的头像 发表于 02-08 10:55 792次阅读

    荷兰与英伟达、AMD商讨共建人工智能设施

    与英伟达和AMD等科技巨头进行了深入的战略讨论。此次访问旨在加强荷兰与全球科技界的联系,共同探索人工智能领域的合作机会。 在与英伟达和AMD的会谈中,迪尔克·贝尔亚尔茨大臣重点探讨了为荷兰人工智能设施提供所需
    的头像 发表于 01-10 13:36 1015次阅读