0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

算力十问:超算智算,通算及算存比

智能计算芯世界 来源:C114通信网 2024-04-13 11:40 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

算力是集信息计算力、网络运载力、数据存储力于一体的新型生产力,主要通过算力中心等算力基础设施向社会提供服务。算力基础设施是新型信息基础设施的重要组成部分,呈现多元泛在、智能敏捷、安全可靠、绿色低碳等特征,对于助推产业转型升级、赋能科技创新进步、满足人民美好生活需要和实现社会高效能治理具有重要意义。

在第二届“华彩杯”算力大赛启动会上,中国工程院院士邬贺铨作了《算力十问》的主题演讲。

一问:如何准确衡量算力?

邬贺铨指出,现有测算方法难以精准衡量算力。国内企业服务器的出货量并不等于国内市场的使用量,而且进口国外的服务器未统计在内;服务器出货量也不等于上架量,更不等于已经加电使用量。通常服务器集群的算力不等于集群内服务器算力之和;通过问卷调研方法收集的数据也未必能全面反映目前实际使用情况。

二问:超算、通算、智算三类算力是否可以互相调剂?

超算和通算可否承担生成式大模型的训练和推理任务?智算适合承担目前超算和通算的任务吗?建设兼具三类节点能力的融合算力中心会有利于三类算力的调度吗?

三问:三类算力有无合理比例?

邬贺铨认为,不同地区需求不同,不可能有固定的比例。通常国家与区域创新中心城市对超算有较大需求;机密性和时延敏感性决定了城市政务数据和重要企业关键数据尽量在同城通算;东部地区的AI训练任务重、智算比例高;西部算力枢纽也需要增加智算能力,但一般西部地区以配置通算为主。

四问:何谓合适的算存比?

邬贺铨强调,存力与算力需配合,避免因存力短缺造成算力等待而影响处理效率。而存力按位于服务器内外分为内存与外存,对于CPU密集型计算任务,影响算力效率与性能的主要是内存,据分析合理的算存比是GFlops/GB为1;对I/O密集计算任务,需频繁访问外存,如何考虑计入外存力的算存比合理取值,值得商榷。邬贺铨同时指出,存力有HDD机械硬盘和SDD固态硬盘之分,后者可节能70%,但我国SDD仅占24.7%,不及美国一半。

五问:如何根据大模型参数量及训练数据量来设计算力需求?

AI模型参数是指深度神经网络各层神经元间连接矩阵的权重和偏置,模型输出值=权重×输入值+偏置。

算力规模(峰值Flops)≈8×训练数据(tokens Byte)×模型参数/训练时间(秒)×算力利用率(0.3~0.55)。

存力规模(Byte)≈10×模型参数×计算精度(Byte)。

理论上可以通过增加训练时长来降低对大模型训练算力的需求,但训练时长的增加意味算力芯片集群出错的次数增加,为应对出错所需存盘开销也增加,计算效率显著下降。据OpenAI的经验,模型大小和数据集大小及用于训练的算力规模三个因素同时放大才有最佳效果,据分析,当不受其他两个因素的制约时,大模型性能与单个因素都有幂律关系。

六问:如何利用边缘与终端的算力?

当边缘/终端具有70亿参数以上的推理能力时,边缘/终端可离线进行推理任务,目前手机可支持130亿参数,2024年还会出现支持千亿参数的手机。当边缘/终端仅具有10亿参数的推理能力时,需要与云端协同提供智能能力。邬贺铨提出,单终端算力小,数以亿计的终端算力集合就非常可观,但跨终端的协同计算是否可行值得商榷。

七问:异地算力节点的协同可行吗?

邬贺铨认为,将算力集群扩展到跨域,多个异地的算力节点共同承担一个计算任务,实时性的交互要求光传输系统无损和确定性时延,任何丢包和抖动都无法保证计算效率;在异属异构的场景下异地协同计算的实施可操作性更是挑战。他强调,集约化建设大型算力节点比分布异地协同能够显著提升能效和算力效率,东数西算和数据灾备都需要在异地算力枢纽间建立广域连接,但这仅是算力任务的转移而不是异地实时协同计算。

八问:算力的接入需要集中管理与指配吗?

不通过国家算力调度平台能够构建全国一体化算力网和算力大市场吗?或者可以由算力节点拥有方和需求方联合建立算力服务联盟,以市场机制来沟通供需。另外,在强调企业为主体发挥市场有效作用的前提下,还需要强化有为政府的角色,通过建立结对子等东西部联动机制强化区域间算力协同。

九问:算网协同做什么和如何做?

算力与网络往往属于不同的运营主体,跨运营商的协同调度也有管理难题。而且网络通常并不感知所承载的数据属性。当前,首先要厘清算网协同的标准与方法,发挥IPv6的分段选路、SRV6作为算网协同统一承载协议的作用,通过编程空间实现云网/算网的融通。

十问:如何解除中小企业使用算力的顾虑?

邬贺铨建议,政府站台主导建设面向中小企业的云智平台,降低企业利用算力的门槛和对安全的担心。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 超算
    +关注

    关注

    1

    文章

    118

    浏览量

    9499
  • 算力
    +关注

    关注

    2

    文章

    1385

    浏览量

    16558
  • 大模型
    +关注

    关注

    2

    文章

    3440

    浏览量

    4962

原文标题:算力十问:超算智算,通算及算存比

文章出处:【微信号:AI_Architect,微信公众号:智能计算芯世界】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    湘军,让变成生产

    脑极体
    发布于 :2025年11月25日 22:56:58

    IP广域网助力互联网建设进入快车道

    人工智能大模型等应用爆发式发展带动了智能需求激增,全国各地纷纷建设大量智中心。在迎来新机遇的同时,力行业也面临数据安全、提高企业用
    的头像 发表于 09-25 10:40 488次阅读

    不够、交付太慢?捷智裸金属租赁对标物理机性能,让你立马用上高

    2025年国产大模型升级带动租赁需求爆发,高性能服务器“一机难求”。中研普华预测,今年我国
    的头像 发表于 09-12 20:06 1053次阅读
    <b class='flag-5'>算</b><b class='flag-5'>力</b>不够、交付太慢?捷智<b class='flag-5'>算</b>裸金属租赁对标物理机性能,让你立马用上高<b class='flag-5'>算</b><b class='flag-5'>力</b>!

    平衡”有多重要?

    。而决定这种配合效率的关键指标,正是我们今天要聊的“”。什么是
    的头像 发表于 07-11 14:06 467次阅读
    “<b class='flag-5'>算</b><b class='flag-5'>存</b>平衡”有多重要?

    软通智完成亿级A轮融资,加速AI产业布局

    北京 2025年6月18日 /美通社/ -- 近日,软通动力旗下软通智科技(广东)集团有限公司(以下简称"软通智")完成亿级A轮融资,本轮融资由盛景嘉成创投领投,广发信德、毅达资本等多家知名
    的头像 发表于 06-18 15:37 429次阅读

    软通智中标韶关公共服务平台项目

    日前,软通动力旗下软通智中标《韶关公共服务平台(一体化
    的头像 发表于 05-22 16:19 708次阅读

    芯片的生态突围与革命

    电子发烧友网报道(文 / 李弯弯)大芯片,即具备强大计算能力的集成电路芯片,主要应用于高性能计算(HPC)、人工智能(AI)、数据中心、自动驾驶等需要海量数据并行计算的场景。随着 AI 与大数
    的头像 发表于 04-13 00:02 2605次阅读

    领域常用名词解释

    本文系统地整理和解释了领域中常用的数个关键名词,并按照以下维度进行了分类:基础概念、系统架构、硬件架构、基础运算类型、计算模式、相关软件架构与部署模式、浮点精度格式、
    的头像 发表于 04-07 11:21 1199次阅读
    <b class='flag-5'>算</b><b class='flag-5'>力</b>领域常用名词解释

    阿里最新消息:国家互联网平台、广州中心、多所高校接入通义千大模型

      国家互联网平台 接入阿里通义千大模型   3月10日,国家互联网平台接入阿里巴巴通义千
    的头像 发表于 03-14 11:54 1128次阅读

    【一文看懂】什么是端侧

    随着物联网(IoT)、人工智能和5G技术的快速发展,端侧正逐渐成为智能设备性能提升和智能化应用实现的关键技术。什么是端侧,它的应用价值是什么,与云计算、边缘计算有哪些区别?本文
    的头像 发表于 02-24 12:02 2941次阅读
    【一文看懂】什么是端侧<b class='flag-5'>算</b><b class='flag-5'>力</b>?

    中心的如何衡量?

    作为当下科技发展的重要基础设施,其的衡量关乎其能否高效支撑人工智能、大数据分析等智能应用的运行。以下是对智中心算衡量的详细阐述:一、
    的头像 发表于 01-16 14:03 4186次阅读
    <b class='flag-5'>算</b>智<b class='flag-5'>算</b>中心的<b class='flag-5'>算</b><b class='flag-5'>力</b>如何衡量?

    科技云报到:要更要“利”,“精装”触发大模型产业新变局?

    科技云报到:要更要“利”,“精装”触发大模型产业新变局?
    的头像 发表于 01-16 10:24 790次阅读

    融合 南京信易达发布全新“智能融合平台”

    1月7日,南京信易达发布了旗下最新平台“C-MOM智能融合平台V3.0”,并更新了全新的UI视觉与交互系统。 该平台集成了HPC
    的头像 发表于 01-08 10:56 1265次阅读
    <b class='flag-5'>超</b><b class='flag-5'>算</b>智<b class='flag-5'>算</b>融合 南京信易达发布全新“智能<b class='flag-5'>算</b><b class='flag-5'>力</b>融合平台”

    中心会取代通用中心吗?

    随着人工智能(AI)技术的飞速发展,计算需求不断攀升,数据中心行业正经历着前所未有的变革。传统的通用中心与新兴的智中心之间的竞争日益激烈。那么,在这样的背景下,通用
    的头像 发表于 01-06 14:45 888次阅读
    智<b class='flag-5'>算</b>中心会取代通用<b class='flag-5'>算</b><b class='flag-5'>力</b>中心吗?