0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

大模型时代,国产GPU面临哪些挑战

Carol Li 来源:电子发烧友 作者:李弯弯 2024-04-03 01:08 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网报道(文/李弯弯)随着人工智能技术的快速发展,对GPU计算能力的需求也越来越高。国内企业也正在不断提升GPU性能,以满足日益增长的应用需求。然而,相较于国际巨头,国内GPU仍然存在差距,国产GPU在不断成长的过程中也存在诸多挑战。

在大模型训练上存在差距

大语言模型是基于深度学习的技术。这些模型通过在海量文本数据上的训练,学习语言的语法、语境和语义等多层次的信息,用于理解和生成自然语言文本。大语言模型是自然语言处理(NLP)领域中的一个重要分支,应用于文本生成、分类、情感分析等多种任务。

深度学习是现代机器学习领域的一种强大的算法,它可以在图像识别、语音识别、自然语言处理、游戏AI等各种应用领域取得惊人的成果。然而,深度学习对计算几硬件的要求非常高,通常需要使用GPU进行大规模训练。在使用GPU进行深度学习时,一个常见的问题就是选择单精度还是双精度。

浮点数是一种用于表示实数的数值格式,它包括符号位、指数位和尾数位三部分。通过这三部分,浮点数可以表示非常大或非常小的数,同时保持一定的精度。

单精度和双精度是指浮点数在计算机中的存储方式和精度。单精度通常使用32位(4字节)来存储一个浮点数,而双精度则使用64位(8字节)来存储。由于双精度使用了更多的位数,因此它可以表示更大范围的数值,并具有更高的精度。

大模型训练需要处理高颗粒度的信息,因此对于用于大模型训练的GPU芯片处理信息的精细度和算力速度要求更高,现阶段,国产GPU在支持大模型训练的能力方面相对来说还较差。

不同于多媒体和图形处理的单精度浮点计算(FP32)计算需求,双精度浮点计算能力FP64是进行高算力计算的硬性指标。英伟达的A100同时具备上述两类能力,而国内大多GPU只能处理单精度浮点计算。

从目前的信息来看,海光信息的协处理器DCU)能够支持FP64双精度浮点运算,海光DCU属于GPGPU 的一种,采用“类CUDA”通用并行计算架构。据该公司介绍,其DCU产品能够完整支持大模型训练。不过相比于英伟达的A100性能只有其60%。

另外,景嘉微表示面向AI 训练、AI推理、科学计算等应用领域研发成功的景宏系列,支持INT8、FP16、FP32、FP64等混合精度运算,该产品在大模型的训练上或许也可以期待一下。

在软件和生态方面存在差距

除上述情况以外,国产GPU在软件和生态方面与全球领先品牌相比,也存在一定的差距。软件工具链的完善度方面,全球领先的GPU厂商已经构建了完整的软件工具链,包括编译器、调试器、性能分析工具等,可以方便地支持开发人员进行GPU程序的开发、调试和优化。而国产GPU在这方面还需要进一步完善,以满足用户的多样化需求。

生态系统的成熟度方面,全球GPU市场已经形成了较为成熟的生态系统,涵盖了各种应用领域和场景。然而,国产GPU在生态系统建设方面尚处于起步阶段,缺乏足够的应用支持和市场认可。这导致国产GPU在市场上的竞争力相对较弱,难以与全球领先品牌抗衡。

近些年可以明显的看到,国产PGU企业也正在这些方面不断努力。在软件支持方面,国产GPU企业正在积极与主流操作系统、开发环境以及图形处理软件等进行适配,确保用户能够流畅地使用各种应用软件。同时,一些企业还在推动GPU在人工智能、云计算等新兴领域的应用,为国产GPU生态注入新的活力。

在驱动程序优化方面,国产GPU企业也在加大投入力度,不断提升驱动程序的性能和稳定性。通过优化驱动程序,可以充分发挥GPU的性能优势,提升整体计算效率。

此外,国产GPU企业还在积极探索与各种应用场景的深度融合。例如,在游戏、图形设计、视频渲染等领域,国产GPU正在与相关企业合作,共同推动相关应用的发展。这种深度融合不仅有助于提升国产GPU的市场竞争力,也有助于推动整个产业的进步。

写在最后

近些年国产GPU正在蓬勃发展,不过相较于国际巨头,仍然存在较大差距。近年来,大模型快速发展,国产GPU在大模型训练方面的不足也凸显出来。不过也可以看到,目前国产GPU企业都在积极朝大模型方向布局,包括训练和推理。另外软件和生态建设也在加速推进。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5099

    浏览量

    134443
  • 大模型
    +关注

    关注

    2

    文章

    3440

    浏览量

    4962
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    适应边缘AI全新时代GPU架构

    电子发烧友网站提供《适应边缘AI全新时代GPU架构.pdf》资料免费下载
    发表于 09-15 16:42 36次下载

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片的需求和挑战

    当今社会,AI已经发展很迅速了,但是你了解AI的发展历程吗?本章作者将为我们打开AI的发展历程以及需求和挑战的面纱。 从2017年开始生成式AI开创了新的时代,经历了三次热潮和两次低谷。 生成式
    发表于 09-12 16:07

    如何在Ray分布式计算框架下集成NVIDIA Nsight Systems进行GPU性能分析

    在大语言模型的强化学习训练过程中,GPU 性能优化至关重要。随着模型规模不断扩大,如何高效地分析和优化 GPU 性能成为开发者面临的主要
    的头像 发表于 07-23 10:34 2039次阅读
    如何在Ray分布式计算框架下集成NVIDIA Nsight Systems进行<b class='flag-5'>GPU</b>性能分析

    FOPLP工艺面临挑战

    FOPLP 技术目前仍面临诸多挑战,包括:芯片偏移、面板翘曲、RDL工艺能力、配套设备和材料、市场应用等方面。
    的头像 发表于 07-21 10:19 1138次阅读
    FOPLP工艺<b class='flag-5'>面临</b>的<b class='flag-5'>挑战</b>

    别让 GPU 故障拖后腿,捷智算GPU维修室来救场!

    GPU也常面临各类故障挑战,令使用者头疼不已。常见GPU故障大盘点一、内存故障引发性能“滑坡”以英伟达H100为例,在高负载、大规模集群运行环境下,HBM3高带宽
    的头像 发表于 07-17 18:56 827次阅读
    别让 <b class='flag-5'>GPU</b> 故障拖后腿,捷智算<b class='flag-5'>GPU</b>维修室来救场!

    为什么无法在GPU上使用INT8 和 INT4量化模型获得输出?

    安装OpenVINO™ 2024.0 版本。 使用 optimum-intel 程序包将 whisper-large-v3 模型转换为 int 4 和 int8,并在 GPU 上使用 OpenVINO™ 运行推理。 没有可用的输出。
    发表于 06-23 07:11

    迅龙软件参加开源中国《数智漫谈》,探讨AI如何迈进大模型时代

    当前,人工智能技术正加速向大模型时代迈进,在政务、金融、医疗、工业等领域展现出颠覆性潜力。然而,大模型的训练与部署面临算力成本高、技术生态依赖性强、行业落地门槛高三大
    的头像 发表于 04-24 15:08 633次阅读
    迅龙软件参加开源中国《数智漫谈》,探讨AI如何迈进大<b class='flag-5'>模型</b><b class='flag-5'>时代</b>

    智慧路灯的推广面临哪些挑战

    引言 在智慧城市建设的宏伟蓝图中,叁仟智慧路灯的推广面临哪些挑战?叁仟智慧路灯作为重要的基础设施,承载着提升城市照明智能化水平、实现多功能集成服务的使命。然而,尽管叁仟智慧路灯前景广阔,在推广过程中
    的头像 发表于 03-27 17:02 521次阅读

    适用于数据中心和AI时代的800G网络

    随着人工智能(AI)技术的迅猛发展,数据中心面临着前所未有的计算和网络压力。从大语言模型(LLM)训练到生成式AI应用,海量数据处理需求推动了网络带宽的快速增长。在此背景下,800G网络技术应运而生
    发表于 03-25 17:35

    模型原生操作系统:机遇、挑战与展望 CCCF精选

    本文立足人工智能时代用户、应用和系统的需求,分析“外挂式模型”演进路径下的操作系统发展困局,提出通过“模型-系统-芯片”的全栈协同设计来构建模型原生操作系统,并进一步探讨了
    的头像 发表于 03-14 17:46 926次阅读
    <b class='flag-5'>模型</b>原生操作系统:机遇、<b class='flag-5'>挑战</b>与展望  CCCF精选

    无法在GPU上运行ONNX模型的Benchmark_app怎么解决?

    在 CPU 和 GPU 上运行OpenVINO™ 2023.0 Benchmark_app推断的 ONNX 模型。 在 CPU 上推理成功,但在 GPU 上失败。
    发表于 03-06 08:02

    NVIDIA和GeForce RTX GPU专为AI时代打造

    NVIDIA 和 GeForce RTX GPU 专为 AI 时代打造。
    的头像 发表于 01-06 10:45 1241次阅读

    浪潮信息剖析智能时代数据存储领域面临挑战与机遇

    在当今数字化时代,算力与存力的协同增长已成为驱动各行各业发展的关键力量。特别是在人工智能(AI)这一前沿领域,随着数据量的爆炸式增长,对存储系统的需求日益复杂和多样。近期,在首届CCF中国存储大会上,浪潮信息存储首席架构师孙斌深刻剖析了智能时代数据存储领域
    的头像 发表于 12-30 09:43 1193次阅读

    【「大模型启示录」阅读体验】+开启智能时代的新钥匙

    ,NVDIA与微软的竞争 。计算能力的飞速提升是大模型得以兴起的重要基石。GPU/TPU 等高性能计算设备的迅猛发展,宛如为大模型的训练打造了一台强大的引擎。它们能够以极高的速度处理海量的数据,使得训练
    发表于 12-24 13:10

    GPU是如何训练AI大模型

    在AI模型的训练过程中,大量的计算工作集中在矩阵乘法、向量加法和激活函数等运算上。这些运算正是GPU所擅长的。接下来,AI部落小编带您了解GPU是如何训练AI大模型的。
    的头像 发表于 12-19 17:54 1317次阅读