0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

从CPU、GPU到NPU,美格智能持续优化异构算力计算效能

美格智能 2025-11-21 16:05 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

AI算力已成为数字经济时代的核心生产力,但全球AI产业正面临“供给不足、成本高企、生态待建”三重挑战。据行业统计,行业算力资源平均利用率仅为30%~40%,存在严重的算力浪费现象。国内领先的科技企业也在近期表示,将通过软件层创新大幅提升算力资源利用率。


作为高算力AI模组和端侧AI领域的领先企业,美格智能长期专注于端侧AI算力的优化与提升,通过深耕SoC架构、容器化和虚拟化、内存带宽压缩、算法量化、电源策略优化等关键技术,美格智能在端侧AI领域形成了独特的“软件+硬件”协同优势,为提升AI算力利用率提供了一整套完整方案。

优化SoC架构调度:激发 CPU + GPU + NPU 算力协同潜能

异构计算架构是现代SoC芯片的核心优势。美格智能多年深耕SoC架构,通过软硬协同优化最大化利用平台AI算力,充分发挥每个处理器的独特优势:CPU擅长顺序控制和通用任务,GPU适合并行数据流处理,而NPU则专精于标量、向量和张量数学运算,是AI工作负载的核心执行单元。

db1549f2-c6b0-11f0-8ce9-92fbcf53809c.jpg

美格智能具备领先的SoC集成开发、性能调度和智能化系统研发能力,并积累了丰富的高算力AI应用和虚拟化经验。针对AI算法应用特点,美格智能进行了针对性的大型算法调度和多算法并行调整。

在大型算法调度方面:通过将大型算法拆分与并行处理,将复杂AI算法拆解成多个部分,根据CPU、GPU、NPU的算力特性,分别加载不同部分至相应处理器,基于流水线作业实现算力并行和多算法负载均衡。


在多算法并行调整方面:根据各个算法对算力的不同需求,合理分配算法到最合适的处理器上运行,避免资源争抢和闲置,从而实现算力资源的充分利用。

突破内存墙瓶颈:以压缩与量化技术提升计算效率

内存带宽压缩技术通过在有限内存带宽下交换更多数据,显著降低了内存访问瓶颈对算力发挥的影响。该技术利用LPDDR5X内存提供超过120GB/s的带宽,满足7B模型推理时的高吞吐需求。


算法量化技术基于量化感知的混合量化方案,部分层使用INT4精度,在精度损失可控的情况下进一步降低计算开销,提升处理速度。具体实现包括:

混合精度量化:美格智能支持INT4/FP8混合精度计算,与DeepSeek-R1模型的量化格式高度适配。以7B参数模型为例,经INT4量化后,模型体积从FP32所需的28GB压缩至仅2-4GB,大幅降低存储和内存占用。


量化感知训练(QAT):在模型训练过程中插入伪量化节点模拟量化效果,使模型在训练阶段即适应低精度计算,显著减少量化后的精度损失。


训练后量化(PTQ):使用少量校准数据估计权重和激活值的动态范围,确定量化参数,无需重新训练即可实现模型压缩,适配周期缩短50%。

db31352c-c6b0-11f0-8ce9-92fbcf53809c.jpg

强化电源与散热设计:为高算力持续输出保驾护航

除了计算和内存优化,电源管理和散热设计同样直接影响算力利用率的稳定性和持续性。美格智能通过多维度创新确保端侧设备在功耗约束下保持稳定性能。

在电源管理方面:

精细化功耗调度:模组内置的电源管理芯片(PMIC)可对SoC上不同计算单元(CPU/GPU/NPU)的供电进行独立监控和动态调节。系统会根据实时算力需求,智能调整各单元的工作电压和频率(DVFS技术),在满足性能需求的同时,将整体功耗降至最低。


分级供电与智能待机:模组为处理器、内存及通信单元提供了独立的供电域。在低负载场景下,可自动关闭非必要功能单元的供电,或使其进入低功耗休眠状态,显著降低待机功耗,这对于依赖电池供电的移动设备至关重要。

在散热优化方面:

SIP系统级封装与Underfill工艺:在高端车规级模组中,美格智能采用SIP(系统级封装)技术,将多颗芯片高密度集成。通过引入Underfill(底部填充)工艺,在芯片与基板间填充特殊配方的胶水,这不仅显著增强了模组在振动、冷热冲击环境下的机械可靠性,其填充材料本身也成为了辅助芯片散热的重要路径,能将热量更均匀地传导至模组基板,优化整体散热性能。


一体化散热与结构优化:美格智能的高算力AI模组(如AI算力盒子)采用一体散热设计,确保在长时间持续运行下性能稳定。在结构上,通过优化模组内部布局和采用高热导率材料,打造高效热传导路径。例如,部分模组会集成屏蔽罩或散热盖板,与芯片表面紧密贴合,充当“导热桥”,将热量快速导向模组外壳或设备的外部散热系统。

推动端侧落地:以全场景AI模组赋能行业智能化升级

美格智能的技术理念不仅停留在理论层面,更通过一系列产品落地和实际用例实现了端侧AI算力的高效利用,通过专注于端侧AI算力的优化与提升,形成了自己独特的竞争优势。


美格智能的高算力AI模组产品涵盖入门级、中端、旗舰级多层次,对应AI算力覆盖0.2TOPS-100TOPS,能够在各类边缘计算终端、机器人、智能汽车域控制器等设备上执行多种类型的端侧计算任务。这种全面布局使得美格智能能够根据不同的应用场景需求,提供最合适的算力解决方案,避免“过度配置”或“配置不足”造成的算力浪费。

美格智能在5G与AI融合方面也有深入布局,其推出的5G-A+Wi-Fi 7双擎传输方案支持万兆速率与智能天线阵列,为端侧AI应用提供了高速、低延迟的连接保障。通过“本地AI引擎+云端大模型”双轨架构,美格智能实现了从设备层到应用层的全栈智能化升级,这种端云协同架构既利用了端侧算力的高效性,又保留了云端算力的无限扩展性。


在人形机器人、智能座舱、无人机、智能安防、智能家居等场景中,高效的端侧算力正在发挥越来越重要的作用。未来,随着AIGC与物联网的进一步融合,美格智能有望通过其“软件+硬件”协同优化的特色路径,在加速人工智能产业发展的征程中扮演更为重要的角色。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • cpu
    cpu
    +关注

    关注

    68

    文章

    11216

    浏览量

    222858
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5097

    浏览量

    134415
  • NPU
    NPU
    +关注

    关注

    2

    文章

    358

    浏览量

    20823
  • 美格智能
    +关注

    关注

    2

    文章

    303

    浏览量

    12272
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    国产AI芯片真能扛住“内卷”?海思昇腾的这波操作藏了多少细节?

    反而压到了310W。更有意思的是它的异构架构:NPU+CPU+DVPP的组合,居然能同时扛住训练和推理场景,之前做自动驾驶算法时,用它跑模型时延直接降了20%。 但疑惑也有:这种
    发表于 10-27 13:12

    CPU GPU,渲染技术如何重塑游戏、影视与设计?

    渲染技术是计算机图形学的核心内容之一,它是将三维场景转换为二维图像的过程。渲染技术一直在不断演进,最初的CPU渲染后来的GPU渲染,性能
    的头像 发表于 09-01 12:16 658次阅读
    <b class='flag-5'>从</b> <b class='flag-5'>CPU</b> <b class='flag-5'>到</b> <b class='flag-5'>GPU</b>,渲染技术如何重塑游戏、影视与设计?

    智能安防边缘计算的技术解析

    维度,剖析核心板如何推动安防"被动记录""主动决策"的升级,并给出选型建议。   --- 一、核心板的硬件架构创新**   1. 异构计算架构:
    的头像 发表于 06-26 11:56 375次阅读

    【「芯片 | 高性能 CPU/GPU/NPU 微架构分析」阅读体验】+NVlink技术应用到原理

    。。) 原理学习 在「芯片 | 高性能 CPU/GPU/NPU 微架构分析」书中,作者详解了
    发表于 06-18 19:31

    美格智能携手阿加犀,助力维田科技发布第二代智能植保机器人

    5月24日,美格智能携手阿加犀,助力维田科技正式推出第二代智能植保机器人。该机器人搭载了美格智能基于QCS8550平台研发设计的48TOPS
    的头像 发表于 05-26 13:58 916次阅读
    <b class='flag-5'>美格</b><b class='flag-5'>智能</b>携手阿加犀,助力维田科技发布第二代<b class='flag-5'>智能</b>植保机器人

    COMPUTEX 2025|从容器化车规级安全,美格智能200K DMIPS CPU模组打造智能座舱的“超级底座”

    首日,美格智能面向智能汽车领域的旗舰产品——SRM965智能座舱模组,凭借200KDMIPSCPU
    的头像 发表于 05-20 12:02 753次阅读
    COMPUTEX 2025|从容器化<b class='flag-5'>到</b>车规级安全,<b class='flag-5'>美格</b><b class='flag-5'>智能</b>200K DMIPS <b class='flag-5'>CPU</b><b class='flag-5'>算</b><b class='flag-5'>力</b>模组打造<b class='flag-5'>智能</b>座舱的“超级底座”

    搭建中心,了解的GPU 特性开始

    ABSTRACT摘要本文介绍如何搭建,并介绍A100、H100、H200和B200这些GPU的特性。JAEALOT2025年4月23日随着人工智能、大数据和高性能
    的头像 发表于 04-24 11:08 2973次阅读
    搭建<b class='flag-5'>算</b><b class='flag-5'>力</b>中心,<b class='flag-5'>从</b>了解的<b class='flag-5'>GPU</b> 特性开始

    6TOPSNPU加持!RK3588如何重塑8K显示的边缘计算新边界

    与复杂运算。明远智睿推出的RK3588芯片,以6TOPSNPU为核心,为这一难题提供了突破性的解决方案。 硬件架构来看,RK3588的NPU
    发表于 04-18 15:32

    超越CPU/GPUNPU如何让AI“轻装上阵”?

    电子发烧友网报道(文/李弯弯)NPU是一种专门为人工智能(AI)计算设计的处理器,主要用于高效执行神经网络相关的运算(如矩阵乘法、卷积、激活函数等)。相较于传统CPU/
    的头像 发表于 04-18 00:05 3260次阅读

    RK3588核心板在边缘AI计算中的颠覆性优势与场景落地

    ——替代传统工控机与低嵌入式方案 行业痛点分析 在智能制造与智慧城市领域,传统方案常面临三大瓶颈: 不足:基于ARM Cortex
    发表于 04-15 10:48

    CPUGPU:渲染技术的演进和趋势

    渲染技术是计算机图形学的核心内容之一,它是将三维场景转换为二维图像的过程。渲染技术一直在不断演进,最初的CPU渲染后来的GPU渲染,性能
    的头像 发表于 02-21 11:11 1364次阅读
    <b class='flag-5'>从</b><b class='flag-5'>CPU</b><b class='flag-5'>到</b><b class='flag-5'>GPU</b>:渲染技术的演进和趋势

    GPU 加速计算:突破传统瓶颈的利刃

    在数字化时代,数据呈爆炸式增长,传统的已难以满足复杂计算任务的需求。无论是人工智能的深度学习、大数据的分析处理,还是科学研究中的模拟计算
    的头像 发表于 02-17 10:36 511次阅读

    中心的如何衡量?

    (ComputationalPower)是指智中心通过其内部的计算设备(如CPUGPU、AI芯片等)对数据进行处理和计算的能力。它体现了
    的头像 发表于 01-16 14:03 4168次阅读
    <b class='flag-5'>算</b>智<b class='flag-5'>算</b>中心的<b class='flag-5'>算</b><b class='flag-5'>力</b>如何衡量?

    FPGA+GPU+CPU国产化人工智能平台

    算法架构可快速移植,接口灵活搭配,具备部署灵活、功耗和性价比高、支持人工智能推理应用部署等特点。FPGA+GPU+CPU多核异构平台架构
    的头像 发表于 01-07 16:42 1733次阅读
    FPGA+<b class='flag-5'>GPU+CPU</b>国产化人工<b class='flag-5'>智能</b>平台