0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

从CPU、GPU到NPU,美格智能持续优化异构算力计算效能

美格智能 2025-11-21 16:05 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

AI算力已成为数字经济时代的核心生产力,但全球AI产业正面临“供给不足、成本高企、生态待建”三重挑战。据行业统计,行业算力资源平均利用率仅为30%~40%,存在严重的算力浪费现象。国内领先的科技企业也在近期表示,将通过软件层创新大幅提升算力资源利用率。


作为高算力AI模组和端侧AI领域的领先企业,美格智能长期专注于端侧AI算力的优化与提升,通过深耕SoC架构、容器化和虚拟化、内存带宽压缩、算法量化、电源策略优化等关键技术,美格智能在端侧AI领域形成了独特的“软件+硬件”协同优势,为提升AI算力利用率提供了一整套完整方案。

优化SoC架构调度:激发 CPU + GPU + NPU 算力协同潜能

异构计算架构是现代SoC芯片的核心优势。美格智能多年深耕SoC架构,通过软硬协同优化最大化利用平台AI算力,充分发挥每个处理器的独特优势:CPU擅长顺序控制和通用任务,GPU适合并行数据流处理,而NPU则专精于标量、向量和张量数学运算,是AI工作负载的核心执行单元。

db1549f2-c6b0-11f0-8ce9-92fbcf53809c.jpg

美格智能具备领先的SoC集成开发、性能调度和智能化系统研发能力,并积累了丰富的高算力AI应用和虚拟化经验。针对AI算法应用特点,美格智能进行了针对性的大型算法调度和多算法并行调整。

在大型算法调度方面:通过将大型算法拆分与并行处理,将复杂AI算法拆解成多个部分,根据CPU、GPU、NPU的算力特性,分别加载不同部分至相应处理器,基于流水线作业实现算力并行和多算法负载均衡。


在多算法并行调整方面:根据各个算法对算力的不同需求,合理分配算法到最合适的处理器上运行,避免资源争抢和闲置,从而实现算力资源的充分利用。

突破内存墙瓶颈:以压缩与量化技术提升计算效率

内存带宽压缩技术通过在有限内存带宽下交换更多数据,显著降低了内存访问瓶颈对算力发挥的影响。该技术利用LPDDR5X内存提供超过120GB/s的带宽,满足7B模型推理时的高吞吐需求。


算法量化技术基于量化感知的混合量化方案,部分层使用INT4精度,在精度损失可控的情况下进一步降低计算开销,提升处理速度。具体实现包括:

混合精度量化:美格智能支持INT4/FP8混合精度计算,与DeepSeek-R1模型的量化格式高度适配。以7B参数模型为例,经INT4量化后,模型体积从FP32所需的28GB压缩至仅2-4GB,大幅降低存储和内存占用。


量化感知训练(QAT):在模型训练过程中插入伪量化节点模拟量化效果,使模型在训练阶段即适应低精度计算,显著减少量化后的精度损失。


训练后量化(PTQ):使用少量校准数据估计权重和激活值的动态范围,确定量化参数,无需重新训练即可实现模型压缩,适配周期缩短50%。

db31352c-c6b0-11f0-8ce9-92fbcf53809c.jpg

强化电源与散热设计:为高算力持续输出保驾护航

除了计算和内存优化,电源管理和散热设计同样直接影响算力利用率的稳定性和持续性。美格智能通过多维度创新确保端侧设备在功耗约束下保持稳定性能。

在电源管理方面:

精细化功耗调度:模组内置的电源管理芯片(PMIC)可对SoC上不同计算单元(CPU/GPU/NPU)的供电进行独立监控和动态调节。系统会根据实时算力需求,智能调整各单元的工作电压和频率(DVFS技术),在满足性能需求的同时,将整体功耗降至最低。


分级供电与智能待机:模组为处理器、内存及通信单元提供了独立的供电域。在低负载场景下,可自动关闭非必要功能单元的供电,或使其进入低功耗休眠状态,显著降低待机功耗,这对于依赖电池供电的移动设备至关重要。

在散热优化方面:

SIP系统级封装与Underfill工艺:在高端车规级模组中,美格智能采用SIP(系统级封装)技术,将多颗芯片高密度集成。通过引入Underfill(底部填充)工艺,在芯片与基板间填充特殊配方的胶水,这不仅显著增强了模组在振动、冷热冲击环境下的机械可靠性,其填充材料本身也成为了辅助芯片散热的重要路径,能将热量更均匀地传导至模组基板,优化整体散热性能。


一体化散热与结构优化:美格智能的高算力AI模组(如AI算力盒子)采用一体散热设计,确保在长时间持续运行下性能稳定。在结构上,通过优化模组内部布局和采用高热导率材料,打造高效热传导路径。例如,部分模组会集成屏蔽罩或散热盖板,与芯片表面紧密贴合,充当“导热桥”,将热量快速导向模组外壳或设备的外部散热系统。

推动端侧落地:以全场景AI模组赋能行业智能化升级

美格智能的技术理念不仅停留在理论层面,更通过一系列产品落地和实际用例实现了端侧AI算力的高效利用,通过专注于端侧AI算力的优化与提升,形成了自己独特的竞争优势。


美格智能的高算力AI模组产品涵盖入门级、中端、旗舰级多层次,对应AI算力覆盖0.2TOPS-100TOPS,能够在各类边缘计算终端、机器人、智能汽车域控制器等设备上执行多种类型的端侧计算任务。这种全面布局使得美格智能能够根据不同的应用场景需求,提供最合适的算力解决方案,避免“过度配置”或“配置不足”造成的算力浪费。

美格智能在5G与AI融合方面也有深入布局,其推出的5G-A+Wi-Fi 7双擎传输方案支持万兆速率与智能天线阵列,为端侧AI应用提供了高速、低延迟的连接保障。通过“本地AI引擎+云端大模型”双轨架构,美格智能实现了从设备层到应用层的全栈智能化升级,这种端云协同架构既利用了端侧算力的高效性,又保留了云端算力的无限扩展性。


在人形机器人、智能座舱、无人机、智能安防、智能家居等场景中,高效的端侧算力正在发挥越来越重要的作用。未来,随着AIGC与物联网的进一步融合,美格智能有望通过其“软件+硬件”协同优化的特色路径,在加速人工智能产业发展的征程中扮演更为重要的角色。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • cpu
    cpu
    +关注

    关注

    68

    文章

    11331

    浏览量

    225904
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5272

    浏览量

    136070
  • NPU
    NPU
    +关注

    关注

    2

    文章

    386

    浏览量

    21347
  • 美格智能
    +关注

    关注

    2

    文章

    330

    浏览量

    12452
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    基于openEuler平台的CPUGPU与FPGA异构加速实战

    随着 AI、视频处理、加密和高性能计算需求的增长,单一 CPU 已无法满足低延迟、高吞吐量的计算需求。openEuler 作为面向企业和云端的开源操作系统,在 多样
    的头像 发表于 04-08 11:02 726次阅读
    基于openEuler平台的<b class='flag-5'>CPU</b>、<b class='flag-5'>GPU</b>与FPGA<b class='flag-5'>异构</b>加速实战

    天数智芯助力DeepLink异构训推一体化升级

    当前,通用人工智能发展驶入快车道,大模型对的需求呈现爆发式增长,异构的高效协同成为释放
    的头像 发表于 03-26 09:30 447次阅读
    天数智芯助力DeepLink<b class='flag-5'>异构</b><b class='flag-5'>算</b><b class='flag-5'>力</b>训推一体化升级

    边缘AI临界点:深度解析176TOPS香橙派AI Station的产业价值

    推理在EP环境下仅需 10ms ,表明当前200ms的瓶颈在于 数据预处理和流水线优化 ,而非NPU本身不足[](https://hwcomputing.csdn.net
    发表于 03-10 14:19

    GPU 利用率<30%?这款开源智云平台让不浪费 1%

    作为 AI 开发者,你是否早已受够这些困境:花数百万采购的 GPU 集群,利用率常年低于 30%,闲置如同烧钱;跨 CPU/GPU/
    的头像 发表于 01-26 14:20 286次阅读

    云端集中边缘分布:边缘智如何重塑网络布局

    随着大模型推理延迟进入毫秒级时代,整个科技行业都意识网络的规则正在被改写。这场变革的核心,正是云端集中式计算向边缘分布式
    的头像 发表于 12-25 11:34 607次阅读
    <b class='flag-5'>从</b>云端集中<b class='flag-5'>到</b>边缘分布:边缘智<b class='flag-5'>算</b>如何重塑<b class='flag-5'>算</b><b class='flag-5'>力</b>网络布局

    AI硬件全景解析:CPUGPUNPU、TPU的差异化之路,一文看懂!​

    CPU作为“通用基石”,支撑所有设备的基础运行;GPU凭借并行,成为AI训练与图形处理的“主力”;TPU在Google生态中深耕云端大模型训练;
    的头像 发表于 12-17 17:13 2281次阅读
    AI硬件全景解析:<b class='flag-5'>CPU</b>、<b class='flag-5'>GPU</b>、<b class='flag-5'>NPU</b>、TPU的差异化之路,一文看懂!​

    基于米尔RK3576的环视实时性方案解析

    潜力,但其执行的稳定性是当前能否商用的关键挑战。方案潜力与价值: 一旦GPU性能稳定,RK3576凭借其异构计算架构(CPU+GPU+NPU),能够在一帧时间内不仅完成环视合成,更能集成复杂的AI感知与预警功能。这使其从一个单纯
    发表于 11-28 16:57

    湘军,让变成生产

    脑极体
    发布于 :2025年11月25日 22:56:58

    国产AI芯片真能扛住“内卷”?海思昇腾的这波操作藏了多少细节?

    反而压到了310W。更有意思的是它的异构架构:NPU+CPU+DVPP的组合,居然能同时扛住训练和推理场景,之前做自动驾驶算法时,用它跑模型时延直接降了20%。 但疑惑也有:这种
    发表于 10-27 13:12

    CPU GPU,渲染技术如何重塑游戏、影视与设计?

    渲染技术是计算机图形学的核心内容之一,它是将三维场景转换为二维图像的过程。渲染技术一直在不断演进,最初的CPU渲染后来的GPU渲染,性能
    的头像 发表于 09-01 12:16 1130次阅读
    <b class='flag-5'>从</b> <b class='flag-5'>CPU</b> <b class='flag-5'>到</b> <b class='flag-5'>GPU</b>,渲染技术如何重塑游戏、影视与设计?

    智能安防边缘计算的技术解析

    维度,剖析核心板如何推动安防"被动记录""主动决策"的升级,并给出选型建议。   --- 一、核心板的硬件架构创新**   1. 异构计算架构:
    的头像 发表于 06-26 11:56 781次阅读

    异构计算解决方案(兼容不同硬件架构)

    异构计算解决方案通过整合不同类型处理器(如CPUGPUNPU、FPGA等),实现硬件资源的高效协同与兼容,满足多样化计算需求。其核心技术
    的头像 发表于 06-23 07:40 1067次阅读

    【「芯片 | 高性能 CPU/GPU/NPU 微架构分析」阅读体验】+NVlink技术应用到原理

    。。) 原理学习 在「芯片 | 高性能 CPU/GPU/NPU 微架构分析」书中,作者详解了
    发表于 06-18 19:31

    美格智能携手阿加犀,助力维田科技发布第二代智能植保机器人

    5月24日,美格智能携手阿加犀,助力维田科技正式推出第二代智能植保机器人。该机器人搭载了美格智能基于QCS8550平台研发设计的48TOPS
    的头像 发表于 05-26 13:58 1303次阅读
    <b class='flag-5'>美格</b><b class='flag-5'>智能</b>携手阿加犀,助力维田科技发布第二代<b class='flag-5'>智能</b>植保机器人

    COMPUTEX 2025|从容器化车规级安全,美格智能200K DMIPS CPU模组打造智能座舱的“超级底座”

    首日,美格智能面向智能汽车领域的旗舰产品——SRM965智能座舱模组,凭借200KDMIPSCPU
    的头像 发表于 05-20 12:02 1057次阅读
    COMPUTEX 2025|从容器化<b class='flag-5'>到</b>车规级安全,<b class='flag-5'>美格</b><b class='flag-5'>智能</b>200K DMIPS <b class='flag-5'>CPU</b><b class='flag-5'>算</b><b class='flag-5'>力</b>模组打造<b class='flag-5'>智能</b>座舱的“超级底座”