0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

RISC-V+类TPU架构:国产算力实现从"堆砌"到"精耕"的范式跃迁

Felix分析 来源:电子发烧友网 作者:吴子鹏 2026-02-11 09:29 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网报道(文/吴子鹏)在AI大模型技术迅猛发展的今天,算力已成为决定模型性能与商业价值的关键因素。然而,随着模型参数量与训练计算量的激增,传统"算力堆砌"模式已难以为继。当前,行业正经历从单纯追求规模向注重效率与生态的范式跃迁——长期以来,以GPU为核心的算力体系深陷“高功耗、高成本、生态锁定”的三重困境,而国产算力更是面临“跟随式创新”的瓶颈。

在此背景下,奕行智能推出的Epoch芯片率先采用RISC-V+RVV指令集架构,结合自研的VISA(虚拟指令集)技术和类TPU的双脉动矩阵计算引擎,不仅在算力效率、数据精度支持、生态兼容上实现突破,更推动国产算力完成从“规模堆砌”到“效率精耕”的关键一跃,为AGI时代的算力底层创新提供了中国方案。

算力困局:从“堆芯片”到“提效能”的必然转向

AI大模型的飞速发展,正倒逼算力产业进行一场深刻变革。数据显示,AI模型参数量和训练计算量的增长速度,已远超硬件算力的提升速度,算力供需矛盾日益突出。与此同时,大模型的发展模式也从“预训练主导”演进为“预训练→训练后优化→测试时推理”的三阶段扩展模式,推理需求迎来爆发,推动算力竞争的核心从“规模”转向“效率与规模并重”。

 


在传统模式下,“算力堆叠”是提升AI性能的主要手段——通过增加GPU数量、扩大集群规模来满足计算需求。但这种模式的边际效益正在递减,不仅带来高昂的硬件和电力成本,还面临算力利用率低、延迟高等问题。并且,长期以来,英伟达凭借CUDA生态构筑了近乎封闭的护城河。尽管不少国产芯片尝试通过“CUDA兼容”切入市场,但正如奕行智能所指出的,CUDA是为英伟达硬件量身定制的钥匙,在英伟达的GPGPU上才能充分发挥其强大性能,而API层面的兼容普遍存在着水土不服的问题,且难以跟上其快速迭代节奏。

此外,随着大模型进入推理时代,Token成为核心产品形态。与软件近乎零成本复制不同,Token的生产以算力和电力为原料,提升算力利用率与能效,直接等同于降低推理成本、提高毛利率。在此背景下,以谷歌TPU为代表的领域专用AI计算架构(DSA)凭借突出的能效比崛起。高盛最近的一份报告指出,谷歌TPU v6到TPU v7,每百万token 的推理成本降低了约70%。

 

与兼顾通用性的 GPU 不同,TPU采取了精简的架构设计,砍掉与AI推理无关的图形处理单元,将宝贵的晶体管资源集中于大模型最核心的矩阵运算。其独特的脉动阵列架构,让数据如流水般在计算单元间连续流动,大幅减少了对寄存器的频繁读写。配合大容量片上 SRAM 缓存与高效的数据搬运引擎 DMA,TPU 显著降低了“数据搬运”这一主要能耗瓶颈。

谷歌TPU v7构建起规模达9216个TPU的“World Size”,并引入光学电路交换(OCS)技术,根据计算任务动态优化网络拓扑,实现高效定制化互联。在软件层面,谷歌借助XLA编译器及StableHLO中间表示层,实现对TensorFlow、JAX和PyTorch等主流框架的高效兼容,并通过OpenXLA开源项目构建起跨框架的通用编译生态,TorchTPU项目实现TPU对PyTorch的原生支持,显著降低开发者的迁移门槛。

与此同时,英伟达在GPGPU中持续提升DSA的比例,从Volta架构首次引入Tensor Core,到Blackwell架构进一步扩大张量核心规模并加入针对Transformer的优化引擎,体现出向领域定制化演进的趋势。

架构创新:RISC-V + 类TPU的双重优势

在这场全球AI基础设施的范式重构中,国内AI芯片企业奕行智能敏锐地捕捉到了行业趋势变革,创新性地将RISC-V的开放灵活性与类TPU架构的高效性相结合,打造出全新的AI计算底座。

不同于传统指令集的封闭性,奕行智能在业内率先采用RISC-V + RVV(向量扩展)指令集构建AI芯片架构,并且率先支持RVV 1024 bit位宽,拓宽数据通道。

相较于传统的X86和ARM架构,RISC-V在AI计算领域的优势尤为突出:
·开放的图灵完备指令:天然支持复杂控制流,可避免NPU的灵活性短板;
·RVV向量优势:天然契合AI张量计算,掩码操作原生支持稀疏矩阵;
·成熟生态借力:GCC/LLVM主流编译器已完全支持,主流AI框架正在积极适配;
·定制化潜力:允许在标准之上扩展专用指令,完美平衡通用性与专用性。

据介绍,奕行智能Epoch芯片的EVAMIND AI内核集成多组RISC-V高性能核。其中,RISC-V标量计算引擎负责核内计算和控制,支持双发射核内的VISA指令发射及调度运行;RISC-V向量加速引擎中,图灵完备的高性能RVV向量加速RV核,超宽的D-length及I-Length利用RVV扩展技术对AI常用的超越函数硬件指令化,大幅提升AI计算性能。

 

在内核设计上,奕行智能的Epoch芯片采用了与谷歌TPU相似的架构思路。

据介绍,该芯片集成了高性能RISC-V核与性能强大的双脉动流水矩阵运算引擎,其矩阵、向量、标量的精简架构设计,完全匹配大模型的计算特点,显著降低了传统GPGPU 架构中用于调度与资源分配的额外开销(包含算力、带宽、编程投入等,通常占总开销的10%-20%),有效提高能效比与面积效率,打满算力。

其大尺寸矩阵运算引擎,采用类TPU的双脉动流水设计,数据复用率提升数倍,且显著减少了数据前处理的开销。相比同类方案,编程也更为简单易用,限制更少——例如几乎无需为规避bank冲突特意做手动编排,能够直接支持模型中开发难度大的卷积矩阵乘算子等。

面对AI计算中频繁出现的4D数据,奕行智能的高性能4D DMA引擎展现出明显优势。相比竞品往往需要多次数据搬移与处理,该引擎仅通过一次操作即可完成4D数据的整体搬移,并在过程中同步完成数据变换与重排。此外,通过配置大容量片上缓存,将热点与关键数据置于 L1/L2 中,其访问速度相比存放在 DDR 的方案提升1–2个数量级。其近存计算设计,让产品在实测中 Flash Attention 关键算子利用率相比竞品提升4.5倍。

奕行智能指出,该公司推出的国内业界首款RISC-V AI算力芯片Epoch及计算平台解决方案于2025年启动量产,目前正在大规模量产出货中。

除了RISC-V+类TPU,奕行智能的AI芯片还有一大创新,即精准卡位“低位宽高精度”技术浪潮。在深度学习领域,数据精度与计算效率始终存在权衡关系。例如,TPU Tensor Core 在FP8模式下可提供2倍于BF16的算力密度;Ironwood(TPU v7)的FP8峰值算力达到4.6PetaFLOPS,而BF16仅为2.3PFLOPS。2025年6月,NVIDIA正式发布NVFP4,将大模型精度进一步压缩至4-bit,精度却接近BF16水准,标志行业进入4-bit时代。

奕行智能AI芯片支持DeepSeek所需的基于分块量化的FP8计算精度,并在其新一代产品支持NVFP4、MXFP4、MXFP8、MXINT8等前沿的数据格式,可高效释放算力,大幅降低存储开销,助力客户在大模型时代以更低功耗、更小成本,获得更卓越的智能体验。

奕行智能自研的互联技术方案ELink,支持超大带宽与超低延迟的Scale Up 扩展,并且配合交换侧,已经实现对前沿在网计算技术的支持,意味着可将部分计算卸载至网络交换节点,而无需在计算卡间搬运大量数据,从而减轻带宽负担,降低通信延迟。

为了提升开发人员基于奕行智能AI芯片部署AI大模型的效率,奕行智能以独创的虚拟指令(VISA)技术在软件与硬件之间建立中间抽象层,上层的算子及AI编译器建立在VISA之上,而硬件则负责VISA宏指令的执行。这一设计巧妙地隔离了硬件迭代对上层软件的冲击,有效解决了芯片升级带来的软件兼容性挑战。同时,VISA通过软流水、循环展开等极致优化,解决了AI计算中高级Tensor操作直接编译到底层指令时性能陡降的行业痼疾。

 

针对AI数据规整性强的特点,奕行智能推出了Tile级动态调度架构。该架构由Tile级虚拟指令集、智能编译器和硬件调度器组成,原生适配当前兴起的Tile(如Triton、TileLang)编程范式。它能够自动管理指令间依赖、顺序流水和内存切分,不仅大幅提高了编程的易用性,更突破了静态优化的性能天花板。

同时,基于自研的ETK基础软件栈,奕行智能全面兼容PyTorch、TensorFlow、JAX等主流框架,提供丰富的深度优化高性能算子。目前,奕行智能正与Triton国际社区展开重量级合作,计划开源其虚拟指令集,合力打造RISC-V DSA领域的“CUDA”级生态。


结语

从“算力堆叠”到“精耕细作”,国产AI芯片正在探索一条属于自己的进阶之路。奕行智能通过RISC-V+类TPU的架构创新,确立硬件的高效与灵活;通过低位宽高精度的技术突破,高效软硬件协同以及动态调度架构,实现商业成本的极致优化;通过VISA虚拟指令集架构、兼容主流框架的软件栈等,打破生态壁垒。这款正在大规模量产出货的Epoch芯片,不仅是奕行智能技术实力的集中展现,更是国产算力在AGI时代实现弯道超车、迈向高质量发展的一个重要缩影。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • TPU
    TPU
    +关注

    关注

    0

    文章

    171

    浏览量

    21714
  • RISC-V
    +关注

    关注

    49

    文章

    2941

    浏览量

    53521
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    从"替代人力""智能协同":履带式巡检机器人的产业跃迁

    2026年的工业智能化转型浪潮中,一个显著的趋势正在形成——工业巡检机器人正从单纯的"人力替代工具"升级为具备感知、决策与协同能力的"智能体"。
    的头像 发表于 02-05 10:42 406次阅读

    选EtherCAT模块,别只看价格,先看"体检报告"

    ±8kV静电、±2kV浪涌、-42℃极寒、1500V高压—这不是极限运动,而是DPort-ECT模块的出厂"必修课"。本文详解工业级EtherCAT从站如何通过严苛测试关
    的头像 发表于 02-04 11:46 445次阅读
    选EtherCAT模块,别只看价格,先看&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;体检报告&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;

    机械臂越复杂越&amp;amp;quot;卡顿&amp;amp;quot;?别让控制器拖了后腿

    工业机器人动作越复杂,传统控制器越&quot;卡顿&quot;?ZMC900E用4核A55跑Linux轨迹,3核R5F硬件级专管EtherCAT通信,实现±1.5μs微秒级抖动,破解
    的头像 发表于 02-02 11:40 741次阅读
    机械臂越复杂越&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;卡顿&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;?别让控制器拖了后腿

    ZM82:一颗国产模组,如何让传统路灯变&amp;amp;quot;聪明&amp;amp;quot;?

    ZM82系列国产ZigBee模组以星型组网替代传统有线通信,实现路灯远程监控、智能调光与故障自愈,助力城市照明系统降本增效、绿色升级。行业痛点:传统城市照明的管理困境传统城市照明系统受制于早期技术
    的头像 发表于 01-29 11:46 342次阅读
    ZM82:一颗<b class='flag-5'>国产</b>模组,如何让传统路灯变&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;聪明&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;?

    L3试点落地,和芯星通如何成为车企突围的&amp;amp;quot;隐形守护者&amp;amp;quot;?

    ;生死线&quot;。从&quot;能测&quot;&quot;能跑&quot;,高精度定位技
    的头像 发表于 01-04 12:03 731次阅读
    L3试点落地,和芯星通如何成为车企突围的&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;隐形守护者&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;?

    Vishay Vitramon Touch &amp;quot;N&amp;quot; Tune™ MLCC套件技术分析

    在元件焊盘上,无需焊接即可查看电路特性。这样可以实现快速电路性能评估,并方便更换组件,直至达到所需的调谐效果。该高频MLCC Touch &quot;N&quot; Tune套件非常适合宽带无线通信、 RF仪器、滤波网络、 定时
    的头像 发表于 11-09 17:46 1607次阅读

    &amp;quot;Access violation&amp;quot; 错误,复位位置,重新打印

    &quot;Access violation&quot; 错误
    的头像 发表于 11-08 07:16 733次阅读

    光耦合器:电子世界的 &amp;quot;光桥梁&amp;quot;

    在现代电子设备的复杂电路中,信号的传输与隔离至关重要。就像城市交通中需要桥梁来跨越障碍、连接不同区域一样,电子电路里也需要一座 &quot;桥梁&quot; 来实现信号的安全、高效传输,同时避免
    的头像 发表于 08-22 16:58 1150次阅读

    精密设备的&amp;amp;quot;电力保镖&amp;amp;quot;:优比施UPS如何守护数据与硬件安全?

    一、用户痛点:精密设备的&quot;断电恐惧症&quot;在数据中心、医疗实验室、工业控制等场景中,精密电子设备对电源的依赖已达到&quot;零容忍&quot;级别:数据安全危机:服务
    的头像 发表于 07-25 09:00 1075次阅读
    精密设备的&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;电力保镖&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;:优比施UPS如何守护数据与硬件安全?

    Modbus RTU通讯协议:瑞银电能表的&amp;quot;普通话&amp;quot;指南

    Modbus RTU协议就像工业设备间的&quot;普通话&quot;,让不同品牌的电能表、传感器等设备能够顺畅&quot;交流&quot;。
    的头像 发表于 07-18 18:30 2192次阅读
    Modbus RTU通讯协议:瑞银电能表的&<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;普通话&<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;指南

    地热发电环网柜局放监测设备:清洁能源电网的&amp;amp;quot;安全卫士&amp;amp;quot;

    文章由山东华科信息技术有限公司提供在&quot;双碳&quot;目标驱动下,地热发电作为稳定基荷电源,其电网接入设备的可靠性至关重要。环网柜作为地热电站与主网连接的关键节点,其内部绝缘缺陷可能引发
    的头像 发表于 07-16 10:15 683次阅读
    地热发电环网柜局放监测设备:清洁能源电网的&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;安全卫士&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;

    为什么GNSS/INS组合被誉为导航界的&amp;amp;quot;黄金搭档&amp;amp;quot;?

    在导航技术领域,GNSS(全球导航卫星系统)和INS(惯性导航系统)的结合,一直被业界誉为&quot;黄金搭档&quot;。它们优势互补,克服了单一系统的局限性,为高精度、高可靠性的导航提供了完美
    的头像 发表于 07-09 17:12 1134次阅读
    为什么GNSS/INS组合被誉为导航界的&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;黄金搭档&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;?

    人形机器人为什么要定制? ——揭秘工业场景的&amp;quot;千面需求&amp;quot;

    核心洞察:标准化机器人难以破解工业场景的&quot;需求碎片化&quot;困局。富唯智能通过 &quot;五大模块柔性架构+零代码中枢&quot
    的头像 发表于 06-10 17:19 1484次阅读
    人形机器人为什么要定制? ——揭秘工业场景的&<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;千面需求&<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;

    仓储界的&amp;quot;速效救心丸&amp;quot;,Ethercat转PROFINET网关实战案例

    实战案例,Ethercat转PROFINET网关,仓储界的&quot;速效救心丸&quot;
    的头像 发表于 05-11 10:32 891次阅读
    仓储界的&<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;速效救心丸&<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;,Ethercat转PROFINET网关实战案例

    中美贸易硬核破局!先积集成以中国&amp;amp;quot;芯&amp;amp;quot;智造筑牢供应链护城河

    加速键,&quot;当技术封锁成为常态,国产替代不再是备选,而是生存刚需。&quot;一全链国产铁三角中国芯强势崛起!我们以&quot;设计
    的头像 发表于 04-27 10:49 912次阅读
    中美贸易硬核破局!先积集成以中国&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;芯&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>quot</b>;智造筑牢供应链护城河