0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

RISC-V架构CPU的RAS解决方案

进迭时空 2025-06-06 17:03 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

RISC-V架构以追赶者的姿态在多个应用领域与X86架构和ARM架构展开竞争。在服务器应用领域,RISC-V架构正在重新定义服务器芯片领域必备的安全、虚拟化和RAS等规格和规范。

服务器CPU芯片作为服务器核心部件,承担了CPU算力、高速内存接口和高速IO传输接口等功能。从应用场景和需求出发,RAS(Reliability、Availability、Serviceability)已经成为服务器系统必备的功能属性:高可靠性(Reliability)可以延长整个系统硬件“满血”运行的持续时间,此阶段为服务器系统最理想状态;高可用性(Availability)使得硬件系统发生随机或者持续硬件故障时,通过软硬件协同处理,系统仍然可以维持“残血”运行,不至于因为关机导致服务中断;高可维护性(Serviceability)使得在系统崩溃时,能够迅速定位故障,通过替换部件等方式对服务器进行“补血”,为系统尽快恢复运行提供保障。

1221f132-42b5-11f0-986f-92fbcf53809c.png

(图1:RAS定义框架)


进迭时空以RISC-V高性能算力计算核心SpacemiTX100 Core为基础构建的服务器CPU芯片,充分考虑了服务器的RAS需求,集成了包含RAS组件功能特性和RAS管理功能特性的完整RAS软硬件方案,并在应用层上对X86和ARM服务器的RAS方案做了兼容适配:RAS处理机制遵循Firmware First准则;通过RISC-V协议栈,支持ACPI的APEI规范,获得面向OS的错误信息格式兼容。进迭时空的RAS方案完全遵循RISC-V RERI(RAS ErrorRecordRegisterInterface)故障处理接口规范,通过内存映射的寄存器接口统一了各种RAS信息的记录和上报。

进迭时空RAS组件架构

进迭时空服务器CPU芯片的RAS硬件方案主要围绕SpacemiTX100Core、DDR控制器、PCIe控制器、片上互连总线等几个核心部件展开。

1266005c-42b5-11f0-986f-92fbcf53809c.png

(图2:进迭时空RAS组件架构)

SpacemiT X100 Core 和 Cluster

  • 实现L1/L2 Cache的Parity校验和ECC,TLB 的Parity校验,对于Parity错误和ECC不可纠正错误会进行Cachelineinvalid并Reload,对于ECC可纠正错误会进行数据回刷 (Scrubbing);
  • 实现系统总线数据的Data check和Data poison检测,在Core读取Cache line时若检测到数据错误则触发异常中断;
  • 集成Core Boot MBIST,在启动中测试CPU内部的所有RAM单元,若MBIST failed则通知系统启动固件对Core进行隔离;
  • 集成RISC-V规范RAS RERI接口模块;
  • 支持Warm Reset,允许在保留RAS错误信息的同时重启CPU核


DDR控制器

  • 实现控制器端系统总线数据的Data check和Data poison
  • 实现控制器内部RAM的Parity校验
  • 通过ECC机制实现对DRAM的命令式和自动式巡检回刷 (Scrubbing)
  • 对DRAM读写数据进行CRC校验,若有错误自动Retry
  • 支持DDR5的EAPAR(Encoded Address Parity)机制
  • 支持72-bit和80-bit的DDR5 ECC DIMM,可以实现内存颗粒Chipkill功能
  • 支持对DRAM颗粒的PPR(Post Package Repair)修复功能


PCIe控制器

实现控制器端系统总线数据的Data check和Data poison

实现控制器内部RAM的Parity校验

支持传输层的ECRC校验

支持链接层的LCRC校验

在Lane training failed时,可以进行Lane isolation

支持PCIe设备热插拔

片上互连总线

实现所有总线数据的Data check和Data poison

实现互连总线的错误Response传递

支持SLC和SF的RAMECC

支持片间互连总线接口的ECRC和LCRC校验

进迭时空RAS管理架构

128298e8-42b5-11f0-986f-92fbcf53809c.png

(图3:进迭时空RAS管理架构)

服务器CPU芯片对RAS信息的处理主要通过SpacemiT X100 Core 主CPU单元和RMU管理单元实现,两者协同分工,实现了对本芯片中所有重要系统组件和多芯互连系统中其他芯片的RAS处理(如OS交互、BIOS固件执行、带外BMC通信等),极大提升了RAS处理的可靠性,它的管理架构特性主要有:


SpacemiT X100 Core 支持RAS中断接口,通过Cluster内部RERI模块,实现符合RISC-V RERI规范的CPU核故障记录和异常中断;

PCIe支持符合规范的AER(Advanced Error Reporting);

通过CPU芯片的管理单元(RMU),实现整芯片RAS错误故障的异常处理:故障信息收集和存储、故障的软件通知和处理;

通过CPU芯片的带外接口,实现BMC芯片的带外RAS故障收集和交互。


进迭时空通过由RAS功能组件和RAS管理软硬件架构协同组建的RAS系统,实现完整的RISC-V架构服务器RAS解决方案,即将推出业界首个完整支持服务器RAS的CPU产品。

文字:博志、风行、Stephen、hw、Zetalog审核:Sophie

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • cpu
    cpu
    +关注

    关注

    68

    文章

    11222

    浏览量

    223000
  • RISC-V
    +关注

    关注

    48

    文章

    2805

    浏览量

    51946
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    RISC-V 生态架构浅析

    RISC-V,逐步完成全线产品迁移到RISC-V定制架构;MicroSemi提供基于Risc-V+Linux+CNN加速器的AI解决方案;印
    发表于 06-22 16:51

    为什么选择RISC-V

    以前更早的时间提出建议。结果是折衷方案更少的解决方案RISC-V还支持需要特殊加速或特殊功能的设计的自定义指令。董事会设计师除了冻结的ISA好处外,RISC-V的开放式ISA还可以提
    发表于 07-27 17:38

    科普RISC-V生态架构(认识RISC-V)

    RISC-V,逐步完成全线产品迁移到RISC-V定制架构;MicroSemi提供基于Risc-V+Linux+CNN加速器的AI解决方案;印
    发表于 08-02 11:50

    瑞萨基于RISC-V核心架构的预编程ASSP器件

    替代途径的客户,从更短的上市时间和更低的开发成本中获益。”瑞萨基于RISC-V核心架构的预编程ASSP器件,结合专用的用户界面工具来设置应用的可编程参数,将为客户构建完整且优化的解决方案。此功能消除
    发表于 10-13 16:33

    ARM与RISC-V架构的区别是什么?

    2019年开始,RISC-V得到了越来越多的重视,原因有很多,ARM授权费高是关键的因素,下面就来说说关于ARM和RISC-V架构,以及相关的内容。 关于ARM 1991 年ARM 公司成立于英国
    发表于 04-25 09:13

    RISC-V 生态架构浅析

    大学想开发一款CPU时,要么是一些老旧的架构,要么收费昂贵,芯片设计领域亟需一个开源的指令集。神说要有光,就有了光,神说要有空气,就有了空气,神说要有好的开源指令集,于是就有了RISC-V,没有好
    发表于 06-18 19:59

    RISC-V架构简介

    【摘要】 本文首先对RISC-V架构做了简要的介绍,在此基础上实现了LiteOS在RISC-V架构上的适配过程的具体步骤,希望对你有所帮助。1 R
    发表于 07-28 07:46

    RISC-V架构

      RISC-V架构  RISC-V(发音为“risk-five”)是一个基于精简指令集(RISC)原则的开源指令集架构(ISA)。  与大
    发表于 04-03 15:29

    谈一谈RISC-V架构的优势和特点

    RISC-V 联盟,这将加速RISC-V 芯片的研发。 可以看到RISC-V架构将成为芯片产业发展的重要组成部分,将为不同应用场景提供高性能、低功耗的处理器
    发表于 05-14 09:05

    两大架构RISC-V 和 ARM 的各种关系

    一、RISC-V 和 ARM 的相似之处 RISC-V 和 ARM 基本上都是 RISC(精简指令集计算机)。RISC-V 和 ARM 都使用加载-存储
    发表于 06-21 20:31

    基于RISC-V开放架构的存算一体化芯片解决方案

    RISC-V优势多多,RISC-V可以同时满足三种的需求并且具有友好的软件开发环境。本文主要介绍了由英韧科技的ceo介绍的基于RISC-V开放架构的存算一体化芯片
    的头像 发表于 06-23 09:50 3184次阅读
    基于<b class='flag-5'>RISC-V</b>开放<b class='flag-5'>架构</b>的存算一体化芯片<b class='flag-5'>解决方案</b>

    RISC-V推动下的CPU架构变局

    2022年2月初,Intel(英特尔公司)称,正式加入RISC-V International标准组织,成为其Premire高级会员,并将加大对RISC-V架构的研究投入。
    的头像 发表于 02-22 14:28 3383次阅读

    RISC-VCPU 验证挑战

    RISC-V 正受到整个半导体行业的关注。它提供了一个开源解决方案的诱惑,任何人都可以利用它来创建自己的 CPU 或自定义加速器。
    的头像 发表于 07-27 17:21 3066次阅读
    <b class='flag-5'>RISC-V</b>的 <b class='flag-5'>CPU</b> 验证挑战

    RISC-V调试和完善的跟踪解决方案

    RISC-V调试和完善的跟踪解决方案ppt分享
    发表于 07-14 17:15 3次下载

    Imagination CPU 系列研讨会 | RISC-V 平台的性能分析和调试

    为了让开发者及工程师深入了解Imagination的CPU产品及相关解决方案,Imagination将陆续推出5期线上研讨会,包含:RISC-V平台的性能分析和调试;RISC-V安全和
    的头像 发表于 08-10 08:28 751次阅读
    Imagination <b class='flag-5'>CPU</b> 系列研讨会 | <b class='flag-5'>RISC-V</b> 平台的性能分析和调试