0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

芯来科技正式发布首款专用处理器产品线Nuclei Intelligence系列

芯来科技 来源:芯来科技 2024-02-26 10:15 次阅读

本土RISC-V CPU IP领军企业——芯来科技正式发布首款针对人工智能应用的专用处理器产品线Nuclei Intelligence(NI)系列,以及NI系列的第一款AI专用RISC-V处理器CPU IP——NI900系列内核。

随着Chatgpt的横空出世,全球掀起一股AI的浪潮,从云端数据中心到边缘侧对AI的需求进一步提升。AI应用主要分布在训练和推理,需要大量的并行计算和NPU来完成,更离不开高性能CPU的算力加持。CPU有着广泛的普及性、兼容性、可扩展性和可靠性,并通过多核多节点进行串行计算、混合计算和安全防护等复杂任务;除此之外,CPU的通用矢量(Vector)指令集也可以提供强大且通用的并行计算能力,在AI领域进行高效的并行计算、前处理、后处理、激活函数等工作,更加灵活地处理GPU和NPU相对难以处理的复杂计算任务。

近期OpenAI发布的Sora模型将AI能够理解和生成的内容模态从文字和图片拓展到视频,进一步证明基础模型能力上限不断被突破,想象空间被打开,对算力基础设施的需求也远没有停止。芯来科技此次推出的NI900重点布局AI应用场景,助力本土芯片设计公司快速完成AI产品的设计。

NI900基于900系列处理器,针对“AI应用”进行了多项特性优化

基础标量处理器:

可以配置为900系列的RV32或RV64的任何一款N900、U900、NX900、UX900。

RVV1.0 VPU: 可配置基于RISC-V V Extension(RVV1.0 Vector指令集)的VPU单元,VPU的VLEN可配置为512-bit或者1024-bit。在INT8数据类型下对性能带来的提升达数百倍;在INT32与FP32数据类型下对性能带来的提升达数十倍。 NPU加速器:

可通过NI900的IOCP(IO Coherent Port)与处理器紧耦合,实现对CPU内部Cache的一致性。

用户自定义指令扩展接口: 用户可以使用Nuclei的NICE硬件扩展接口,增加自己自定义的指令,包括Scalar或Vector指令。

100a9910-d445-11ee-a297-92fbcf53809c.png

NI900支持RISC-VVector1.0标准

矢量扩展被称之为RV指令集标准最重要的一组扩展,2015年发起,2021年正式生成标准。

RVV 1.0支持的数据类型广泛,运算类型丰富且可动态扩展,同一套指令可无修改适配各种微架构实现。

RISC-V GCC从10.2版本已经支持RVV1.0指令,目前GCC13对应的intrinsic API接口已经升级到最新v0.12版本,且已部分支持自动向量化;预计GCC14正式发布,GCC的自动向量化会更加完备。RISC-V CLANG17版本也已支持最新v0.12版本intrinsic APl, 支持自动向量化。

RISC-V Linux 5.18 版本开始支持RVV,其它各种计算库及应用中间件都快速支持了RVV1.0。

有了RVV1.0标准和软件生态的完备,为应对AI算力的需求,需要RISC-V CPU 在微架构设计上做更多有针对性的设计。

NI900拥有强大的并行计算能力

RVV参数描述:

VLEN:一个向量寄存器的总bit数(宽度)

DLEN:内部运算单元能够并行处理的一个向量元素的最大bit数

ELEN:并行处理的数据类型的最大宽度,如果ELEN=32,则最大的处理数据类型是INT32和FP32

可配选项 参数值
VLEN_512 VLEN=512,DLEN=512,ELEN=32/64
VLEN_1024 VLEN=1024,DLEN=1024,ELEN=32/64

VPU支持的数据类型和计算能力:

1024-bit的VPU支持多种数据类型的计算,包括:INT8 / 16 / 32 / 64, BFP16 / FP16 / FP32 / FP64。

1024-bit的VPU支持每个时钟完成128x8-bit / 64x16-bit / 32x32-bit / 16x64-bit的数据计算

NI900拥有强大的Memory读写能力

10487c08-d445-11ee-a297-92fbcf53809c.png  

VPU和CoreLSU共享MMU资源

VPU并非独立的协处理器,而是与主Core的内存空间实现完全的Coherent

Vector指令与普通Scalar一样,支持虚拟地址访问,使得NI900的Vector指令可以无缝运行于大型操作系统之上

VPU和CoreLSU共享Memory资源与通道

VPU拥有最高512-bit位宽直接访问DCache

VPU拥有最高1024-bit位宽直接访问DLM

DLM具备1024-bit的SlavePort供SoC访问

可单独配置VLMport以进一步增加性能

VLMport可以直接连接到外部加速器或者内存

VLMport位宽=VLEN(目前支持最多1024-bit)

ScalarCore也可以通过LoadStore访问到VLM区间

NI900的VPU带来极大的性能提升

通过强大的运算能力与强劲的Memory读写通道,NI900能带来极大的并行计算性能提升。

如图所示,VLEN=1024-bit的VPU在INT8数据类型下对性能带来的提升达数百倍

105ec1b6-d445-11ee-a297-92fbcf53809c.png

106eb986-d445-11ee-a297-92fbcf53809c.png   107f51a6-d445-11ee-a297-92fbcf53809c.png

如图所示,VLEN=1024-bit的VPU在INT32数据类型下对性能带来的提升达数十倍

1091366e-d445-11ee-a297-92fbcf53809c.png

10a53948-d445-11ee-a297-92fbcf53809c.png

10b91e40-d445-11ee-a297-92fbcf53809c.png

如图所示,VLEN=512-bit的VPU在FP32数据类型下对性能带来的提升达数十倍

10d03b0c-d445-11ee-a297-92fbcf53809c.png

10db1720-d445-11ee-a297-92fbcf53809c.png

10e18da8-d445-11ee-a297-92fbcf53809c.png

10f8bf14-d445-11ee-a297-92fbcf53809c.png

NI900支持NPU等AI加速器与处理器紧耦合,实现对CPU内部Cache的一致性

NI900支持整合外部AI加速器、NPU、PCIe、DMA,通过900系列的IOCP(IO Coherent Port)与900系列处理器紧耦合,实现对CPU内部Cache的一致性。

110b0d86-d445-11ee-a297-92fbcf53809c.png

NI900的Scalar/VectorNICE自定义指令接口提供更多特定场景的优化可能性 NICE(Nuclei Instruction Co-unit Extension)是芯来CPU IP的一种用户可扩展指令接口机制,允许用户基于芯片的标准通用CPU内核定义自己的扩展指令集。

NI900提供用于Scalar指令扩展的NICE接口,可支持单周期,多周期,流水线等不同指令类型

NI900提供用于Vector指令扩展的NICE接口,可支持单周期,多周期,流水线等不同指令类型

NI900的NICE扩展单元不仅可以进行运算型的自定义指令扩展,还可以通过专用总线访问Core的存储资源(DCache等)实现与主Core的内存一致性,总线位宽可以达到VLEN(最高1024-bit)

用户可以结合自己的应用扩展自定义指令,将NI900处理器内核扩展成为面向AI领域进一步强化的专用处理器。

RISC-V生态日益成熟,芯来NI900赋能AI时代

CPU是算力结构中必不可少的一个环节,在已经到来的人工智能算力时代,通用和专用芯片结合而成的异构计算是未来AI算力基础设施的主流。芯来致力于提供标量、矢量、以及自定义指令结合的计算架构,以满足端侧云侧数据中心的多元化的算力需求。

目前NI900已经获得多家下游客户的认可并投入产品设计中,未来芯来将推出更多NI系列处理器内核IP,赋能AI时代的算力基础设施建设。




审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    18288

    浏览量

    222175
  • 人工智能
    +关注

    关注

    1776

    文章

    43871

    浏览量

    230625
  • RISC-V
    +关注

    关注

    41

    文章

    1904

    浏览量

    45047
  • AI加速器
    +关注

    关注

    1

    文章

    62

    浏览量

    8554
  • 芯来科技
    +关注

    关注

    0

    文章

    49

    浏览量

    2759

原文标题:芯来科技发布最新NI系列内核,NI900矢量宽度可达512/1024位

文章出处:【微信号:nucleisys,微信公众号:芯来科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    国产兆主板GM9-6002采用KX-U6780A处理器#兆处理器

    处理器主板
    国产计算机小秦
    发布于 :2024年04月13日 13:58:31

    芯来科技正发布基于RISC-V处理器的HSM子系统解决方案

    本土RISC-V CPU IP领军企业——芯来科技正发布基于RISC-V处理器的HSM子系统解决方案,提供专业有效的信息安全保护以及加解密功能。
    的头像 发表于 03-11 11:01 421次阅读
    芯来科<b class='flag-5'>技正</b>式<b class='flag-5'>发布</b>基于RISC-V<b class='flag-5'>处理器</b>的HSM子系统解决方案

    芯来科技发布AI专用RISC-V处理器内核NI900系列

    在AI技术迅速发展的当下,RISC-V CPU IP领域的领军企业芯来科技,正式发布了针对人工智能应用的专用处理器产品线——Nuclei Intel
    的头像 发表于 02-26 09:36 235次阅读

    #圣车规级触摸微处理器 HC8AT3541系列

    处理器
    上海芯圣电子股份有限公司
    发布于 :2024年01月16日 10:14:09

    100%自主研发!龙芯中科新一代通用处理器发布

    用处理器,可运行多种类的跨平台应用,满足各类大型复杂桌面应用场景。 据悉,龙芯3A6000与上一代的龙芯3A5000相比,单线程通用处理性能提升60%,多进程通用处理器性能提升100%。中国电子技术标准化研究院赛西实验室测试结
    的头像 发表于 12-01 15:45 365次阅读
    100%自主研发!龙芯中科新一代通<b class='flag-5'>用处理器</b><b class='flag-5'>发布</b>

    Codasip发布适用于定制计算的新一代RISC-V处理器系列产品

    ,以实现无限创新。该系列被命名为“700系列”,包括多款应用处理器和嵌入式处理器内核。700系列通过引入一个不同的、可满足更高性能需求的出发
    发表于 10-24 17:25 360次阅读
    Codasip<b class='flag-5'>发布</b>适用于定制计算的新一代RISC-V<b class='flag-5'>处理器</b><b class='flag-5'>系列产品</b>

    STM32MP13产品线应用于工业和安全的高性比MPU

    STM32MP13 产品线, 满足高性价比MPU,有易用、安全、低功耗三大特点。
    发表于 09-05 08:21

    将DSP和ML功能融合到低功耗通用处理器

    随着各种类型的物联网和嵌入式系统对信号处理的需求不断增加,我们看到市场上出现了许多新的芯片,它们结合了数字信号处理器(DSP)和通用处理器满足这些日益增长的
    发表于 08-23 06:51

    飞凌嵌入式国产平台大盘点之瑞系列

    分类带大家一起盘点。 本篇文章,为大家介绍的是瑞系列的核心板。 瑞微电子 × 飞凌嵌入式 2020年至今,飞凌嵌入式已基于瑞微RK3399、RK3568和RK3588
    发表于 08-05 11:12

    什么是专用处理器专用处理器的设计方法和工具介绍

    on some external data source, usually memory or some other data stream”。专用处理器就是针对特定应用或者领域的处理器,类似于是我们经常说的Domain Specific Architecture的概念
    发表于 07-17 14:14 1045次阅读
    什么是<b class='flag-5'>专用处理器</b>?<b class='flag-5'>专用处理器</b>的设计方法和工具介绍

    AMD正式发布全新锐龙 PRO 7040 系列移动处理器

    - 全新 AMD 锐龙PRO 7040 系列移动处理器为惠普和联想等顶级 PC 供应商的精选 Windows 11 商用笔记本电脑带来先进的“Zen 4”性能和专用锐龙 AI 引擎 - AMD
    的头像 发表于 06-20 11:33 736次阅读

    中微CMS32M65xx电机控制产品线MCU

    应用领域: CMS32M65xx系列MCU是中微半导体电机控制产品线主力产品,被广泛应用于空气净化、落地扇、油烟机、吸尘、高速吹风筒、高
    发表于 06-15 09:23

    一文读懂i.MX 91应用处理器:为边缘平台提供安全、高效的Linux计算能力!

    恩智浦i.MX 9系列用处理器再添新成员,它延续了i.MX 93系列用处理器的优势,为边缘平台提供安全、高效的Linux计算能力。恩智浦凭借20多年在开发多市场应
    的头像 发表于 06-09 08:10 643次阅读
    一文读懂i.MX 91应<b class='flag-5'>用处理器</b>:为边缘平台提供安全、高效的Linux计算能力!

    新一代i.MX 91系列用处理器推出:安全高能效,支持Linux边缘应用!

    91应用处理器系列 。凭借恩智浦二十多年来在开发多市场应用处理器方面的领先优势,i.MX 91系列提供了安全、多功能、高能效的优化组合,可满足下一代基于Linux的物联网和工业应用的
    的头像 发表于 06-04 13:45 577次阅读

    中科院发布“香山”与“傲”两项开源处理器芯片

    与应用落地。基于“联合企业研发+分级开源共享”的创新组织模式,第二代“香山”(南湖)开源高性能RISC-V处理器核已完成产品化改造并交付首批用户。目前“香山”(南湖)处理器,主频达到2GHz
    发表于 05-28 08:43