0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

国际首创新突破!中国团队以存算一体排序架构攻克智能硬件加速难题

半导体芯科技SiSC 来源:半导体芯科技SiSC 作者:半导体芯科技SiS 2025-07-02 16:50 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

2025 年 6 月 25 日,北京大学团队在智能计算硬件方面取得领先突破,国际上首次实现了基于存算一体技术的高效排序硬件架构 (A fast and reconfigurable sort-in-memory system based on memristors),解决了传统计算架构面对复杂非线性排序问题时计算效率低下的瓶颈问题,在这一极难攻克的人工智能基础算子加速领域形成优势,将为具身智能、大语言模型、智能驾驶、智慧交通、智慧城市等人工智能应用提供更高效算力支持。该成果由北京大学集成电路学院杨玉超教授、人工智能研究院陶耀宇研究员组成的团队完成,已在国际顶级学术期刊《自然∙电子》上发表。

chaijie_default.png

chaijie_default.png

排序加速:存算一体架构中难啃的 “硬骨头”

排序,作为人工智能系统中最常用、最耗时的基础操作之一,广泛存在于自然语言处理、信息检索、图神经网络、智能决策等人工智能相关领域中。在传统的冯・诺依曼计算架构中,处理器与存储器分离的特点导致数据被频繁搬运,严重制约了计算速度和系统能效,因此将存储与计算融合的 “存算一体” 架构是突破硬件性能的必由之路。

例如在智能驾驶场景中,车辆在高速公路等简单环境中,只需对周边几台车的行进路线进行排序就能判断是否会对自身安全产生影响,整个耗时可控制在毫秒级别,但在复杂的城市环境中风险来自周边的数百个乃至更多的各类交通参与者,排序的复杂程度和硬件延迟大幅提高;再比如,在抖音、小红书等平台大的规模检索与推荐系统中,用户点击、评分、相似度计算后,常需要对海量的候选内容进行快速排序,找出最相关项,排序性能直接影响系统的响应时间和可扩展性;此外,在大语言模型训练、机器人路径规划、强化学习搜索等场景中,快速评估多个决策或行动的优劣并进行排序,也是必不可少而又极为费时的步骤。

然而,在传统计算架构下,大规模的非线性排序难以在端侧或边缘设备高效完成,这一过程消耗大量时间与功耗,极大制约了具身智能、智能驾驶等新兴技术的发展与普及。 近年来,“存算一体” 被认为是突破传统硬件架构计算瓶颈的关键技术,已经在矩阵计算等规则性强的数值计算中取得显著成果。然而由于排序存在逻辑复杂、操作非线性、数据访问不规则,缺乏通用、高效的硬件排序原语等诸多障碍,目前国际主流的存算一体架构均无法解决大数据排序问题,这一难题成为了制约下一代人工智能计算硬件发展的前沿焦点与核心卡点问题。

科研团队围绕 “让数据就地排序” 的第一性原理目标,在存算一体架构上攻克了多个核心技术难题,实现了排序速度与能效的数量级提升。主要突破包括:首先,开发了一套基于新型存内阵列结构的高并行比较机制;第二,开创性地引入了 “忆阻器阵列”,实现了低延迟、多通路的硬件级并行排序电路设计;第三,在算子层面,优化了面向人工智能任务的算法 - 架构协同路径,同时兼容现有矩阵计算;第四,完全自主设计的器件 - 电路 - 系统级技术栈整合。

在人工智能系统中,排序通常作为数据预处理或决策中间环节存在,一旦执行效率不高,将成为整个系统的主要瓶颈。论文第一作者、北京大学集成电路学院博士生余连风介绍道,“排序的核心是比较运算,需要精准地实现‘条件判断 + 数据搬移’,在复杂的应用场景中,要对不同因素的优先级进行比较,因此排序的逻辑非常复杂。一般排序过程需要构建支持多级‘比较 - 选择’的比较器单元,而传统存算一体架构主要面向‘乘加’、‘累加’等操作,难以支持这样的复杂运算,我们的工作成功解决了这一难题,设计了一种‘无比较器’的存算一体排序架构。”

据实测结果显示,该硬件方案在典型排序任务中提升速度超 15 倍,面积效率提升超过 32 倍,具备并行处理百万级数据元素排序任务的潜力,功耗仅为传统 CPUGPU 处理器的 1/10。在人工智能推理场景中,支持动态稀疏度下的推理响应速度可提升 70% 以上,特别适用于要求极高实时性的任务环境。论文通讯作者、北京大学人工智能研究院陶耀宇研究员说,“正因为排序计算在人工智能中是高频、通用、基础且极难处理的一类操作,这一难题的突破意味着存算一体从‘适合特定应用’走向‘可支持更广泛的通用计算’,为人工智能相关任务构建了全链路的底层硬件架构支持。”

提高计算效率,打造加速引擎

据悉,该技术具有广泛的应用前景,可用于智慧交通图像排序系统、金融智能风控评分引擎、边缘监控设备的目标优先识别模块等场景。在测试中该技术展现出高速度与低功耗的显著优势。例如,在智慧交通场景中,系统有望在毫秒级内完成十万级事件优先级评估,为超大规模交通决策、应急响应调度等提供高效的实时算力支持。存算一体超高性能排序加速架构的成功突破,不仅是一次架构创新的胜利,更是将科研成果转化为实际应用、服务国家重大战略需求的重要行动。

“根据初步测算,若该技术在智能终端、工业控制、数据中心等核心应用场景中推广,仅在边缘 AI 芯片市场就可形成百亿元级年产值潜力,大幅提升传统算力系统的性能。北京大学科研团队正是瞄准了‘算力’这个牛鼻子,聚焦‘存算一体’这一关键技术开展高强度科研攻关,实现了从器件到系统的全栈自主设计。这一成果不仅是技术层面的突破,更是攻克了存算一体化排序加速的‘硬骨头’难题,在面向人工智能基础操作的硬件加速领域实现了突破,将为我国建设科技强国,实现高水平科技自立自强注入新算力。

来源:半导体芯科技

【2025全年计划】

隶属于ACT雅时国际商讯旗下的两本优秀杂志:《化合物半导体》&《半导体芯科技》2025年研讨会全年计划已出。

线上线下,共谋行业发展、产业进步!商机合作一览无余,欢迎您点击获取!

https://www.compoundsemiconductorchina.net/seminar/

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 半导体
    +关注

    关注

    336

    文章

    29978

    浏览量

    257978
  • 智能硬件
    +关注

    关注

    205

    文章

    2402

    浏览量

    111021
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    载誉而归 | 苹芯科技斩获AABI火炬技术转移奖,一体技术探索跨境创新合作

    (PimchipTechnology)凭借在一体芯片领域的技术突破与跨境技术转化成果,成功斩获2025年AABI火炬技术转移奖。这荣誉
    的头像 发表于 11-04 10:03 473次阅读
    载誉而归 | 苹芯科技斩获AABI火炬技术转移奖,<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b>技术探索跨境<b class='flag-5'>创新</b>合作

    硬件加速模块的时钟设计

    硬件加速模块需要四个时钟,分别为clk_l , clk_r , clk_c , clk_n 。 clk_l : 整个硬件加速模块为了最大化的节约时间成本而采用了类似处理器的流水线设计,具体上将每
    发表于 10-23 07:28

    后摩尔定律时代,3D-CIM+RISC-V打造国产一体新范式

    力、能效与带宽瓶颈成为行业前行的关键阻碍,而美西方的技术禁运更让中国芯片产业面临严峻挑战。   在这大背景下,
    发表于 09-17 09:31 5307次阅读
    后摩尔定律时代,3D-CIM+RISC-V打造国产<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b>新范式

    科技荣获2025半导体市场创新表现奖

    8月26日,第22届深圳国际电子展(elexcon2025)现场正式揭晓聚焦行业技术突破与价值创造的“2025半导体市场创新表现奖” ,知科技凭借WTM系列
    的头像 发表于 08-28 17:09 1248次阅读

    突破传统桎梏,PPEC Workbench 开启电源智能化设计新路径

    输出等环节为工程师提供专业支持。 3、 高效协同:打破信息孤岛 ■ 团队协同开发: 提供一体化的协同设计环境,支持团队成员协同开发,保障项目高效推进。 ■ 选型采购一体化: 平台整合
    发表于 08-26 11:40

    在TR组件优化与一体架构中构建技术话语权

    电磁兼容性、热管理在内的12项专业能力评估。\"这种评估体系,正是行业对技术人才的分级认证标准。 1.2 异构计算架构下的能力矩阵 一体架构
    发表于 08-26 10:40

    文看懂“一体

    今天这篇文章,我们来聊个最近几年很火的概念——一体。为什么会提出“
    的头像 发表于 08-18 12:15 931次阅读
    <b class='flag-5'>一</b>文看懂“<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b>”

    睿海光电领航AI光模块:超快交付与全场景兼容赋能智时代——创新实力助力全球客户构建高效力底座

    到全场景兼容,从800G量产突破到1.6T前瞻布局,睿海光电始终客户需求为导向,技术创新为引擎,为全球AI基础设施建设提供坚实底座。凭借智能
    发表于 08-13 19:03

    一体技术加持!后摩智能 160TOPS 端边大模型AI芯片正式发布

    ,同步推出力擎™系列M.2卡、力谋®系列加速卡及计算盒子等硬件组合,形成覆盖移动终端与边缘场景的完整产品矩阵。这系列动作标志着后摩智能
    的头像 发表于 07-30 07:57 7603次阅读
    <b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b>技术加持!后摩<b class='flag-5'>智能</b> 160TOPS 端边大模型AI芯片正式发布

    缓解高性能一体芯片IR-drop问题的软硬件协同设计

    在高性能计算与AI芯片领域,基于SRAM的一体(Processing-In-Memory, PIM)架构因兼具计算密度、能效和精度优势成为主流方案。随着
    的头像 发表于 07-11 15:11 861次阅读
    缓解高性能<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b>芯片IR-drop问题的软<b class='flag-5'>硬件</b>协同设计

    苹芯科技 N300 一体 NPU,开启端侧 AI 新征程

    随着端侧人工智能技术的爆发式增长,智能设备对本地力与能效的需求日益提高。而传统冯·诺依曼架构在数据处理效率上存在瓶颈,“内存墙”问题成为制约端侧AI性能
    的头像 发表于 05-06 17:01 860次阅读
    苹芯科技 N300 <b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>一体</b> NPU,开启端侧 AI 新征程

    午芯芯科技国产电容式MEMS压力传感器芯片突破卡脖子技术

    本帖最后由 jf_94815006 于 2025-4-25 10:11 编辑 午芯芯科技(辽宁省)有限公司是专注于MEMS芯片和集成电路的研发、设计、生产、销售于一体的科技创新型企业。午芯芯
    发表于 02-19 12:19

    济南市中区一体化智中心上线DeepSeek

    济南市中未来产业发展有限公司(简称“市中产发”)联合华为、北京昇腾和清昴智能基于市中区一体化智中心(国家大学科技园节点)昇腾
    的头像 发表于 02-19 10:38 1162次阅读

    梯度科技推出DeepSeek智一体

    近日,梯度科技搭载DeepSeek大模型的智一体机正式发布。该产品基于“国产服务器+国产GPU+自主算法”核心架构,搭载梯度科技人工智能应用开发平台,形成了软硬
    的头像 发表于 02-17 09:53 1309次阅读

    一体行业2024年回顾与2025年展望

    2024年,大模型技术的迅猛发展成为人工智能领域的核心驱动力,其对硬件力和存储效率的极致需求,促使
    的头像 发表于 01-23 11:24 1674次阅读