【四旋翼飞行器】76小时吃透四轴算法!史上最强软硬结合实战项目,👉戳此立抢👈

有一种管理CPU快速存取内存的新流程,耗能减少高达72%

IEEE电气电子工程师学会 2018-06-13 08:34 次阅读

━━━ ━━━    

有一种管理CPU快速存取内存的新流程,使速度提升了两倍之多,耗能减少高达72%。据这种流程的设计师称,实现这类卓越成果需要改变计算机中控制这一关键内存的部件:直接布线至CPU电路进行控制若交由操作系统处理,速度就可大幅提升。

CPU将高速内存缓存作为一种数字暂存区域。缓存主要是保存CPU可能很快用到的指令或是需要处理的数据,是CPU的工作台。从智能手机到服务器,几乎每一个CPU都是用其电路中内置的算法管理进出缓存的比特流的。

但是麻省理工学院的两位研究人员说,随着计算机和便携设备的内存和CPU核数不断增多,完全由CPU来管理缓存也越来越不现实。他们说,操作系统最好能分担这项工作。

这种想法本身并不是全新的概念。在IBM的一些Cell处理器以及索尼的PlayStation 3(基于Cell技术)中,应用程序和操作系统内核就参与了低级CPU内存管理。麻省理工学院的Jigsaw技术的特别之处在于其中立的方法,软件无需太多控制便能配置芯片上的一些内存缓存,从而避免编程成为内存管理的噩梦。

麻省理工学院计算机科学及人工智能实验室助理教授、Jigsaw发明者之一丹尼尔•桑切斯(Daniel Sanchez)说:“几年前,人人都在抱怨,说虽然推出了PlayStation 3,但没有人能把程序编好。”

通常由CPU硬件控制所有的芯片缓存,但这些缓存必须承担任何一项能想象到的工作,从单纯的浮点数运算(对缓存而言是一个小负担)到计算机存储器组的密集搜索和查询(可能会超越它们的极限)。此外,CPU对其所开展的工作类型并无深刻的认识。这意味着利用与图谱搜索(对存储数据之间关系进行的占用内存的搜索)一样的缓存资源就可进行自成一体、包含复杂方程式的数值模拟,几乎不需要访问内存。

因此桑切斯和他的研究生南森•贝克曼(Nathan Beckmann)想,为什么不让操作系统减小缓存规模,进行纯计算,并扩充其设置进行图谱搜索呢?

他们说,第一步是将CPU占用空间的约1%分给一个可实时监控每个核心中缓存活动的简单硬件。有了硬件缓存监视器,Jigsaw就具备了充当CPU缓存空中交通管制员所需的独立监视能力。

桑切斯和贝克曼说,然后最多需要给操作系统内核再增加几千行代码即可。考虑到之前Linux内核提供了1500万行代码,而非官方的数字称,苹果和微软的内核则比这个数字还多几千万行,所以增加几千行并不多。

桑切斯说,Jigsaw其中一个更为突出的特别之处是嵌入操作系统的一个软件模块,研究人员称其为Peekahead。这种模块是根据十多年前北京的计算机科学家们开发的Lookahead缓存改造而成的。Peekahead能预测内核在未来时钟周期内要进行的工作,据此计算最佳CPU缓存配置。

桑切斯说:“如果交由软件管理,那么就必须要注意开销了。”他说设计不当的缓存管理系统可能会将缓存缩小到最佳规模,每秒重复多次,但这样会给CPU造成负担。需要大量CPU时间的CPU效率算法的意义何在?他说:“精确解非常昂贵。所以我们必须找到一个快速完成工作的方法,以保证开销不会超过收益。”

总部位于加利福尼亚山景城的半导体咨询公司林利集团的林利•格温耐普(Linley Gwennap)说,他对Jigsaw印象深刻,但要注意晶圆厂还未完全作好准备。“一般来说,问题是,在一种处理器上奏效的方案,在另一种具有不同硬件设计的处理器上可能不起作用。”他说道,“处理器一有变化,就不得不重新设计软件,客户们对此不太喜欢。”

桑切斯反驳说,软件应用和实用程序不会受到Jigsaw的影响。他说:“只有操作系统代码需要熟悉硬件知识,如缓存不同部分的拓扑结构。”

密歇根大学计算机科学助理教授杰森•玛尔斯(Jason Mars)说,作为概念验证手段,Jigsaw很有效,但他说芯片制造商在他们认为适当之处可能进行调整。

“这项工作的奇妙之处与软硬件之间的协同设计有关。”玛尔斯说,“以往的大部分工作都偏向一个方向。预期在硬件中完成的工作较多,相对灵活性较少。Jigsaw确实创建了一套涵盖了硬件和软件的全面体系。”

原文标题:缓存机:众核处理器要求软件具备灵活性,以最大限度地利用板载内存

文章出处:【微信号:IEEE_China,微信公众号:IEEE电气电子工程师学会】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
分享:

评论

相关推荐

在DNN算法领域 未来FPGA与CPU的性能对比分析

在最近的FPGA国际研讨会(ISFPGA)上,英特尔加速器架构实验室(AAL)的Eriko Nurv....
发表于 01-21 13:47 9次 阅读
在DNN算法领域 未来FPGA与CPU的性能对比分析

用于移动设备的框架TensorFlow Lite发布重大更新

在Pixel 3的人像模式(Portrait mode)中,与使用CPU相比,使用GPU的Tenso....
的头像 人工智能 发表于 01-21 13:45 49次 阅读
用于移动设备的框架TensorFlow Lite发布重大更新

vivo宣布将于1月24日正式发布vivo 2019年首款旗舰APEX 2019

核心配置上,vivo APEX 2019可能会搭载高通骁龙855旗舰平台,这是高通今年主打的高端产品....
的头像 科技美学 发表于 01-21 11:05 110次 阅读
vivo宣布将于1月24日正式发布vivo 2019年首款旗舰APEX 2019

请问CPU怎么向EMIFA发送读请求?

各位老师好,我使用C6747的EMIFA的CS4接了一个AD7656,请问如何向EMIFA发送读请求,在代码上的实现就是直接读映射...
发表于 01-21 10:55 9次 阅读
请问CPU怎么向EMIFA发送读请求?

服务器与GPRS通信,服务器如何找到特定的通信模块发送指令

gprs是通过IP地址和端口找到服务器与之通信的。那么如果下面有很多的GPRS模块,我的服务器如何找到这个特定的那个通信模块...
发表于 01-21 06:35 3次 阅读
服务器与GPRS通信,服务器如何找到特定的通信模块发送指令

DIY一个USB自动挖矿器

这时候你只需要花十块钱制作如下设备,然后钻到桌子底下装作系鞋带, 把设备插到他主机箱后边的USB接口....
发表于 01-20 11:19 92次 阅读
DIY一个USB自动挖矿器

PCB板和集成电路的组成和特点及区别的详细解析

目前的电路板,主要由以下组成:线路与图面(Pattern):线路是做为原件之间导通的工具,在设计上会....
的头像 芯论 发表于 01-19 10:55 344次 阅读
PCB板和集成电路的组成和特点及区别的详细解析

什么是内存盘

这里讲的内存盘是虚拟硬盘,就是在物理内存中划分出一部分空间来充当硬盘。它的使用方法是将一些存放在虚拟....
的头像 发烧友学院 发表于 01-18 17:44 328次 阅读
什么是内存盘

BUSY信号的下降表示ad转换完成,不想要GPIO的中断服务占用CPU的时间,请问如何实现?

我接触DSP不久,现在用的是6747。用AD的BUSY连接了DSP的一个GPIO管脚,BUSY信号的下降表示ad转换完成,GP...
发表于 01-18 16:44 92次 阅读
BUSY信号的下降表示ad转换完成,不想要GPIO的中断服务占用CPU的时间,请问如何实现?

ARM SoC体系结构PDF中文版免费下载

介绍了一般微处理器核的设计原理、基于微处理器核的SoC设计的基本概念和方法,通过对ARM系列处理器核....
发表于 01-18 16:25 33次 阅读
ARM SoC体系结构PDF中文版免费下载

如何从Linux中探讨Ⅵ编辑器的教学问题

从Linux中文本编辑器访的主要教学方法和常见的教学问题两个方面,探讨了Ⅵ编辑器的教学问题。
发表于 01-18 15:07 26次 阅读
如何从Linux中探讨Ⅵ编辑器的教学问题

随着DRAM需求全面放缓 内存价格预计明年将下跌

据报道,内存价格在2019年将降低15~25%。报道称,第四季度的DRAM芯片合同价的谈判已开始,虽....
发表于 01-18 14:42 63次 阅读
随着DRAM需求全面放缓 内存价格预计明年将下跌

DRAM内存市场营收再创纪录 三大厂商的毛利率全面突破了60%

今年的NAND闪存价格降了,但是DRAM内存价格还是居高不下,唯一的变化就是今年的涨价没有2016年....
发表于 01-18 14:38 48次 阅读
DRAM内存市场营收再创纪录 三大厂商的毛利率全面突破了60%

如何使用同态加密和Bloom过滤器进行云外包多方隐私集合比较协议

针对目前多方隐私集合比较( PSI)协议计算效率低下以及应用于云环境中会造成用户隐私信息泄露的问题,....
发表于 01-18 13:51 13次 阅读
如何使用同态加密和Bloom过滤器进行云外包多方隐私集合比较协议

程控稳压电源CPU控制板电路原理图免费下载

本文档的主要内容详细介绍的是程控稳压电源CPU控制板电路原理图免费下载。
发表于 01-18 08:00 33次 阅读
程控稳压电源CPU控制板电路原理图免费下载

单片机通过WIFI模块传输数据到服务器的大体思路是怎么样的?

单片机通过WIFI模块传输数据到 服务器,大体思路是怎么样的?求大神指导一下,第一次做这种东西...
发表于 01-18 06:35 36次 阅读
单片机通过WIFI模块传输数据到服务器的大体思路是怎么样的?

STM8和STM32之间有些什么差异?STM8和STM32先学谁?

STM8S 和 STM32 器件具有嵌入式自举加载器,通过它可以使用板上串行接口(例如 UART)重....
的头像 嵌入式资讯精选 发表于 01-17 17:34 412次 阅读
STM8和STM32之间有些什么差异?STM8和STM32先学谁?

_stext未定义

你好。 我为大于64K的代码更改了内存模型和库。 链接后收到错误: #error clnk Debug \ canli.lkf:未定义1个符号__s...
发表于 01-17 15:14 33次 阅读
_stext未定义

基于Java-EE的中小企业信用评级系统的架构

我国中小企业融资难的问题已成为制约中小企业发展的主要障碍。而造成融资难的最根本的原因是企业信用问题。....
发表于 01-17 14:32 30次 阅读
基于Java-EE的中小企业信用评级系统的架构

如何使用PSOC5测量CPU时间?

我要一个大概的时间在秒一个例程之间的电话。 我不需要很多的准确性和我没有任何多余的这个小功能UDB中。我有一个功能,可以...
发表于 01-17 12:46 100次 阅读
如何使用PSOC5测量CPU时间?

单芯片8051实务与应用教材免费下载

本书是三位作者累积多年的实务教学经验的总结。本书针对“8051单片机”学习上所出现的疑难问题,提出了....
发表于 01-17 11:18 23次 阅读
单芯片8051实务与应用教材免费下载

如何在Raspberry Pi 3上构建机器学习应用程序

希望评估机器学习方法的开发人员发现了越来越多的专业硬件和开发平台,这些平台通常针对特定类别的机器学习....
的头像 电子设计 发表于 01-17 08:24 205次 阅读
如何在Raspberry Pi 3上构建机器学习应用程序

三菱电机PLC MELSEC iQ-F系列的详细资料概述

三菱电机可编程控制器MELSEC-F系列以基本性能的提升、与驱动产品的连接、编程环境的改善为亮点,作....
发表于 01-17 08:00 42次 阅读
三菱电机PLC MELSEC iQ-F系列的详细资料概述

三菱MELSEC iQ-F系列FX5 PLC编程手册资料免费下载

本文档的主要内容详细介绍的是三菱MELSEC iQ-F系列FX5 PLC编程手册资料免费下载。CPU....
发表于 01-17 08:00 47次 阅读
三菱MELSEC iQ-F系列FX5 PLC编程手册资料免费下载

如何正确区分和安装CPU

中央处理器(CPU,Central Processing Unit)是一块超大规模的集成电路,是一台....
的头像 发烧友学院 发表于 01-16 17:21 183次 阅读
如何正确区分和安装CPU

为稳定DRAM价格并平衡市场供需环境 2019年各厂计划减少资本支出

根据集邦咨询半导体研究中心(DRAMeXchange)调查,2018年12月正值欧美年节时期,DRA....
发表于 01-16 14:31 80次 阅读
为稳定DRAM价格并平衡市场供需环境 2019年各厂计划减少资本支出

Keil实例教程之Keil工程文件的建立设置与目标文件的获得

单片机开发中除必要的硬件外,同样离不开软件,我们写的汇编语言源程序要变为CPU可以执行的机器码有两种....
发表于 01-16 11:43 33次 阅读
Keil实例教程之Keil工程文件的建立设置与目标文件的获得

即插即用的前端解决方案的研究分析

随着数据中心服务器和电信设备中分布式电源架构(DPA)和中间总线架构(IBA)的激增,系统设计人员正....
的头像 电子设计 发表于 01-16 08:02 203次 阅读
即插即用的前端解决方案的研究分析

请问GPRS如何跟服务器进行双向的网络数据传输的

请问GPRS如何跟服务器进行双向的网络数据传输的。我的意思就是GPRS如何发送数据到服务器,那么GPRS又是如何接受到服...
发表于 01-16 06:35 37次 阅读
请问GPRS如何跟服务器进行双向的网络数据传输的

GPU如何加快软件应用程序的运行速度

理解 GPU 和 CPU 之间区别的一种简单方式是比较它们如何处理任务。CPU 由专为顺序串行处理而....
的头像 电子发烧友网工程师 发表于 01-15 17:47 322次 阅读
GPU如何加快软件应用程序的运行速度

本周半导体:业界最高性能!华为发布7nm服务器处理器鲲鹏920

据英国《金融时报》报道,IBM已开发了第一台独立的量子计算机,将一些全球最先进的科学技术集成到一个9....
的头像 电子发烧友网工程师 发表于 01-15 17:39 579次 阅读
本周半导体:业界最高性能!华为发布7nm服务器处理器鲲鹏920

如何选择合适的单片机常用单片机介绍

单片微型计算机简称单片机,是典型的嵌入式微控制器,它不是完成某一个逻辑功能的芯片,而是把一个计算机系....
发表于 01-15 17:18 82次 阅读
如何选择合适的单片机常用单片机介绍

集群的作用及搭建方法及设计方案

数据量和访问量:估算应用需要的数据量和总访问量(考虑业务发展,留有冗余),结合每个主节点的容量和能承....
的头像 电子发烧友网工程师 发表于 01-15 16:43 169次 阅读
集群的作用及搭建方法及设计方案

超微7纳米CPU、GPU大军后段封装订单由三强分食

熟悉委外封测代工(OSAT)业者透露,除了晶圆代工非台积电操刀莫属外,超微绝地反攻的7纳米CPU、G....
的头像 DIGITIMES 发表于 01-15 14:30 289次 阅读
超微7纳米CPU、GPU大军后段封装订单由三强分食

C6000的CPU执行指令是流水线方式的,不会产生冲突吗?

C6000的CPU执行指令是流水线方式的,每个时钟可以同时执行8个指令,这样一来,不会产生冲突吗? 比如第一条指令,赋值给一个...
发表于 01-15 10:27 121次 阅读
C6000的CPU执行指令是流水线方式的,不会产生冲突吗?

英特尔10nm在消费级与服务器端布局了IceLake架构处理器

PC产业上一次的大规模变革还要追溯到8年前。英特尔在大幅革新低电压U系列处理器功耗与性能的同时,也适....
发表于 01-15 10:00 177次 阅读
英特尔10nm在消费级与服务器端布局了IceLake架构处理器

怎么生成任意,稳定的频率

这就是问题:我需要产生一个517 OCH 517kHz信号,正弦或平方。要做到这一点,最简单的方法就是用计时器来划分时钟。这需要零...
发表于 01-15 06:57 51次 阅读
怎么生成任意,稳定的频率

VS1003接功放噪声很大

CPU用STM32F103RC,驱动程序用原子哥的,功放用TI TPA3125 附原理图: ...
发表于 01-15 03:00 68次 阅读
VS1003接功放噪声很大

内存速度和时序重要么

最近是跟内存耗上了,其一是手里没有其它硬件可测,更重要的是想趁着这段时间,把内存与性能之间的影响都慢....
的头像 发烧友学院 发表于 01-14 15:09 129次 阅读
内存速度和时序重要么

为什么除了CPU还需要显卡

为什么除了CPU还需要显卡?这个看情况而定。因为并不是所有cpu都需要显卡。部分cpu内集成显卡,由....
的头像 发烧友学院 发表于 01-14 15:01 161次 阅读
为什么除了CPU还需要显卡

华为正式推出首个服务器芯片鲲鹏920

1月7日,从代表着中国创新之城的深圳,传来了一个喜讯!华为正式推出了首个服务器芯片 —— 鲲鹏920....
的头像 WPR 发表于 01-14 14:15 401次 阅读
华为正式推出首个服务器芯片鲲鹏920

AMD只用7nm的的中端样品就达成了媲美i9-9900K的多核性能

AMD本周在CES 2019上正是官宣了第三代Ryzen锐龙处理器,基于7nm Zen 2架构打造,....
发表于 01-14 10:42 147次 阅读
AMD只用7nm的的中端样品就达成了媲美i9-9900K的多核性能

Intel除了CPU还将进军其他领域

如果你还以为Intel的主业是CPU处理器,那就大错特错了,因为现在他们在这个领域投入的精力真的是越....
发表于 01-14 10:38 92次 阅读
Intel除了CPU还将进军其他领域

ARM和华为在1月初给我们带来哪些新品发布?

2019年注定是不平静的一年,科技届刚刚迎来CES2019的多家产品发布,但是没有在CES展上亮相的....
发表于 01-14 10:08 866次 阅读
ARM和华为在1月初给我们带来哪些新品发布?

如何设计低功耗的单片机便携式系统详细设计方法说明

针对单片机便携式系统功耗要求低的特点,比较仝面的介绍了将单片机便携式系统如何设计成低功耗系统.主要从....
发表于 01-14 08:00 33次 阅读
如何设计低功耗的单片机便携式系统详细设计方法说明

苹果手机如何拆胶详细方法说明

苹果拆胶方法:1.用小嘴风枪200度加热IC边沿,用镊子(不能太尖)轻轻去掉黑胶,注意不要去掉小电阻....
发表于 01-14 08:00 44次 阅读
苹果手机如何拆胶详细方法说明

刷机报错代码参照表资料免费下载

本文档的主要内容详细介绍的是刷机报错代码参照表资料免费下载 刷到三分之一报错-1,基带电源供电输出....
发表于 01-14 08:00 39次 阅读
刷机报错代码参照表资料免费下载

嵌入式实时操作系统Percepio新版本有什么改动

Percepio赶在寒假之前发布了Tracealyzer 4.2.9,新版本有了一些改进,并对发现的....
的头像 嵌入式资讯精选 发表于 01-13 10:22 453次 阅读
嵌入式实时操作系统Percepio新版本有什么改动

给电脑配风扇时要注意什么

在安装CPU散热器时,需要注意防止“假安装”现象的现出。“假安装”即看上去是安好,但实际上CPU的表....
的头像 发烧友学院 发表于 01-12 11:22 384次 阅读
给电脑配风扇时要注意什么

wincc的瘦客户端解决方案

WebUX 目前并不支持所有的图形编辑器对象,而且有些对象的显示样式会有所不同,对象功能也会有所限制....
的头像 工控帮 发表于 01-12 10:57 306次 阅读
wincc的瘦客户端解决方案

如何使用Java ME和Servlet进行移动成绩查询系统的设计实现

简要地分析系统架构,并利用J2ME/Servlet技术设计了一个移动成绩查询系统.列举服务器端和客户....
发表于 01-11 16:20 31次 阅读
如何使用Java ME和Servlet进行移动成绩查询系统的设计实现

群雄角逐5G基带芯片市场

随着5G网络的即将商用,手机芯片厂商纷纷抢先推出了自家的5G芯片。手机芯片可以分为射频芯片、基带调制....
的头像 电子工程技术 发表于 01-11 10:09 892次 阅读
群雄角逐5G基带芯片市场

服务器云端需求急增 英特尔龙头宝座恐不保

人工智能(AI)、虚拟实境(VR)∕扩增实境(AR)、5G等新技术、新应用的演进,带动服务器持续成长....
的头像 DIGITIMES 发表于 01-11 10:04 594次 阅读
服务器云端需求急增 英特尔龙头宝座恐不保

AMD发布全球首款7纳米GPU,高端游戏市场狙击英伟达

这个消息看起来很有意思,其实从技术上讲,AMD并没有发布任何新的GPU,(新显卡仍然沿用与上一代旗舰....
的头像 新智元 发表于 01-11 09:04 460次 阅读
AMD发布全球首款7纳米GPU,高端游戏市场狙击英伟达

存储器产业步入景气向下循环 服务器进入库存调整期

数据中心客户也呈现库存升高的调整期,继苹果日前下调财测后,三星电子(Samsung Electron....
的头像 DIGITIMES 发表于 01-10 16:54 680次 阅读
存储器产业步入景气向下循环 服务器进入库存调整期

Nginx架构介绍 Nginx服务器模型分析

Nginx是一款免费的、开源的、高性能、模块化、轻量级的HTTP服务器、反向代理服务器以及电子邮件(....
的头像 人间烟火123 发表于 01-10 16:32 932次 阅读
Nginx架构介绍 Nginx服务器模型分析

英特尔的10nm芯片终于挤出来了

在CES主题演讲中,英特尔的Gregory Bryant展示了该公司的“首批10nmSoC”,这是一....
的头像 中国半导体论坛 发表于 01-10 15:55 795次 阅读
英特尔的10nm芯片终于挤出来了

ARM服务器成本偏高 华为可能会走大机器的商业模式

日前,华为发布了ARM服务器芯片鲲鹏920,以及搭载鲲鹏920的ARM服务器。
的头像 科工力量 发表于 01-10 10:39 1043次 阅读
ARM服务器成本偏高 华为可能会走大机器的商业模式

SQL Server 2005数据库的应用手册

SQL Server是基于服务器端的中型的数据库,可以适合大容量数据的应用,在功能上管理上要比Acc....
发表于 01-10 08:00 31次 阅读
SQL Server 2005数据库的应用手册

TMS320VC5501 定点数字信号处理器

TMS320VC5501(5501)定点数字信号处理器(DSP)基于TMS320C55x™DSP生成CPU处理器内核。 C55x™DSP架构通过增加并行性和全面关注降低功耗来实现高性能和低功耗。 CPU支持内部总线结构,该结构由一个程序总线,三个数据读总线,两个数据写总线以及专用于外设和DMA活动的附加总线组成。这些总线能够在一个周期内执行最多三次数据读取和两次数据写入。并行,DMA控制器可以独立于CPU活动执行数据传输。 C55x™CPU提供两个乘法累加(MAC)单元,每个单元能够进行17位×17位乘法运算。单循环。额外的16位ALU支持中央40位算术/逻辑单元(ALU)。 ALU的使用受指令集控制,提供优化并行活动和功耗的能力。这些资源在C55x CPU的地址单元(AU)和数据单元(DU)中进行管理。 C55x DSP代支持可变字节宽度指令集,以提高代码密度。指令单元(IU)从内部或外部存储器执行32位程序提取,并为程序单元(PU)排队指令。程序单元解码指令,将任务指向AU和DU资源,并管理完全受保护的管道。预测分支功能可避免执行条件指令时的管道刷新。 5501外设...
发表于 10-09 14:55 54次 阅读
TMS320VC5501 定点数字信号处理器