0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

国产纯自研、100+行业实践,探秘速石核心调度器Fsched

架构师技术联盟 来源:架构师技术联盟 2023-09-01 15:38 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

这是一篇推荐我们速石自研调度器——Fsched的文章。

看起来在专门写调度器,但又不完全在写。 往下看,你就懂了。

介绍一下主角速石自研调度器Fsched

fastone Scheduler,简称Fsched,是速石科技所有产品的核心调度组件。Ta是面向HPC集群的操作系统,是HPC集群的“大脑”,用于对HPC集群内的计算资源进行管理、监控,对用户提交的任务进行统一管理、分发和远程执行。

Fsched是速石科技基于开源的Slurm版本进化而来的全新产品。

01

我们的Fsched调度器到底厉害在哪?

先看一组我们在半导体领域用户的真实验证数据:

5个月时间内:

CPU调度峰值达到5万核;

提交了超过8000万Jobs;

构建超过700台机器组成的大规模集群;

使用量约3000万核时。

0356202a-47c0-11ee-97a6-92fbcf53809c.jpg

Fsched性能指标

吞吐量:

1000 jobs/second

响应时间:

1 ms

集群规模:

单个Fsched集群能够支持的最大节点数:1000

单个Fsched集群能够支持的最大CPU核数:30000

总结一下,Fsched调度器优势:

1. 完全由速石独立开发,性能卓越;

2. 我们能提供代码级技术支持;

3. 支持市面上几乎所有EDA工具

4. 服务了100+家不同类型的半导体行业用户;

5. 兼容LSF/SGE等调度器,使用体验不变。

关于调度器科普和不同流派近二十年的发展历程,可以点击回顾:亿万打工人的梦:16万个CPU随你用

02

代码级技术支持有什么不一样?

代码级技术支持的特别之处主要体现在解决问题的路径上。

一句话,我们能做很多人做不到的事情。

一般问题:我们站在产品视角来解决

特殊问题:我们以开发者身份来解决

比如一些特殊调度策略的改造与优化,我们是开发者,所以能做。包括各种调度器日志的监控分析,优化调度器的提交方式和脚本等等。

DEBUG:深入代码级的技术支持

举一个典型例子:当研发提交任务出现异常状态,怎么办?

我们首先需要定位与任务相关的日志。日志分为:基础设施层日志、中间件层日志、应用层日志等。IT和研发工程师的关注点不一样:IT工程师一般看基础设施层日志,CAD和研发工程师看中间件层日志和应用层日志。不同角色各看各的,定位问题效率低。

036c2ab4-47c0-11ee-97a6-92fbcf53809c.jpg

我们通过Fsched调度器:1. 把调度任务的异常日志分类,找出是哪一层的问题;

2. 任务状态跟踪,通过异常应用找出相应进程和IO信息,方便判断;

3. 通过数据分析抓取日志中的关键信息。

找到问题,over。

03

Slurm之上,我们还做了什么?

Slurm是厉害的:全球60%的TOP500超算中心和超大规模集群(包括我国的天河二号等)都采用Slurm作为调度系统。它拥有容错率高、支持异构资源、高度可扩展等优点,适用性相当强。

那么,基于Slurm之上,我们还做了些什么?

从0到1,帮助用户更快,更简单地用起来

1.产品级IT自动化管理,标准化地调用资源,保证环境一致性,降低用户配置复杂度和出错率,上手更容易;

2. 从业务出发,Fsched与底层资源的联动性强,根据任务需求自动伸缩,更符合云上使用方式。

038ab826-47c0-11ee-97a6-92fbcf53809c.png

从1到10,让用户用得稳定,用得放心1.对Slurm开源版进行修复与增强。修复Slurm开源版在复杂环境下任务异常崩溃等问题,增加了混合云智能调度能力; 2. 基于Wrapper组件,Fsched对上层EDA应用进行了兼容与优化,保证用户使用体验不变;

PS:同样是Wrapper,水平也是有高下的。要达到多年战斗在一线的专业高级口译的经验和水平,只能说:有难度。

3. 根据最佳实践经验总结的流程与规则,能优化EDA Workflow,提高调度器使用效率;

4.代码级支持能力让用户无后顾之忧。

只要有个调度器就够了吗?

答案自然是否定的。

为什么?

或许,我们可以换个角度来回答这个问题。

就像汽车出现之前,用户的期望永远是——1匹更快的马一样。

在当下芯片设计研发领域,我们如果把调度器类比马,那么汽车是什么呢?

我们给大家简单描绘一下:

一个站在整个芯片设计研发体系和架构视角来满足EDA行业用户性能、功能、体验的产品。

1. Ta是完整的一体化产品,功能紧密耦合,且经过层层实战考验;

2. Ta解决的是完整生命周期的芯片设计业务问题,调度器只是其中一个模块;

3. Ta具有对企业未来发展的弹性,能扩展至不同规模和更多业务路线,比如AI

03dc7daa-47c0-11ee-97a6-92fbcf53809c.jpg

而这,正是我们与其他很多产品最大的区别之一。

我们的产品在设计之初就是面向EDA应用,服务芯片设计研发业务场景的。这也决定了我们解决问题的出发点永远是:是否满足研发业务需求,然后从上至下地解决问题。

01

一整套上中下层联动的芯片研发环境

我们提供的是一整套上中下层联动的芯片设计研发环境:

1. 连接上层EDA应用,对应用本身的运行提供支持和优化;

2. 连接底层资源,给用户提供更灵活,更高效使用资源的能力;

3. 结合EDA应用和底层资源的联动和适配,给出最佳实践经验。

02

功能面向实际业务场景设计和提供

我们的功能都是面向实际业务场景设计和提供的:

1.License调度优化,可帮助企业用户最大化提升License利用率,更好地规划License购买策略,控制整体使用成本;

2. 我们能多维度监控任务状态,提供基于EDA任务层的监控、告警、数据统计分析功能与服务,让团队管理者监控各个重要指标变化,从全局角度掌握项目的整体任务及资源情况,为未来项目合理规划、集群生命周期管理、成本优化提供支持;

04018802-47c0-11ee-97a6-92fbcf53809c.jpg

3.日常数据统计与运营分析管理,实现问题可追溯,可追踪,降低成本,提升整体项目管理效率。

03

交互方式不改变EDA用户使用习惯

我们的交互方式不改变EDA用户的使用习惯。原来怎么用,现在还怎么用。

速石研发平台

VS

LSF Suite

半导体行业用户最熟悉的调度器是LSF,就不多介绍了。

不过,它背后的LSF Suite大家就不一定熟悉了。

来来,我们盘一下,我们速石研发平台跟LSF Suite的区别是什么?

01

根本区别:设计理念不一样

我们是站在整个芯片设计研发体系和架构视角来设计的一体化产品,解决的是完整生命周期的芯片设计业务问题,功能紧密耦合,且经过层层实战考验。

而Fsched调度器只是其中一个模块,不单独售卖,在我们的全线企业级产品均属内置,且与产品其他功能深度绑定。

这正是我们上一节提到的面向EDA业务的产品定位决定的。 而LSF Suite里的核心调度器LSF与其他组件是不关联的,属于可选项。这也导致了用户大多只接触过LSF,而对它的其他组件没有什么概念。

而且,因为各种功能组件之间独立存在的,用户使用的时候需要根据自己业务需要进行二次开发组装,从零开始进行功能模块需求评估、采购、对接、开发和测试验证兼容性,才能搭建出一个完整的研发环境,时间周期也会比较长。 另外还有期间的运维、后续的更新升级和功能扩展等事项。

02

性价比:速石研发平台TCO更低

下图是我们研发平台与LSF Suite的横向对比图,可以清楚地看到,两者的收费模式差别很大。

04486916-47c0-11ee-97a6-92fbcf53809c.jpg

我们Fsched调度器是包含在平台费用里的,相关组件也都是随产品一起内置的,不单独收费。

而LSF Suite除了核心调度器按使用核数收费以外,所有功能组件都需要额外收费。

从总拥有成本来看,对用户来说,速石研发平台付出的成本更低,获得的东西更多。还有很多隐性成本没有列在表格里,比如对接调试时间成本,人工成本,售后支持成本等等。

总结一下,我们跟LSF Suite的五大主要区别:

1.核心调度器Fsched完全国产自研,有代码级支持能力; 2. 我们的产品设计初衷就是提供面向EDA业务的一整套研发环境,可扩展性强;3.各功能模块紧密耦合,不单独收费,整体性价比高;4.我们的CAD能力与经验,能有效提高上中下层整体联动效率; 5. 我们兼容LSF/SGE等调度器,使用体验不变。

如果你想尝试AI——

目前,AI在芯片设计领域的应用主要有两条路线:

路线一:AI+EDA工具

Synopsys、Cadence与Siemens等公司纷纷在其最新工具中使用了AI技术,覆盖先进数字与模拟芯片的设计、验证、测试和制造环节,让开发者在芯片开发的每一个阶段都可以采用借助AI的自主学习能力,提供芯片设计生产力。

当然,越来越多EDA工具也支持借助GPU进行运算加速。

路线二:AI算法模型训练

Google研究人员使用10,000个芯片布局图来训练他们的深度学习模型——PRIME,人工智能生成的芯片的设计时间不到六个小时。

而NVIDIA设计了另一种用于芯片设计的深度学习方法——PrefixRL模型,NVIDIA使用其RL工具设计的电路比人类使用当今EDA工具设计的电路小25%,但性能相似。

路线一需要支持全流程EDA工具的一整套研发环境,以及构建异构资源(CPU+GPU、本地+云上)的调度及管理平台的能力。

路线二需要的支持企业从ML/LLM模型构建、大规模训练到最终部署需求的MLOps模块。

我们都有。

另外,我们刚刚发布的一款行业知识库聊天应用Megrez,面向企业客户提供大语言模型的私有化部署能力,允许用户自定义行业知识库,实现领域知识的问答

045bd168-47c0-11ee-97a6-92fbcf53809c.png

Megrez基于芯片设计领域提供的支持

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 操作系统
    +关注

    关注

    37

    文章

    7331

    浏览量

    128672
  • HPC
    HPC
    +关注

    关注

    0

    文章

    342

    浏览量

    24831
  • 调度器
    +关注

    关注

    0

    文章

    99

    浏览量

    5638

原文标题:国产纯自研、100+行业实践,探秘速石核心调度器Fsched

文章出处:【微信号:架构师技术联盟,微信公众号:架构师技术联盟】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    季丰电子PCB管理系统的简单介绍

    季丰电子的PCB管理系统,整合报价+投板+Release三大核心模块,覆盖从设计发布、订单对接到生产交付的全业务流程。
    的头像 发表于 11-11 14:51 1026次阅读

    腾聚创全栈数字激光雷达芯片通过AEC-Q认证

    10月14日,腾聚创宣布旗下数字激光雷达的两款核心芯片通过AEC-Q102车规级可靠性认证,成为全球率先实现数字激光雷达发射、接收、处理全链路芯片均达车规标准的科技企业。   据
    的头像 发表于 10-15 17:12 446次阅读

    众达科技以“自主可控”生态,在国产嵌入式领域交出超200款产品、100+专利的硬核答卷

    14年深耕!众达科技以“自主可控”生态,在国产嵌入式领域交出超200款产品、100+专利的硬核答卷 在电力调度的实时监控、工业产线的智能管控、金融系统的安全防护等关键场景中,北京众达精电科技有限公司
    的头像 发表于 10-10 21:49 261次阅读

    国产高性能图形 GPU 重磅发布:跑分超 RTX4060,畅玩《黑神话・悟空》

    系列。   砺算科技创始人、CEO 宣以方表示,砺算 7G100 系列 GPU 从计算核心到指令集完全由自主设计,基于 “天图” 架构,并配备
    发表于 07-26 21:45 5658次阅读
    <b class='flag-5'>国产</b>真<b class='flag-5'>自</b><b class='flag-5'>研</b>高性能图形 GPU 重磅发布:跑分超 RTX4060,畅玩《黑神话・悟空》

    华工业AI Agent的发展态势及实践思考

    工业 4.0 风起云涌之际,AI Agent 产业化落地成为各界竞逐焦点。华科技凭借深厚的行业积淀,勇于创新、积极探索,在企业级工业 AI Agent 方面积累了扎实的实践经验。本期访谈邀请到
    的头像 发表于 06-23 09:31 826次阅读

    艾为电子“探秘中国芯”科普公益携手闵实验小学

    近日,艾为电子开启“探秘中国芯”科普公益活动,闵实验小学23名学生代表,共同踏入集成电路的奇妙世界。作为闵行区首批青少年实践教育基地,艾为电子匠心打造沉浸式芯片科普课堂,以“参观感知+理论研习
    的头像 发表于 05-28 18:04 871次阅读
    艾为电子“<b class='flag-5'>探秘</b>中国芯”科普公益携手闵实验小学

    高端芯片,服务芯片传来好消息!

    电子发烧友网报道(文/黄晶晶)当前,处理已经跨过了能用的阶段,逐渐走向好用,但无论是消费级还是服务级都面临着如何在性能上接近国外高端产品,以及生态上如何更加完善的问题。国内厂商
    的头像 发表于 05-18 09:25 7505次阅读
    高端芯片<b class='flag-5'>自</b><b class='flag-5'>研</b>,服务<b class='flag-5'>器</b>芯片传来好消息!

    国产化赋能交通新基建:华工控机ITA-170V2的突破与场景实践

    在交通新基建与国产化替代的双重趋势下,工业控制设备的自主可控性成为行业关注焦点。作为工业自动化领域的领军企业, 华工控机 凭借深厚的技术积累,推出新一代国产
    的头像 发表于 04-21 09:54 499次阅读
    <b class='flag-5'>国产</b>化赋能交通新基建:<b class='flag-5'>研</b>华工控机ITA-170V2的突破与场景<b class='flag-5'>实践</b>

    工业4.0革命利器!明远智睿SSD2351核心板:低成本+高算力,破解产线智能化难题

    提升30%,硬件成本降低50%。 价格与供应优势: BOM成本优化:4层沉金PCB工艺,集成国产DDR3/L内存,方案单价仅48元(含税); 快速交付:现货库存支持1000pcs周产能
    发表于 03-21 14:22

    探秘新能源行业利器:多串保护板测试仪的革新应用

    探秘新能源行业利器:多串保护板测试仪的革新应用
    的头像 发表于 03-05 15:09 786次阅读

    国产FPGA入学必备】国产FPGA权威设计指南+配套FPGA图像视频教程

    同创FPGA的核心技术,还能深入理解紫光同创FPGA在不同应用中的最佳实践,提升自身的开发能力和技术水平。本书可作为高等学校相关专业的教材,也可供从事FPGA开发的人员阅读。 本书将成为国产FPGA
    发表于 02-20 15:08

    国产力量崛起:博尔森国产化磁致伸缩位移传感方案

    博尔森科技推出国产化磁致伸缩位移传感,实现波导丝、元器件BOM国产化,具有高精度、高稳定性、强抗干扰能力,广泛应用于工业领域,推动行业
    的头像 发表于 02-13 17:35 1121次阅读
    <b class='flag-5'>国产</b>力量崛起:博尔森<b class='flag-5'>纯</b><b class='flag-5'>国产</b>化磁致伸缩位移传感<b class='flag-5'>器</b>方案

    国产硅振荡对标SiTime在SSD中的应用方案

    国产硅振荡对标SiTime在SSD中的应用方案
    的头像 发表于 01-08 10:02 771次阅读
    <b class='flag-5'>国产</b><b class='flag-5'>纯</b>硅振荡<b class='flag-5'>器</b>对标SiTime在SSD中的应用方案

    国产硅振荡兼容SiTime在医疗超声治疗仪中的应用

    国产硅振荡兼容SiTime在医疗超声治疗仪中的应用
    的头像 发表于 01-02 09:57 747次阅读
    <b class='flag-5'>国产</b><b class='flag-5'>纯</b>硅振荡<b class='flag-5'>器</b>兼容SiTime在医疗超声治疗仪中的应用

    QXS320F280049,国产C2000系列芯片,完整版数据手册

    双核、主频150MHz, 兼容TI 的 TMS320F280049, 指令集、内核、工具链、IDE、关键控制外设,全100%
    发表于 12-26 09:13