0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

浪潮云海刘健:“一云多芯+云原生”是算力异构最优解

全球TMT 来源:全球TMT 作者:全球TMT 2023-08-25 05:13 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

浪潮云海秉承开放兼容、分层解耦的技术理念,面向全行业用户提供领先的私有云产品与解决方案,助力企业构建坚实云基座,实现数字化重构与转型。在金融领域的云原生和云计算建设过程中,浪潮云海积累了丰富的实践经验,凭借创新务实的实干理念,以客户需求为核心的服务意识,得到了行业和客户的广泛认可。

本文系浪潮数据云计算方案总监刘健演讲实录,以下内容将从云计算的发展趋势、金融云的趋势及挑战、浪潮云海在云原生基础设施建设过程中的实践成果三部分进行相关经验的分享和观点的探讨。

一、云计算发展趋势:下一代云数据中心

目前,AI5G、大数据这些词汇已和云计算密不可分,在这样的环境下,浪潮云海认为开放硬件、开放软件以及软硬件分层解耦已成为数据中心发展的重要趋势,同时,面对更为多样的计算场景,云计算体系架构的演进、模型即服务、多元算力的管理能力也成为下一代云数据中心的进化方向。

软硬件同步优化

为满足用户对产品性能和使用体验的需求,在倡导软硬解耦的基础上,浪潮云海同样关注软硬件的同步优化。在云计算领域,通过对硬件的深度优化,可大幅提升产品性能,以此解决软件层容器和虚拟化的损耗问题;通过DPU改变底层的高可用架构,从而实现虚拟机高可用的逻辑切换。

广泛的软硬件协同

计算系统架构的解耦和计算设备之间的互操作性是未来计算可持续发展的关键。在网络层面,硬件SDN和网络设备极易绑定,在解耦的阶段,通过云上软SDN和任意厂商网络设备,配合GPU和智能网卡加速,就可以做到解除绑定和性能提升;在存储系统层面,也可以通过同样的办法实现存储系统的加速;在安全层面,以DPU做加强,可实现计算机系统负荷的卸载。以上都是通过硬件优化来实现软件的性能提速。

模型即基础设施

随着ChatGPT的持续火热,模型已经和算力、算法一样,成为了下一代云的基础设施标准。但从归属划分上看,公有云上训练得到的模型仍属于公有云,只有在私有云上基于自己的数据进行训练,才能得到专属的大模型,这也是国内大型金融机构目前致力发展的方向。

多元算力

支撑新兴业务发展,助力多元算力场景。现在的数据中心从物理资源层上看基础设施更加多元,X86和ARM设备的混部已成为常态;用户对算力引擎的需求也囊括了虚拟化、裸机、容器,且这一状态将长期持续;算力类型上也从单纯的CPU向GPU、FPGA扩展。

二、金融云趋势及挑战

金融云发展趋势

金融云发展大致可分为三个阶段:IOE时代、业务云化时代、云原生时代。云原生能力又可概括为以下三点:应用的容器化,服务的Mesh化及Serverless。金融IT本质上是为组织和业务服务的,所以上层技术的变化往往源于组织架构的变迁。业务架构从单体、到服务化再到微服务架构,数据架构从统计分析到数据服务湖仓一体,技术架构对应发展到服务网格,最终形成组织架构和开发框架的变革。每个阶段组织架构和技术架构都需要匹配,这是一个逐步演进的过程。

金融云建设挑战

IaaS层的建设经验较为通用,但是PaaS层的建设则更加复杂,对此我们做出以下分析:

IaaS和PaaS都有明显的行业属性,如果一个云厂商卖给所有客户的PaaS都是一样的,则它是不具备行业属性的。每个行业的业务不同,要求的PaaS指标和组件也不同,标准化产品未必适用。

容器即服务,很多场景下用户认为PaaS不好用、不灵活是因为厂商将PaaS的基础设施跟PaaS的服务整合在了一起,极端情况可能是每个产品都附带了容器平台。对此,浪潮云海的建设经验是把PaaS的功能解耦出来,使之成为容器即服务。

在业务层的搭建过程中,我们建议用户建设一个统一的云基础设施,并选择业务可解耦的PaaS厂商,将解耦后的能力架设在统一的容器即服务平台上。

微服务体系的建设也存在多架构并存和逐步演进的过程:在微服务框架里面,Dubbo和SpringCloud是目前较为流行的应用分布式、微服务开发框架,在金融行业应用广泛;而Istio目前的发展趋势则是平台级别的服务治理框架,可进行无侵入的遗留系统微服务改造。当然,微服务架构的选择和平台规划、公司规划是密不可分的,同时也需要逐步去演进。

对于微服务的运维,我们建议将IaaS层和PaaS层打通,形成垂直运维体系。这里面临如下挑战:PaaS组件版本、开发框架多,不同的PaaS组件有不同的硬件资源,导致部署效率低;在业务数据网络隔离的情况下,如何解决PaaS的跨域使用。对此我们建议在网络分区的情况下,根据使用环境需求按需部署、按需编排,并构建统一发放的网络,把中间运维侧打通,通过运维网络将PaaS发放到不同的域里面去,通过就近部署、就近访问,统一运维,实现PaaS层的统一。

三、浪潮云海云原生基础设施创新与实践

目前,浪潮云海主要着力于建设云原生基础设施的底层,参考信通院发布的《云原生能力成熟度标准》,聚焦两个方向来开展工作:第一,技术架构,主要是资源管理、运维保障、研发测试等;第二,业务应用,主要是弹性、高可用、自动化、可观测等。

"一云多芯+云原生"

在金融云的建设实践中,"一云多芯"是金融行业云的一项重要的基础指标。一云多芯"可满足用户算力多样化需求,并且可有效规避算力孤岛;是打破小生态、构建大生态的关键纽带; 并且可有效降低供应链风险 。无论是从业务角度、技术角度,还是产业链角度,践行"一云多芯"已经成为当下及未来云计算产业发展的关键,是产业链相关厂商的必然选择,现在,能源、电力行业也对一云多芯提出了明确的要求。

浪潮云海认为"一云多芯+云原生"是解决算力异构的最优解,我们根据无状态和有状态两种业务形态总结出以下实践经验:

对于无状态应用,基本都基于Java开发,编译过程并不难,重新编译后的应用,都能运行在多芯集群里,对底层CPU或服务器并无太多限制;

对于有状态的数据,最重要的是保障数据库数据无丢失,不一定要追求一云多芯。但可以进行相关尝试,如在一云多芯环境中部署分布式数据库,可以用X86算力支撑primary集群或写操作,用非X86算力承载standby或者读操作,这是数据库一云多芯的一种实现方式。这种模式也可以应用在数据库层面的容灾建设中。

除了考虑业务形态,我们在实践过程中还总结了以下几个建设要点:

集群内的算力自动等价调度:因为不同架构服务器之间有算力的换算问题;对此,我们联合信通院及多家厂商,进行过算力自动等价调度测试;

流量切换:在实践中可通过网关切换来实现;

无感切换:目前我们的产品已经具备这种能力,用户底层基础设施的架构并不会影响上层业务运行,用户可基于不同架构的底层资源进行动态的调整和资源的调用。

微服务架构体系的建设

对于微服务架构体系的建设,如上提到,首先是开发框架的并存问题。对此,我们建议通过配置中心将各架构统管起来,先把共性的东西抽离出来,再进一步做融合。其次是多数据中心的问题,目前用户普遍都有多套数据中心,对此,可以通过级连的方式做管理,用总分总的模式进行管理。

高可用设计

下一代云的高可用设计在云原生层面不难实现,但并不是所有业务都是云原生的,这就使得难以从上层解决高可用的问题。作为基础设施厂商,我们提倡通过底层建设,即使不依赖云原生也能实现高可用。所以对于下一代的高可用架构,我们希望可以在这两个维度上来回切换,同时也希望能打通裸机和虚拟机的控制平面,实现多引擎间的高可用。这其中还有很多挑战,仍需逐步演进。

目前浪潮云海已经服务了15000多家客户,在各个行业全面开花,涵盖金融、能源、交通、医疗、企业、教育等关键领域,是客户数字化、智慧化转型的重要云底座。这其中包括国内最大规模的金融生产云,承载客户的双11业务;最大规模、芯片种类最多的省级政务云,承载4套公共应用服务,104个业务系统;以及汽车、轨交、科学计算实验室等多个千万级大项目。

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 云计算
    +关注

    关注

    39

    文章

    8044

    浏览量

    144798
  • 浪潮
    +关注

    关注

    1

    文章

    491

    浏览量

    25490
  • 5G
    5G
    +关注

    关注

    1368

    文章

    49229

    浏览量

    641112
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    天数智助力DeepLink异构训推体化升级

    当前,通用人工智能发展驶入快车道,大模型对的需求呈现爆发式增长,异构的高效协同成为释放
    的头像 发表于 03-26 09:30 456次阅读
    天数智<b class='flag-5'>芯</b>助力DeepLink<b class='flag-5'>异构</b><b class='flag-5'>算</b><b class='flag-5'>力</b>训推<b class='flag-5'>一</b>体化升级

    边缘AI临界点:深度解析176TOPS香橙派AI Station的产业价值

    310P芯片的底层架构,深度剖析这款产品的技术细节、门槛及其在实际产业落地中的真实价值。 、176TOPS的产业门槛:为何这是边缘
    发表于 03-10 14:19

    商汤大装置SenseCore原生AI平台荣获信通院5A卓越级认证

    近日,商汤大装置SenseCore原生AI平台通过中国信通院与泰尔实验室《模数用-平台服务能力》权威测试,获业界最高等级5A卓越级认
    的头像 发表于 02-04 15:55 474次阅读
    商汤大装置SenseCore<b class='flag-5'>原生</b>AI<b class='flag-5'>云</b>平台荣获信通院5A卓越级认证

    飞腾主板以E2000Q四核强为支撑,开启终端高时代

    在信创浪潮奔涌、数字化转型提速的当下,终端已成为政企办公、工业控制、智慧教育等领域的核心载体,而主板作为“核心大脑”,其、安全与适配性直接决定
    的头像 发表于 02-02 11:05 295次阅读
    飞腾主板以E2000Q四核强<b class='flag-5'>芯</b>为支撑,开启<b class='flag-5'>云</b>终端高<b class='flag-5'>算</b><b class='flag-5'>力</b>时代

    GPU 利用率<30%?这款开源智平台让不浪费 1%

    套 AI 服务要折腾几天,环境配置、依赖处理耗尽心力;运维告警凌晨轰炸,集群故障诊断如同大海捞针,MTTR(平均修复时间)高得离谱…… AI 时代的浪费,早已成为制约企业 AI 落地的核心痛点。而秒如科技开源的 Lnjoy
    的头像 发表于 01-26 14:20 293次阅读

    湘军,让变成生产

    脑极体
    发布于 :2025年11月25日 22:56:58

    科技:AI突破,新型堆叠EDA工具持续进化

    电子发烧友网报道(文/黄晶晶)先进封装是突破危机的核心路径。2.5D/3D Chiplet异构集成可破解内存墙、功耗墙与面积墙,但面临物理场分析、测试容错等EDA设计挑战。现有E
    的头像 发表于 10-31 09:16 1.3w次阅读
    硅<b class='flag-5'>芯</b>科技:AI<b class='flag-5'>算</b><b class='flag-5'>力</b>突破,新型堆叠EDA工具持续进化

    国产AI芯片真能扛住“内卷”?海思昇腾的这波操作藏了多少细节?

    最近行业都在说“是AI的命门”,但国产芯片真的能接住这波需求吗? 前阵子接触到海思昇腾910B,实测下来有点超出预期——7nm工艺下直接拉到256 TFLOPS,比上
    发表于 10-27 13:12

    人工智能与陕西省国资中心达成战略合作

    在新质生产浪潮推动下,深耕稀疏计算的国内AI芯片企业墨人工智能(以下简称“墨”)近日与陕西省国资
    的头像 发表于 10-15 16:17 621次阅读

    昆仑科技亮相2025中国大会

    、河南成功举办三届,昆仑作为力行业代表性企业受邀参与本次大会,深度参与智生态共建,共话产业未来。
    的头像 发表于 08-27 15:11 2040次阅读

    文看懂AI集群

    最近这几年,AI浪潮席卷全球,成为整个社会的关注焦点。大家在讨论AI的时候,经常会提到AI集群。AI的三要素,是、算法和数据。而AI
    的头像 发表于 07-23 12:18 1977次阅读
    <b class='flag-5'>一</b>文看懂AI<b class='flag-5'>算</b><b class='flag-5'>力</b>集群

    揭秘瑞协处理器,RK3576/RK3588强大搭档

    协处理器-Gongga1(简称“贡嘎”),是瑞微针对旗舰芯片平台RK3576/RK3588等SoC平台配套的
    的头像 发表于 07-17 10:00 1577次阅读
    揭秘瑞<b class='flag-5'>芯</b>微<b class='flag-5'>算</b><b class='flag-5'>力</b>协处理器,RK3576/RK3588强大<b class='flag-5'>算</b><b class='flag-5'>力</b>搭档

    XR(AR/VR)底座关键特征与技术路径

    XR(AR/VR)底座是支撑扩展现实技术规模化落地的核心基础设施,当前发展呈现以下关键特征与技术路径:
    的头像 发表于 06-19 08:10 913次阅读
    <b class='flag-5'>云</b>XR(AR/VR)<b class='flag-5'>算</b><b class='flag-5'>力</b>底座关键特征与技术路径

    云原生环境里Nginx的故障排查思路

    本文聚焦于云原生环境下Nginx的故障排查思路。随着云原生技术的广泛应用,Nginx作为常用的高性能Web服务器和反向代理服务器,在容器化和编排的环境中面临着新的故障场景和挑战。
    的头像 发表于 06-17 13:53 1185次阅读
    <b class='flag-5'>云原生</b>环境里Nginx的故障排查思路

    润和软件发布StackRUNS异构分布式推理框架

    当下,AI模型规模持续膨胀、模态应用场景日益复杂,企业正面临异构资源碎片化带来的严峻挑战。为应对行业痛点,江苏润和软件股份有限公司(以下简称“润和软件”)正式发布自主研发的Sta
    的头像 发表于 06-13 09:10 1620次阅读
    润和软件发布StackRUNS<b class='flag-5'>异构</b>分布式推理框架