0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

腾讯云星星海发布首款自研GPU服务器

hl5C_deeptechch 来源:DeepTech深科技 作者:DeepTech深科技 2020-12-30 15:45 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

2020 年新冠肺炎 “黑天鹅事件” 肆虐全球,出于疫情防控的需要,以往发生在线下的面对面的诸多工作与生活场景不得不转移到线上,催生或者说加速了云会议、云打卡、云诊断、云教学、云游戏、云监工等一系列新型 “宅经济” 的蓬勃发展,从真正意义上掀开了万物云化与全民用云时代来临的大幕。

但对于互联网技术服务供应商而言,无限的机遇之下却也暗藏着无限的挑战:面对海量的数据、超强的流量冲击、潮涌式的需求,如果保证平台不宕机、低时延、快速吞吐数据,用长时间稳定高效的服务保障用户的使用体验成了最核心的痛点。

事实证明,面对这次 “大考”,腾讯不但 “抗住” 了,应对时的从容表现更是抢眼 —— 从日活超千万到为联合国 75 周年活动提供线上服务,腾讯会议仅仅用了不到四个月的时间,而这背后依靠的就是具有极强的处理能力与支撑能力的云计算与服务器。

去年,腾讯发布了 “为云而生” 的星星海首款自研服务器,目前云上的服务规模已经超过 30 倍。今年 12 月 20 日,在一年一度的腾讯 2020 Techo Park 开发者大会上,腾讯云在 “下一代软硬一体化的云计算基础设施” 分论坛上,重磅发布了两款来自 “腾讯云星星海家族” 的最新产品 —— 星星海首款自研 GPU 服务器和星星海新一代自研双路服务器。

星星海 GPU 服务器 - 云游戏的定海神针

“针对具体的应用场景,我们结合具体的业务需求,对服务器性能进行了优化。比如,在云游戏场景中,客户对单卡 TCO,单一用户成本非常敏感,也迫切地需要降低成本。” 腾讯云服务器与供应链管理部总经理刘裕勋在开发者大会现场说道。

据 iiMedia Research(艾媒咨询)数据显示,2019 年云游戏用户规模约为 1.33 亿人,预计 2023 年用户规模将达 6.58 亿人,这意味着每 11 个人中间,就有一位是云游戏用户。玩家在玩云游戏时,如果单卡总成本非常高,就会出现单卡挂死甚至整机挂死的情况。导致这种情况的原因之一,是因为现有 GPU 服务器的机箱长度过长,无法满足低延时边缘部署。

深受广大玩家喜爱的云游戏场景,其实只是对于云算力巨大需求的一个小小侧面,最新的人工智能模型对于算力的要求往往都是非常高的,比如谷歌的 T5,其整个模型的参数数量达到了惊人的 110 亿,甚至谷歌科学家直接在 T5 的论文指出:“越大的模型往往表现更好。这表现扩大规模可能仍然是实现更好性能的方式。” 而一般的创业公司如果没有雄厚的资金实力是不可能搭建这种级别的 AI 训练平台。只有依靠云计算才能使 AI、区块链等新兴技术真正落地生根,发展壮大。

根据 IDC 的研究资料,截止到 2021 年,全球企业对于 AI 系统的支出将保持 50.1% 的年复合增长率,这说明企业对这些技术的总支出将从 2017 年的 120 亿美元增加到 2021 年的 576 亿美元。云计算尤其是 AI 云已经形成一个不可忽略的细分市场,尤其是在疫情影响下各行业上云意愿明显加强,这也对于云计算的算力底座提出了更高的要求,而日前腾讯云星星海发布的首款自研 GPU 服务器和新一代自研双路服务器堪称是云算力底座的标竿式产品。

腾讯云星星海发布首款自研 GPU 服务器,以及它的支持 16 卡 GPU+4 路 Intel 服务器、达到业界最高算力密度与此同时还大幅降低了单卡 TCO,这些特性使腾讯云在向企业提供 AI 算力或者向玩家提供 AI 云服务时都堪称是定海神针式的存在。

腾讯云星星海推出的首款自研 GPU 服务器,在技术方面主要有 “一独” 和 “三最” 等四大优势。

图 | 腾讯云星星海首款自研 GPU 服务器

“一独” 指的是在设计上,该 GPU 服务器采用全球首创的、可在同一框架内灵活更换的主板,此外还克服了通用计算和异构计算兼容对系统的挑战,做到支持多平台兼容。

“三最” 分别指的是最大密度、最短机框和最高可用性。该 GPU 服务器可结合业务对 PCIe 带宽要求低的特点,来支持 16 卡 GPU 和 4 路 Intel 服务器,是目前业界密度最高的 GPU 服务器,故此可使单卡 TCO 大幅降低。它还拥有目前业界最短机框,可支持边缘部署,在提高带宽稳定性的同时,还能极大降低业务延时,最高可降近百毫秒。此外,基于该 GPU 服务器的 RAS 特性以及 PCIe 热插拔特性,遇到单 GPU 卡故障,也不会对整机产生影响,因此用户可用性相对较高。

而以上这些技术还可以让星星海首款自研 GPU 服务器在与对手同台竞技时拥有以下优势:

低成本:由于大多数的 AI 工作任务被认为是 “突发性” 的,也就是说,他们依赖于那些能够在短时提供大量计算能力的服务。星星海 GPU 服务器只会针对用户去收取那些他们进行硬件使用时的费用,这大大降低了他们的成本。

可扩展:与其他的云服务一样,星星海首款自研 GPU 服务器提供的 AI 云服务本身也具有较高的可扩展性。企业可以从一个试点项目开始,然后随着需求的提升,快速扩展他们 AI 服务的规模。

高可用:一般来讲云计算的可用性,会比传统架构的系统高出两个量级,而星星海服务器在高可用方面更有独到的设计,在高可用方面相信还会更有保证。

星星海自研服务器 - 云算力底座的最强神器

像金融领域一样,目前的技术也开始朝着普惠的方向转变,并且还应满足客户的个性化与定制化需求,达到快速响应,而这些都需要强大的算力支撑。

但是,如腾讯云服务器与供应链管理部总经理刘裕勋所说,随着云计算承载的业务规模越来越大,传统服务器难以完全满足云计算数据中心场景下对超大规模、需求多样、高性价比、安全可靠以及软硬件一体化等方面的要求。

腾讯云星星海发布的新一代自研双路服务器就是算力底座中的王者。这款服务器是国内首款搭载即将发布的第三代英特尔至强可扩展处理器(Ice Lake)的双路服务器。

该服务器是云服务的硬件基础,采用英特尔 10nm 工艺处理器。在第二代英特尔傲腾持久内存的支持下,双路服务器单机最高支持 12TB 内存,这可满足大型数据库等业务需求,用户也可获得更强的计算性能。

另外,双路服务器的免工具模组化设计,可使全系列服务器共用成为现实,这不仅能覆盖全业务场景,还能实现弹性部署,且可降低云服务总体成本。

在安全技术上,双路服务器采用英特尔 SGX 技术,最大可支持 1TB enclave;其还采用加密加速技术,在增强安全性的同时,还可满足创新云业务的安全需求。

概括来说,其不仅能为用户提供更高的内存带宽、更快的 I/O 吞吐、更强的实例性能,还可帮助用户基于英特尔深度学习加速技术,来获得处理器内置 AI 加速能力。主要应用场景有通用计算、异构计算、裸金属、高性能计算等。此外,在生命科学和金融服务领域,基于英特尔  AVX-512 扩展指令集,腾讯云星星海新一代自研双路服务器对应的服务器实例在高性能计算机群场景下表现出较大提升。

除立足于当下,以上两款服务器也已为将来做准备,基于硬件系统架构设计和持续不断的基础技术研究,上述服务器可支持未来 3-5 年的前瞻性架构演变,也就是说云上开发部署可以提前享受技术红利。

腾讯云星星海 - 追逐科技时代的星辰大海

如果将数据比作这个数字时代的石油,那么腾讯社交帝国凭借其丰富的业务场景与庞大的用户基数,就为其科研团队提供了世界上最大的原油储存基地,这些都为前沿的 AI 研究成果提供了令整个业界都非常羡慕的绝佳 “训练场”,而拥有了这样高的训练水平,腾讯技术方面取得如此的突破也就不足为奇了。

据悉,上述两款自研服务器均诞生于腾讯云星星海实验室,它是腾讯史上首个硬件工程实验室,也是腾讯云面向产业互联网加速技术自研的重要战略。

该实验室至今未满一岁,其名字取自青海省果洛藏族自治州玛多星星海,玛多星星海地处黄河源头,这样的命名既预表着该实验室兼具灵动和智慧,亦是科技对古老的致敬。

该实验室主要专注于硬件系统架构设计和前瞻性基础技术研究,力图通过创新性高兼容架构、简洁可靠的自主设计,来提供云计算产品和服务,其目前正结合腾讯自有业务和上云客户的需求,在云原生服务器技术方面开展专项研发,此外其也是腾讯云与智慧产业事业群技术实验室矩阵中的一所。

“以硬为主” 的星星海,已拥有 20 多项专利和多款自主知识产权产品,其中包括四款自研服务器和一款智能网卡。

以 2019 年腾讯云发布的首款拥有完全自主知识产权的服务器产品星星海 SA2 云服务器为例,其已广泛应用于腾讯内部,如腾讯会议、腾讯教育、春节 QQ 红包、微信等产品和业务中。在疫情期间,星星海 SA2 云服务器支撑腾讯会议扩容 10 万多台云主机,日均扩容云主机近 1.5 万台,共涉及超百万核的计算资源投入,而以上工作量均在 8 天内完成。

最后不得不提的就是上述两款服务器,均发布于腾讯 2020 Techo Park 开发者大会。

什么是 Techo 呢?据大会虚拟主持人 “小七” 的介绍,所谓 Techo,就是 Tech(技术)和 Echo(回响)的合称,暗含着这一面向全球开发者和技术爱好者的平台具有的技术交流和分享属性。这个由腾讯发起的非商业大会,通过汇聚全球顶尖行业专家、企业高管、技术爱好者等共同研讨前沿技术,以助力开发者实现能力成长和实践创新。

本次 Techo Park 开发者大会的 Slogan 是 “代码传递思想,技术创造回响”,区块链、视频云、5G、AI、大数据等各个信息科技领域的 “大脑” 发表主题演讲和论坛,并吸引了来自科研机构、高校、创业公司的大批开发者齐聚现场。

尽管这只是 Techo Park 的第二次全球亮相,但其激烈碰撞的观点和接连发布的自研新品,仍然为试图洞察未来科技走向的参与者们打开了一扇窗。

原文标题:腾讯云星星海发布首款自研GPU服务器和新一代自研双路服务器,打造软硬一体化云基础设施

文章出处:【微信公众号:DeepTech深科技】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5271

    浏览量

    136060
  • 服务器
    +关注

    关注

    14

    文章

    10353

    浏览量

    91743

原文标题:腾讯云星星海发布首款自研GPU服务器和新一代自研双路服务器,打造软硬一体化云基础设施

文章出处:【微信号:deeptechchina,微信公众号:deeptechchina】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    进迭时空参与我国 RISC-V 全栈测评工具发布

    。进迭时空参与技术分享、标准讨论等多项活动。深度参与我国RISC-V全栈测评工具发布全体委员会议上,我国
    的头像 发表于 04-13 09:33 316次阅读
    进迭时空参与我国<b class='flag-5'>首</b><b class='flag-5'>款</b><b class='flag-5'>自</b><b class='flag-5'>研</b> RISC-V 全栈测评工具<b class='flag-5'>发布</b>

    GPU服务器哪家强?深度学习与AI训练性能实测

    进入2026年,AI大模型已从“百模大战”转向“应用爆发”。无论是进行大语言模型的微调、文生视频的渲染,还是复杂的自动驾驶仿真,GPU服务器已成为企业的核心生产力工具。 然而,GPU
    的头像 发表于 03-19 16:45 405次阅读

    什么是企业服务器-计算

    企业服务器是指为企业提供的基于计算技术的服务器解决方案。华纳是一家计算
    的头像 发表于 12-29 17:57 1060次阅读

    服务器端口怎么开放?

    刚搭建好服务器,想部署网站、运行应用或开启远程连接,却发现外网始终无法访问?大概率是端口没开放。端口就像服务器的门窗,默认状态下,服务器
    的头像 发表于 11-11 15:43 1113次阅读

    如何快速在服务器上部署Web环境?

    如何快速在服务器上部署Web环境
    的头像 发表于 10-14 14:16 852次阅读

    加速是如何隐藏源服务器ip的

    服务器IP是保护服务器的一项重要安全措施。 华纳 为大家分享受一下内容: 隐藏源服务器IP的主要目的是防止恶意攻击者通过直接访问服务器IP
    的头像 发表于 09-12 16:31 803次阅读

    轻量服务器服务器区别:2025年终极选择指南

    轻量服务器服务器区别在于定位和性能保障。轻量服务器采用共享计算资源和突发性能模式,预配置
    的头像 发表于 09-01 13:58 1562次阅读
    轻量<b class='flag-5'>云</b><b class='flag-5'>服务器</b>和<b class='flag-5'>云</b><b class='flag-5'>服务器</b>区别:2025年终极选择指南

    国产真高性能图形 GPU 重磅发布:跑分超 RTX4060,畅玩《黑神话・悟空》

    电子发烧友网报道(文 / 吴子鹏)7 月 26 日,砺算科技在 “砥砺算芯 超越极限” 产品发布会上,重磅发布 GPU 芯片 “7G10
    发表于 07-26 21:45 6215次阅读
    国产真<b class='flag-5'>自</b><b class='flag-5'>研</b>高性能图形 <b class='flag-5'>GPU</b> 重磅<b class='flag-5'>发布</b>:跑分超 RTX4060,畅玩《黑神话・悟空》

    硅谷GPU服务器是什么意思?使用指南详解

    硅谷GPU服务器本质上是一种IaaS(基础设施即服务)产品,它将物理服务器上的GPU资源通过虚
    的头像 发表于 06-16 09:41 726次阅读

    直播服务器对带宽有什么要求?#直播服务器 #直播 #带宽

    服务器
    jf_57681485
    发布于 :2025年05月30日 11:54:24

    又一颗国产GPU芯片成功点亮!6nm制程,TrueGPU架构

    电子发烧友网综合报道 近日消息,砺算科技宣布其架构全自主知识产权GPU芯片在封装回片后已成功点亮,结果符合预期。   砺算科技成立于2021年,是一家致力于研发高性能
    发表于 05-29 00:48 2794次阅读

    服务器和独立服务器的区别在哪?一文读懂如何选择

    面对服务器与独立服务器的选择,许多人常因概念模糊而纠结。服务器和独立服务器的区别在于资源分配
    的头像 发表于 05-19 10:19 811次阅读

    高端芯片服务器芯片传来好消息!

    电子发烧友网报道(文/黄晶晶)当前,处理已经跨过了能用的阶段,逐渐走向好用,但无论是消费级还是服务器级都面临着如何在性能上接近国外高端产品,以及生态上如何更加完善的问题。国内厂商
    的头像 发表于 05-18 09:25 8526次阅读
    高端芯片<b class='flag-5'>自</b><b class='flag-5'>研</b>,<b class='flag-5'>服务器</b>芯片传来好消息!

    存储服务器租用的好处有哪些?

    随着企业数字化转型加速,存储服务器租用成为越来越多企业的首选方案。存储服务器租用的好处在于弹性灵活、成本可控、安全可靠,同时避免了传统服务器
    的头像 发表于 05-16 11:03 944次阅读

    电竞服务器 工作原理

    电竞服务器工作原理详解 一、核心架构原理 虚拟化资源池‌ 通过 ‌KVM/VMware‌ 等虚拟化技术将物理服务器(含NVIDIA GPU集群)抽象为可动态分配的算力资源池,每个用户
    的头像 发表于 05-14 07:44 762次阅读
    <b class='flag-5'>云</b>电竞<b class='flag-5'>服务器</b> 工作原理