0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

腾讯云星星海发布首款自研GPU服务器

hl5C_deeptechch 来源:DeepTech深科技 作者:DeepTech深科技 2020-12-30 15:45 次阅读

2020 年新冠肺炎 “黑天鹅事件” 肆虐全球,出于疫情防控的需要,以往发生在线下的面对面的诸多工作与生活场景不得不转移到线上,催生或者说加速了云会议、云打卡、云诊断、云教学、云游戏、云监工等一系列新型 “宅经济” 的蓬勃发展,从真正意义上掀开了万物云化与全民用云时代来临的大幕。

但对于互联网技术服务供应商而言,无限的机遇之下却也暗藏着无限的挑战:面对海量的数据、超强的流量冲击、潮涌式的需求,如果保证平台不宕机、低时延、快速吞吐数据,用长时间稳定高效的服务保障用户的使用体验成了最核心的痛点。

事实证明,面对这次 “大考”,腾讯不但 “抗住” 了,应对时的从容表现更是抢眼 —— 从日活超千万到为联合国 75 周年活动提供线上服务,腾讯会议仅仅用了不到四个月的时间,而这背后依靠的就是具有极强的处理能力与支撑能力的云计算与服务器。

去年,腾讯发布了 “为云而生” 的星星海首款自研服务器,目前云上的服务规模已经超过 30 倍。今年 12 月 20 日,在一年一度的腾讯 2020 Techo Park 开发者大会上,腾讯云在 “下一代软硬一体化的云计算基础设施” 分论坛上,重磅发布了两款来自 “腾讯云星星海家族” 的最新产品 —— 星星海首款自研 GPU 服务器和星星海新一代自研双路服务器。

星星海 GPU 服务器 - 云游戏的定海神针

“针对具体的应用场景,我们结合具体的业务需求,对服务器性能进行了优化。比如,在云游戏场景中,客户对单卡 TCO,单一用户成本非常敏感,也迫切地需要降低成本。” 腾讯云服务器与供应链管理部总经理刘裕勋在开发者大会现场说道。

据 iiMedia Research(艾媒咨询)数据显示,2019 年云游戏用户规模约为 1.33 亿人,预计 2023 年用户规模将达 6.58 亿人,这意味着每 11 个人中间,就有一位是云游戏用户。玩家在玩云游戏时,如果单卡总成本非常高,就会出现单卡挂死甚至整机挂死的情况。导致这种情况的原因之一,是因为现有 GPU 服务器的机箱长度过长,无法满足低延时边缘部署。

深受广大玩家喜爱的云游戏场景,其实只是对于云算力巨大需求的一个小小侧面,最新的人工智能模型对于算力的要求往往都是非常高的,比如谷歌的 T5,其整个模型的参数数量达到了惊人的 110 亿,甚至谷歌科学家直接在 T5 的论文指出:“越大的模型往往表现更好。这表现扩大规模可能仍然是实现更好性能的方式。” 而一般的创业公司如果没有雄厚的资金实力是不可能搭建这种级别的 AI 训练平台。只有依靠云计算才能使 AI、区块链等新兴技术真正落地生根,发展壮大。

根据 IDC 的研究资料,截止到 2021 年,全球企业对于 AI 系统的支出将保持 50.1% 的年复合增长率,这说明企业对这些技术的总支出将从 2017 年的 120 亿美元增加到 2021 年的 576 亿美元。云计算尤其是 AI 云已经形成一个不可忽略的细分市场,尤其是在疫情影响下各行业上云意愿明显加强,这也对于云计算的算力底座提出了更高的要求,而日前腾讯云星星海发布的首款自研 GPU 服务器和新一代自研双路服务器堪称是云算力底座的标竿式产品。

腾讯云星星海发布首款自研 GPU 服务器,以及它的支持 16 卡 GPU+4 路 Intel 服务器、达到业界最高算力密度与此同时还大幅降低了单卡 TCO,这些特性使腾讯云在向企业提供 AI 算力或者向玩家提供 AI 云服务时都堪称是定海神针式的存在。

腾讯云星星海推出的首款自研 GPU 服务器,在技术方面主要有 “一独” 和 “三最” 等四大优势。

图 | 腾讯云星星海首款自研 GPU 服务器

“一独” 指的是在设计上,该 GPU 服务器采用全球首创的、可在同一框架内灵活更换的主板,此外还克服了通用计算和异构计算兼容对系统的挑战,做到支持多平台兼容。

“三最” 分别指的是最大密度、最短机框和最高可用性。该 GPU 服务器可结合业务对 PCIe 带宽要求低的特点,来支持 16 卡 GPU 和 4 路 Intel 服务器,是目前业界密度最高的 GPU 服务器,故此可使单卡 TCO 大幅降低。它还拥有目前业界最短机框,可支持边缘部署,在提高带宽稳定性的同时,还能极大降低业务延时,最高可降近百毫秒。此外,基于该 GPU 服务器的 RAS 特性以及 PCIe 热插拔特性,遇到单 GPU 卡故障,也不会对整机产生影响,因此用户可用性相对较高。

而以上这些技术还可以让星星海首款自研 GPU 服务器在与对手同台竞技时拥有以下优势:

低成本:由于大多数的 AI 工作任务被认为是 “突发性” 的,也就是说,他们依赖于那些能够在短时提供大量计算能力的服务。星星海 GPU 服务器只会针对用户去收取那些他们进行硬件使用时的费用,这大大降低了他们的成本。

可扩展:与其他的云服务一样,星星海首款自研 GPU 服务器提供的 AI 云服务本身也具有较高的可扩展性。企业可以从一个试点项目开始,然后随着需求的提升,快速扩展他们 AI 服务的规模。

高可用:一般来讲云计算的可用性,会比传统架构的系统高出两个量级,而星星海服务器在高可用方面更有独到的设计,在高可用方面相信还会更有保证。

星星海自研服务器 - 云算力底座的最强神器

像金融领域一样,目前的技术也开始朝着普惠的方向转变,并且还应满足客户的个性化与定制化需求,达到快速响应,而这些都需要强大的算力支撑。

但是,如腾讯云服务器与供应链管理部总经理刘裕勋所说,随着云计算承载的业务规模越来越大,传统服务器难以完全满足云计算数据中心场景下对超大规模、需求多样、高性价比、安全可靠以及软硬件一体化等方面的要求。

腾讯云星星海发布的新一代自研双路服务器就是算力底座中的王者。这款服务器是国内首款搭载即将发布的第三代英特尔至强可扩展处理器Ice Lake)的双路服务器。

该服务器是云服务的硬件基础,采用英特尔 10nm 工艺处理器。在第二代英特尔傲腾持久内存的支持下,双路服务器单机最高支持 12TB 内存,这可满足大型数据库等业务需求,用户也可获得更强的计算性能。

另外,双路服务器的免工具模组化设计,可使全系列服务器共用成为现实,这不仅能覆盖全业务场景,还能实现弹性部署,且可降低云服务总体成本。

在安全技术上,双路服务器采用英特尔 SGX 技术,最大可支持 1TB enclave;其还采用加密加速技术,在增强安全性的同时,还可满足创新云业务的安全需求。

概括来说,其不仅能为用户提供更高的内存带宽、更快的 I/O 吞吐、更强的实例性能,还可帮助用户基于英特尔深度学习加速技术,来获得处理器内置 AI 加速能力。主要应用场景有通用计算、异构计算、裸金属、高性能计算等。此外,在生命科学和金融服务领域,基于英特尔  AVX-512 扩展指令集,腾讯云星星海新一代自研双路服务器对应的服务器实例在高性能计算机群场景下表现出较大提升。

除立足于当下,以上两款服务器也已为将来做准备,基于硬件系统架构设计和持续不断的基础技术研究,上述服务器可支持未来 3-5 年的前瞻性架构演变,也就是说云上开发部署可以提前享受技术红利。

腾讯云星星海 - 追逐科技时代的星辰大海

如果将数据比作这个数字时代的石油,那么腾讯社交帝国凭借其丰富的业务场景与庞大的用户基数,就为其科研团队提供了世界上最大的原油储存基地,这些都为前沿的 AI 研究成果提供了令整个业界都非常羡慕的绝佳 “训练场”,而拥有了这样高的训练水平,腾讯技术方面取得如此的突破也就不足为奇了。

据悉,上述两款自研服务器均诞生于腾讯云星星海实验室,它是腾讯史上首个硬件工程实验室,也是腾讯云面向产业互联网加速技术自研的重要战略。

该实验室至今未满一岁,其名字取自青海省果洛藏族自治州玛多星星海,玛多星星海地处黄河源头,这样的命名既预表着该实验室兼具灵动和智慧,亦是科技对古老的致敬。

该实验室主要专注于硬件系统架构设计和前瞻性基础技术研究,力图通过创新性高兼容架构、简洁可靠的自主设计,来提供云计算产品和服务,其目前正结合腾讯自有业务和上云客户的需求,在云原生服务器技术方面开展专项研发,此外其也是腾讯云与智慧产业事业群技术实验室矩阵中的一所。

“以硬为主” 的星星海,已拥有 20 多项专利和多款自主知识产权产品,其中包括四款自研服务器和一款智能网卡。

以 2019 年腾讯云发布的首款拥有完全自主知识产权的服务器产品星星海 SA2 云服务器为例,其已广泛应用于腾讯内部,如腾讯会议、腾讯教育、春节 QQ 红包、微信等产品和业务中。在疫情期间,星星海 SA2 云服务器支撑腾讯会议扩容 10 万多台云主机,日均扩容云主机近 1.5 万台,共涉及超百万核的计算资源投入,而以上工作量均在 8 天内完成。

最后不得不提的就是上述两款服务器,均发布于腾讯 2020 Techo Park 开发者大会。

什么是 Techo 呢?据大会虚拟主持人 “小七” 的介绍,所谓 Techo,就是 Tech(技术)和 Echo(回响)的合称,暗含着这一面向全球开发者和技术爱好者的平台具有的技术交流和分享属性。这个由腾讯发起的非商业大会,通过汇聚全球顶尖行业专家、企业高管、技术爱好者等共同研讨前沿技术,以助力开发者实现能力成长和实践创新。

本次 Techo Park 开发者大会的 Slogan 是 “代码传递思想,技术创造回响”,区块链、视频云、5G、AI、大数据等各个信息科技领域的 “大脑” 发表主题演讲和论坛,并吸引了来自科研机构、高校、创业公司的大批开发者齐聚现场。

尽管这只是 Techo Park 的第二次全球亮相,但其激烈碰撞的观点和接连发布的自研新品,仍然为试图洞察未来科技走向的参与者们打开了一扇窗。

原文标题:腾讯云星星海发布首款自研GPU服务器和新一代自研双路服务器,打造软硬一体化云基础设施

文章出处:【微信公众号:DeepTech深科技】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    27

    文章

    4402

    浏览量

    126562
  • 服务器
    +关注

    关注

    12

    文章

    8086

    浏览量

    82427

原文标题:腾讯云星星海发布首款自研GPU服务器和新一代自研双路服务器,打造软硬一体化云基础设施

文章出处:【微信号:deeptechchina,微信公众号:deeptechchina】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    服务器远程不上服务器怎么办?服务器无法远程的原因是什么?

    、安全软件问题 被安全软件屏蔽了 解决办法:检查锁和安全狗类安全软件有没有把电脑本地IP加入服务器白名单中,如果没有的话就把电脑本地IP加入白名 单就可以了
    发表于 02-27 16:21

    linux服务器和windows服务器

    Linux服务器和Windows服务器是目前应用最广泛的两种服务器操作系统。两者各有优劣,也适用于不同的应用场景。本文将 对Linux服务器和Windows
    发表于 02-22 15:46

    春节想开黑幻兽帕鲁?先把上的专属服务器部署好!

    服务器
    脑极体
    发布于 :2024年02月07日 00:16:05

    光双路服务器性价比高GITSTAR光国产服务器# 服务器# 国产服务器

    计算机服务器
    jf_67464575
    发布于 :2024年02月02日 09:50:44

    如何远程登录服务器?登录失败是什么原因?

    我用Linux服务器,遇到了有关远程登录的一些问题,于是搜索了一些资料,整理了一篇文档,作为记录。如果你也遇到过 相似的问题,欢迎一起探讨! 一、Linux服务器的远程登录 远程登
    发表于 02-01 15:32

    gpu服务器是干什么的 gpu服务器与cpu服务器的区别有哪些

    gpu服务器是干什么的 gpu服务器与cpu服务器的区别 GPU
    的头像 发表于 01-30 15:31 304次阅读

    集特新款国产光双路服务器GSC-210#服务器#

    计算机服务器
    GITSTAR 集特工控
    发布于 :2024年01月18日 09:41:50

    超微gpu服务器评测

    随着科技的不断发展和进步,GPU服务器在大数据分析、深度学习、人工智能等领域正变得越来越重要。而超微GPU服务器因其出色的性能和高度定制化的优势,成为了众多企业和研究机构的首选。本文将
    的头像 发表于 01-10 10:37 408次阅读

    【ELF 1开发板试用】+ 8.2 MQTT开发——连接腾讯【原创】

    : ./mqtt_sample -c ./device_info.json -l 1000 可以看见服务器显示设备在线:终端也传回了数据,服务器日志也正常接收 运行成功! 后续会更新基于MQTT自定义数据格式的开发。 如果需要参考更多资料,请参考
    发表于 12-15 23:10

    gpu服务器是干什么的 gpu服务器与cpu服务器的区别

     相比于传统的CPU服务器GPU服务器支持同时计算大量相似的计算操作,可以实现更强的并行计算性能。GPU服务器通常配备多个高性能的
    的头像 发表于 12-02 17:20 1232次阅读

    性价比提升超30%,腾讯发布新一代基于AMD处理器的星星海云服务器实例SA5

    基础设施的硬实力,愈发成为云厂商的核心竞争力。 11月24日,腾讯发布了全新一代星星服务器。基于自研服务器的高密设计与硬件升级,对应云
    的头像 发表于 11-24 14:24 226次阅读
    性价比提升超30%,<b class='flag-5'>腾讯</b>云<b class='flag-5'>发布</b>新一代基于AMD处理器的<b class='flag-5'>星星</b>海云<b class='flag-5'>服务器</b>实例SA5

    腾讯云轻量应用服务器到期?赶紧换新上市的华为云耀云服务器 L 实例吧!

    腾讯云是国内知名的云计算服务提供商之一,其推出的轻量级云服务器产品备受用户欢迎,尤其是中小企业和开发者。但这其中,大多用户都是冲着腾讯云的各种优惠活动而购买,这也是
    的头像 发表于 10-19 21:52 238次阅读

    腾讯云轻量应用服务器到期?赶紧换新上市的华为云耀云服务器 L 实例吧!

    腾讯云是国内知名的云计算服务提供商之一,其推出的轻量级云服务器产品备受用户欢迎,尤其是中小企业和开发者。但这其中,大多用户都是冲着腾讯云的各种优惠活动而购买,这也是
    的头像 发表于 10-19 16:07 209次阅读
    <b class='flag-5'>腾讯</b>云轻量应用<b class='flag-5'>服务器</b>到期?赶紧换新上市的华为云耀云<b class='flag-5'>服务器</b> L 实例吧!

    GPU服务器是什么?

    从字面上来看GPU服务器服务器当中的一种,简单的介绍,GPU服务器就是基于CGP的应用在视频编解码,深度学习,科学计算等多场景稳定快速,稳
    的头像 发表于 08-01 18:03 579次阅读

    PyTorch教程23.5之选择服务器GPU

    电子发烧友网站提供《PyTorch教程23.5之选择服务器GPU.pdf》资料免费下载
    发表于 06-06 09:17 0次下载
    PyTorch教程23.5之选择<b class='flag-5'>服务器</b>和<b class='flag-5'>GPU</b>