0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA GPU加速计算之路

454398 来源:爱活网 作者:penylo 2019-12-23 09:12 次阅读

NVIDIA从提出GPU以及CUDA核心开始,NVIDIA便开始逐步迈出游戏圈,不断向全新的计算领域发起攻势。时至今日,NVIDIA GPU计算从机器人自动驾驶,一路扩展到云计算、医疗甚至是NASA火星登录计划。

是的,正如GTC CHINA 2019上,NVIDIA创始人兼CEO黄仁勋所言,就算摩尔定律走向终结,GPU加速计算将有机会成为未来的发展方向,GPU正在变得无所不能,也将无处不在。

云游戏与光线追踪全面开花以游戏发家的NVIDIA开场少不了游戏的戏份。开场黄仁勋便展示了《我的世界》RTX版本,这也是GTC主题演讲上首次展示《我的世界》RTX视频

通过对光影的添加,这款沙盘化的游戏有了全新的演绎,不仅水面变得更为真实,随着视角、天气、时间变化,光影也呈现出不同的效果。

这套实时光纤追踪技术可以让开发者在添加光源之后,依靠GeForce RTX显卡中的RT Core演算出光线路径,从而获得自然的光线效果,同时也减轻了游戏开发者手动考虑光影贴图的繁琐工作。

除了《我的世界》增加的光线追踪特效,GTC上黄仁勋还宣布了六款游戏正引入光线追踪,包括《边境》(Boundary)、《铃兰计划》(Convallaria)、《暗影火炬》(F.I.S.T.)、Project X(项目代号)、《无限法则》(Ring of Elysium)以及《轩辕剑柒》(Xuan-Yuan Sword VII)。

同时老黄还特意在台上演示了《光明记忆:无限》的光线追踪DEMO。重点在于负责《光明记忆》的飞燕群岛个人工作室主力仅有一人,通过一人之力完成美术、程序以及最新的光线追踪技术功能,也足以见得虚幻引擎对光线追踪已经提供了相当优秀的支持,可以更为轻松调用GeForce RTX的光线追踪功能。

此外,目前宣布支持光线追踪游戏阵营包括:《光明记忆:无限》(Bright Memory: Infinite)、《赛博朋克2077》(Cyberpunk 2077)、《消逝的光芒2》(Dying Light 2)、《我的世界》(Minecraft)、《逆水寒》(Justice)、《剑侠情缘叁网络版》(JX3 Online)、《重生边缘》(SYNCED: Off-Planet)、《仙剑奇侠传七》(Sword And Fairy 7)、《看门狗:军团》《Watch Dogs: Legion》以及《吸血鬼:避世血族2》 (Vampire: The Masquerade – Bloodlines 2)。

在推进光线追踪技术进驻预习的同时,NVIDIA与腾讯游戏合作的START云游戏服务也进入了测试阶段。

类似NVIDIA在北美和欧洲推出的GeForce NOW云游戏服务,腾讯START可以让玩家在在配置不足的设备上也能玩AAA游戏。腾讯游戏计划将扩展其云游戏产品

NVIDIA与腾讯还将成立一个一个游戏联合创新实验室。双方将共同探索AI在游戏、游戏引擎优化和新光照技术(包括光线追踪和光线烘焙)中的新应用。借着START服务东风,英伟达的云游戏技术也终于可以在国内付诸实践。

RTX Studio加速内容创作显卡性能也早已不局限在游戏中,英伟达针对RTX Studio的产品线覆盖也已经从GeForce RTX 2060笔记本覆盖到8路Quadro RTX 8000工作站。在加上NVIDIA OMNIVERSE所提供的3D制作流程的协作平台,创作者可以通过不同的分工协同工作。

现在NVIDIA OMNIVERSE也已经正式进驻建筑行业AEC,可以做到无论本地还是云端,主流应用都能依靠NVIDIA RTX展开建模、着色、动画、视觉效果等等。在演讲台上,老黄也豪气的演示如何利用8 路 RTX 8000 的 RTX 服务器对深圳华润大厦实时渲染。

在电影、视觉特效领域,瑞云云端渲染平台也宣布配备NVIDIA RTX GPU。瑞云目前是全亚洲最大的云渲染平台,2019年火爆的《战狼2》、《哪吒》、《流浪地球》渲染均来自瑞云,超过85%的中国电影工作室都是瑞云的客户。很快,首批5000片RTX GPU也将会在2020年上线。

在现场,黄仁勋也不忘搬出那句经典台词:“买的越多,省得越多。”针对渲染工作,RTX GPU能够做到速度比CPU快12倍,价格低7倍。原本CPU上需要花费485个小时的渲染场景,交给RTX GPU现在可能只需要40个小时就能完成。

让未来所见所得跳出大家耳熟能详的游戏、渲染领域,NVIDIA也已经将视野放向了外太空。NASA计划在2030年将6位宇航员送向火星,着陆器将以12000千米/小时的速度进入火星大气层,而且必须精确点火减速并在6分钟内降落在火星表面。

为此NASA借助NVIDIA GPU通过FUN3D流体李璇软件进行了数十万次火星着陆场景模拟,将产生的150TB数据变成了可视化,现在,NVIDIA DGX-2上已经可以借助Magnum IO GPU Direct Storage技术,对数据进行可视化处理,这在以前是不敢想象的。

如果登陆火星还不够,科研人员也正在借助GPU内的CUDA核心对全基因组进行测序。通过全基因组测序分析整个基因序列,可以检测由遗传性疾病引起的DNA变异。为此,NVIDIA推出了一套Parabricks 基因组分析工具包,借助CUDA基因测序可以加速到30-50倍完成。

而即将到来的5G与NVIDIA也同样有关系。目前NVIDIA已经与爱立信展开合作,通过CUDA核心,能够提升5G vRAN性能,特别是在复杂的空间内,CUDA能够加速解决物理空间内的信号优化的问题。

针对世界上最普及的ARM,NVIDIA也给出了一套能够与ARM配套的解决方案。得益于PCIe标准,GPU也可以轻松与ARM完成连接。基于ARM,NVIDIA推出了NVIDIA HPC for ARM首个参考架构,可以使用Marvell、Ampere、富士通亦或者其他ARM的HPC处理器与Volta GPU连接。更厉害的是,每个ARM CPU最多可以连接4块Volta GPU,扩展性能极其恐怖。

在现场,黄仁勋也毫不吝啬的通过VMD ON ARM通过CUDA演示NAMD分子动力学模型的结果可视化处理,借助Marvell ThunderX2以及NVIDIA V100,并通过NVIDIA Optix光线追踪器,并实现远程流式传输。

与此同时,TensorFlow作为当今最重要的可言、云计算、工业、上也领域的HPC应用,也同样被NVIDIA CUDA on ARM所支持。

而随着深度学习不断挖掘,NVIDIA在5年左右的时间内将训练性能提高了300倍以上,借助Volta、Tensor Core GPU、Chip-on-wafer封装、HBM 3D堆栈存储器、NVLink、DGX系统,AI加速变得更快。

事实上NVIDIA AI已经影响到了各行各业,它出现在运输、医疗、金融、零售中,NVIDIA也不断为每种场景打造不同的平台,例如用于深度学习训练的DGX,用于超大规模云的HGX,用于边缘计算的EGX,用于自治系统的AGX。

现在,NVIDIA AI也已经被运用到百度推荐系统中,100多个推荐模型在百度中付诸实践,这些模型每周都会进行更新,自动学习用户潜在兴趣,新条目和特征被持续更新。目前百度庞大的用户潜在兴趣数据包含了千亿维稀疏离散特征和10TB embedding词表,只有通过GPU加速训练,才能在如此大规模的训练中加速且节省成本。

同样,阿里巴巴也接祖了NVIDIA加速计算平台大规模部署先进的AI技术,包括T4 GPU、cuBLAS、自定义混合精度和推理加速软件等。确保双十一期间2684亿人民币,每秒几十亿次推荐请求,确保全天销售额顺利推进,所以一切也都借助了NVIDIA AI的运算支持。在NVIDA AI加持下,阿里巴巴已经嫩巩固支持比过去复杂6倍的模型,从而使点击率提高10%。相比于CPU,T4将我们最大模型的吞吐量提高了100倍。

TensorRT 7的性能攀升在帮助各大厂商推进AI的同时,NVIDIA也发布了全新的NVIDIA TensorRT 7推理软件,内置新型深度学习编译器。

该编译器能够自动优化和加速递归神经网络与基于转换器的神经网络。这些日益复杂的神经网络是AI语音应用所必需的。与在CPU上运行时相比,会话式AI组件速度提高了10倍以上,从而将延迟降低到实时交互所需的300毫秒阈值以下。

也就是说,在一套端到端的流程中,CPU推理延迟大概在3秒左右,但在T4 GPU上,整个过程只需要0.3秒。更重要的,原本TensorRT 5大概智能实现数十种不同的计算变化和优化,但到了TensorRT 7,已经可以做到1000种以上。

黄仁勋表示,现在技术已经进入了一个机器可以实时理解人类语言的AI新时代。在原有的TensorRT 5的基础上,各地开发人员能够更快部署会话式AI服务,从而实现更自然的AI人机交互。在首批使用NVIDIA会话式AI加速能力的企业中,包括了阿里巴巴、百度、滴滴出行、美团、快手、平安、搜狗、腾讯和字节跳动等中国企业。

继续为自动驾驶做足铺垫针对自动驾驶领域,NVIDIA发布了Xavier继任者NVIDIA DRIVE AGX Orin。

顾名思义,Orin是下一代机器人处理器SoC,它参数十分亮眼,包括170亿个晶体管,8核64位CPU,200TOPS深度学习算例,重点是,它的计算性能相当于Xavier的7倍。这意味着这是一个从底层架构上更新的AGX处理器,它的设计最早来自超算,拥有全新的功能安全特性,可以使CPU、GPU锁步运行而提升容错性,并且配备了全新的安全引擎保护数据不受网络攻击,以及与上一代Xavier兼容。

通过不同的组合,NVIDIA DRIVE 能够适配L2到L5级别的自动驾驶功能,其中Orin能做到与Xavier兼容,完全由软件定义。

在Orin宣布的同时,NVIDIA也宣布为滴滴提供自动驾驶和云计算解决方案,通过NVIDIA DRIVE,以及数据中心的NVIDIA GPU训练机器学习算法,滴滴已经能够实现L4几倍的自动驾驶推理能力。

作为滴滴自动驾驶AI处理的一部分,NVIDIA DRIVE借助多个深度神经网络融合来自各类传感器(摄像头、激光雷达、雷达等)的数据,从而实现对汽车周围环境360度全方位的理解,并规划出安全的行驶路径。

用软件定义机器人平台整场演讲的重头戏,最终留给了Isaac SDK。Isaac SDK包括Isaac Robotics Engine(提供应用程序框架),Isaac GEM(预先构建的深度神经网络模型、算法、库、驱动程序和API),用于室内物流的参考应用程序以及Isaac Sim的第一个版本(提供导航功能)。

全新Isaac SDK可以大大加快研究人员、开发人员、初创企业和制造商开发和测试机器人的速度。它使机器人能够通过仿真获得由人工智能技术驱动的感知和训练功能,从而可以在各种环境和情况下对机器人进行测试和验证。

这个套件包含了Training-in-Sim工作流,使用随机域生成6D姿态图像,用于训练目标检测、像素分割、2D姿态、3D姿态等诸多内容。

最后现场,NVIDIA也给我们展示了一个会卖萌的Leonardo物体操纵机器人。通过模拟和真是世界的学习,Leonardo学会了如何遵守物理规则,在模拟的计算部分则运用到了GPU的PhysX 5.0物理引擎。

写在最后可以看到长达2小时的GTC CHINA 2019演讲中,新推出的芯片只有Orin一块。NVIDIA更多的重心放在了软件平台和AI智能优化上,通过硬件与软件配合,发挥CUDA给GPU带来的大规模并行处理优势,使得GPU走出游戏和渲染,找到了一个更广阔的空间。

NVIDIA造GPU无疑是最擅长的,如何用好GPU,则需要无数工程师努力挖掘答案。无论是超算、AI、自动驾驶、边缘计算,NVIDIA都已经牢牢占住了自己的位置,足以见得GPU对专业领域而言,同样具备强烈的吸引力。

责任编辑:wv

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    4592

    浏览量

    101703
  • gpu
    gpu
    +关注

    关注

    27

    文章

    4416

    浏览量

    126668
收藏 人收藏

    评论

    相关推荐

    NVIDIA推出两款基于NVIDIA Ampere架构的全新台式机GPU

    两款 NVIDIA Ampere 架构 GPU 为工作站带来实时光线追踪功能和生成式 AI 工具支持。
    的头像 发表于 04-26 11:25 104次阅读

    利用NVIDIA组件提升GPU推理的吞吐

    本实践中,唯品会 AI 平台与 NVIDIA 团队合作,结合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV(HKV)将推理的稠密网络和热 Embedding 全置于
    的头像 发表于 04-20 09:39 152次阅读

    NVIDIA cuPQC帮助开发适用于量子计算时代的加密技术

    NVIDIA cuPQC 可为相关开发者提供加速计算支持,帮助开发适用于量子计算时代的加密技术。cuPQC 库可利用 GPU 并行性,为要求
    的头像 发表于 03-22 09:53 116次阅读

    NVIDIA 发布全新交换机,全面优化万亿参数级 GPU 计算和 AI 基础设施

    NVIDIA 软件实现了跨  Blackwell GPU、新交换机和 BlueField-3 SuperNIC 的分布式计算,大幅提升了 AI、数据处理、高性能计算和云工作负载的性能
    发表于 03-19 10:05 115次阅读
    <b class='flag-5'>NVIDIA</b> 发布全新交换机,全面优化万亿参数级 <b class='flag-5'>GPU</b> <b class='flag-5'>计算</b>和 AI 基础设施

    NVIDIA将在今年第二季度发布Blackwell架构的新一代GPU加速器“B100”

    根据各方信息和路线图,NVIDIA预计会在今年第二季度发布Blackwell架构的新一代GPU加速器“B100”。
    的头像 发表于 03-04 09:33 601次阅读
    <b class='flag-5'>NVIDIA</b>将在今年第二季度发布Blackwell架构的新一代<b class='flag-5'>GPU</b><b class='flag-5'>加速</b>器“B100”

    如何选择NVIDIA GPU和虚拟化软件的组合方案呢?

    NVIDIA vGPU 解决方案能够将 NVIDIA GPU 的强大功能带入虚拟桌面、应用程序和工作站,加速图形和计算,使在家办公或在任何地
    的头像 发表于 01-12 09:26 273次阅读
    如何选择<b class='flag-5'>NVIDIA</b> <b class='flag-5'>GPU</b>和虚拟化软件的组合方案呢?

    NVIDIA GPU的核心架构及架构演进

    在探讨 NVIDIA GPU 架构之前,我们先来了解一些相关的基本知识。GPU 的概念,是由 NVIDIA 公司在 1999 年发布 Geforce256 图形处理芯片时首先提出,从此
    发表于 11-21 09:40 433次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>GPU</b>的核心架构及架构演进

    NVIDIA 为全球领先的 AI 计算平台 Hopper 再添新动力

    Tensor Core GPU 和领先的显存配置,可处理生成式 AI 与高性能计算工作负载的海量数据。   NVIDIA H200 是首款采用 HBM3e 的 GPU,其运行更快、更
    发表于 11-14 14:30 112次阅读
    <b class='flag-5'>NVIDIA</b> 为全球领先的 AI <b class='flag-5'>计算</b>平台 Hopper 再添新动力

    创新企业云福利:腾讯云 × NVIDIA 初创加速计划

    云 x NVIDIA 初创加速计划 助您降低产品使用门槛 高性能计算集 群 HCC 以高性能云服务器为节点,通过 RDMA 互联,大幅提升网络性能,提供高带宽和极低延迟的网络服务,能满足大规模高性能
    的头像 发表于 11-13 20:40 381次阅读
    创新企业云福利:腾讯云 × <b class='flag-5'>NVIDIA</b> 初创<b class='flag-5'>加速</b>计划

    177倍加速NVIDIA最新开源 | GPU加速各种SDF建图!

    但最近,NVIDIA和ETHZ就联合提出了nvblox,是一个使用GPU加速SDF建图的库。计算速度非常快,相较CPU计算TSDF甚至快了1
    的头像 发表于 11-09 16:46 553次阅读
    177倍<b class='flag-5'>加速</b>!<b class='flag-5'>NVIDIA</b>最新开源 | <b class='flag-5'>GPU</b><b class='flag-5'>加速</b>各种SDF建图!

    NVIDIA与NTT DOCOMO联手打造全球首个GPU加速5G网络,欧盟要求苹果开放生态

    大家好,欢迎收看河套IT WALK第113期。 NVIDIA与NTT DOCOMO合作推出了全球首个GPU加速的5G网络,这一突破性技术将改变我们对5G网络的认知和使用方式。欧盟对苹果提出了一个灵魂
    的头像 发表于 09-27 21:20 503次阅读
    <b class='flag-5'>NVIDIA</b>与NTT DOCOMO联手打造全球首个<b class='flag-5'>GPU</b><b class='flag-5'>加速</b>5G网络,欧盟要求苹果开放生态

    Oracle 云基础设施提供新的 NVIDIA GPU 加速计算实例

    生成式 AI 和大语言模型(LLM)不断推动突破性创新,训练和推理对算力的需求也随之急剧上升。 这些现代生成式 AI 应用需要全栈加速计算,首先要有能够快速、准确处理大量工作负载的先进基础设施
    的头像 发表于 09-25 20:40 283次阅读
    Oracle 云基础设施提供新的 <b class='flag-5'>NVIDIA</b> <b class='flag-5'>GPU</b> <b class='flag-5'>加速</b><b class='flag-5'>计算</b>实例

    SIGGRAPH 2023 | NVIDIA 与全球数据中心系统制造商大力推动 AI 与工业数字化的发展

    OVX 服务器采用全新 NVIDIA GPU加速训练和推理以及图形密集型工作负载,将通过戴尔科技、慧与、联想、超微等公司提供。 洛杉矶 — SIGGRAPH — 太平洋时间 2023
    的头像 发表于 08-09 19:10 282次阅读

    NVIDIA 招聘 | NVIDIA 最新热招岗位!一起迎接未来加速计算

    NVIDIA 计算架构团队和  NVIDIA 计算专家团队正在热招! 如果你对加速计算领域充满热
    的头像 发表于 06-14 18:35 660次阅读

    NVIDIA黄仁勋:芯片制造是NVIDIA加速和AI计算的“理想应用”

    这种加速反过来又引发了人工智能革命。十年前,Alex Krizhevsky、Ilya Sutskever和Geoffrey Hinton等深度学习研究人员发现,GPU可能是具有成本效益的超级计算机。
    的头像 发表于 05-18 09:59 495次阅读
    <b class='flag-5'>NVIDIA</b>黄仁勋:芯片制造是<b class='flag-5'>NVIDIA</b><b class='flag-5'>加速</b>和AI<b class='flag-5'>计算</b>的“理想应用”