如何在Azure Synapse上构建NVIDIA GPU-电子发烧友网

Azure 支持 NVIDIA 的 T4 张量核心图形处理单元（ GPUs ），这是为以经济高效的方式部署机器学习推断或分析工作负载而优化的。使用 Apache Spark ™ Azure Synapse Analytics 针对 NVIDIA GPU 的部署进行了优化，加上预安装的库，提供了一种利用 GPU 为各种数据处理和机器学习任务提供动力的简单方法。 GPU-accelerated Spark 的 Azure Synapse 版本内置了对 RAPIDS 加速的支持，与在 CPU 上运行相比，它在标准分析基准上的性能提升至少是在 CPU 上运行的 2 倍，所有这些都没有任何代码更改。

目前， Azure Synapse 中的 GPU 加速功能可用于按请求进行私人预览。

NVIDIA GPU 加速的好处

NVIDIA GPU 提供了极高的计算性能，将并行处理引入多核服务器，以加速苛刻的工作负载。 CPU 由几个为顺序串行处理而优化的内核组成，而。另一方面， GPU 具有大规模并行体系结构，由数千个更小、更高效的内核组成，设计用于同时处理多个任务。考虑到数据科学家将 80% 的时间花在数据预处理上， GPU s 是加速数据处理管道的关键工具，而不仅仅依赖于包含 CPU 的管道。

构建这些管道的最有效和最熟悉的方法之一是使用 Apache Spark ™。 Apache Spark 中 NVIDIA GPU 加速的好处™ 包括：

更快地完成数据处理、查询和模型训练，从而加快迭代速度，缩短洞察时间。

相同的 GPU 加速基础架构有助于消除 Spark 和 ML / DL 框架对复杂决策和调优的需求。

需要更少的计算节点；降低基础架构成本，并有助于避免与规模相关的问题。

NVIDIA 和 Azure Synapse 协作

NVIDIA 和 Azure Synapse 合作为数据科学家和数据工程师带来 GPU 加速。这种集成将使客户能够自由地使用 NVIDIA GPU for Apache Spark ™ 无代码更改且体验与 CPU 群集相同的应用程序。此外，这一合作将继续增加对最新 NVIDIA GPU 和网络产品的支持，并为希望通过数据工程、数据准备和机器学习的单一管道提高生产率和节约成本的大数据客户提供持续增强。

Apache Spark ™ Azure Synapse 中的 3 。 0 GPU 加速

而 Apache Spark ™ 提供开箱即用的 GPU 支持，配置和管理所有必需的硬件以及安装所有低级库需要付出大量的努力。当您尝试启用 GPU 的 Apache Spark™ 时在 Azure Synapse 中，您会立即注意到一个非常简单的用户体验：

幕后繁重的工作：为了有效使用 GPU ，库用于与主机上的图形卡进行通信。安装和配置这些库需要时间和精力。 Azure Synapse 负责预安装这些库，并通过与 GPU Apache Spark™ 集成，在计算节点之间建立所有复杂的网络池。在短短几分钟内，您就可以不再担心设置问题，而是专注于解决业务问题。

优化的 Spark 配置：通过 NVIDIA 和 Azure Synapse 之间的合作，我们为支持 GPU 的 Apache Spark 提供了最佳配置™ 游泳池。因此，您的工作负载以最佳方式运行，为您节省了时间和运营成本。

包含数据准备和 ML 库：启用 GPU 的 Apache Spark ™ Azure Synapse 中的池内置了两个流行的库，支持更多功能：

RAPIDS 用于数据准备： RAPIDS 是一套开源软件库和 API ，用于完全在 GPU 上执行端到端的数据科学和分析管道，以大幅提高速度，尤其是在大型数据集上。 RAPIDS Apache 加速器 Spark ™ 构建在 NVIDIA CUDA 和 UCX 之上，支持 GPU 加速 SQL 、数据帧操作和 Spark 洗牌。由于没有利用这些加速的代码更改，您还可以加速依赖 Linux 基金会三角洲湖或微软 Hyperspace 索引的数据管道（这两种索引都是在 BACK 中可用的）。

Hummingbird 用于加速对传统 ML 模型的评分和推理。 Hummingbird 是一个用于将传统 ML 运算符转换为张量的库，其目标是加速传统机器学习模型的推理（评分/预测）。

图 1 ： Spark Azure Synapse 中的数据准备和 ML 。

当运行 NVIDIA 决策支持（ NDS ）测试查询时（源自行业已知基准测试），超过 1 TB 的拼花地板数据，我们的早期结果表明 GPUs 可以在不改变任何代码的情况下，将总体查询性能提高近 2 倍。

图 2 ：总体性能结果。

联系我们如果您有兴趣被添加到私人预览列表中。

使用 Azure Synapse 中提供的有限时间免费数量尝试新功能。

图 3 ：当前 Azure Synapse 产品。

关于作者

Alexander Spiridonov 是 NVIDIA 的研究员、开发人员和数据分析师，担任解决方案架构师。最近，他领导了 NVIDIA 和微软之间的几个联合项目，涉及使用最新 GPU 技术优化 Azure 管道。

Rahul Potharaju 是微软 Azure 数据集团的主要大数据研发经理，致力于 Azure Synapse 分析。他领导了几项开源工作，包括 Spark 的 Hyperspace 和。 NET 。他的作品在顶级会议上广泛发表，并在 SIGMM 和 TOMM 等场所获奖。此前，他在微软的灰色系统实验室（ GSL ）担任研究员。他获得了计算机科学博士学位。毕业于普渡大学与西北大学微软研究和计算机科学硕士学位的联合工业合作。他是摩托罗拉工程卓越奖和普渡钻石奖的获得者。 Rahul 的工作已经被微软内部的几个商业团体采纳，并赢得了微软值得信赖的可靠性。

审核编辑：郭婷

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉