0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NVIDIA助力百度提升数据分析效能

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 2024-11-20 10:06 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在现代商业环境中,数据分析已然成为企业获取成功的关键所在。长期以来,百度广告数据团队始终面临着极为复杂的数据分析挑战,其需要为逾千名用户提供在线广告业务分析服务,而这些用户涵盖策略工程师、产品经理、数据分析师、运营团队以及销售人员等。过去他们不得不编写繁杂的查询语句,由此耗费掉大量的时间与精力。百度广告业务的重要性和复杂性,致使相关的业务数据每月会有超过 200 个迭代更新,用户唯有掌握丰富的业务领域知识方可成功实施数据分析。

直面这些挑战,百度广告数据团队开发了一个全新平台“DATAPILOT”,促使数据分析朝着更为简单且高效的方向发展。百度凭借与 NVIDIA RAPIDS for Apache Spark 团队的紧密协作,优化大模型以及 NVIDIA GPU 加速计算技术,为数据分析赋予了全新的表现形态。

DATAPILOT 平台——

自然语言与 SQL 高效执行的完美融合

DATAPILOT 的核心优势体现于其卓越的自然语言交互能力以及底层 SQL 的高效快速执行能力。此前的数据分析平台极为复杂,涵盖了超过十万个各异的字段以及三千余个繁杂的表格,其中部分字段存在于十几个表格之中,并且有着不同的字段名称和近似的业务含义,这致使销售、产品经理以及研发人员于该平台进行数据分析时面临极大困难。

场景一:需要统计过去一周的信息流广告消费数据。在以往的数据分析平台中,有超过五张表包含与信息流业务消费相关的数据,包括流量、广告、转化等不同业务层级,以及 CPC、CPM、OCPC 等不同业务形态。此外,还涉及消费金额和现金金额的差异。为了完成从“需求理解”到“表格筛选”、“口径梳理”、“SQL 编写”以及“获取结果”的全流程,用户需要具备非常强的业务领域知识和专业的 SQL 能力。

场景二:需要分析昨天搜索广告收入为什么下跌。在实际经验中,广告收入下跌可能受自然流量、行业政策、客户行为、系统异常等多方面因素影响。分析人员首先不仅需要了解搜索广告的业务知识,而且需要掌握收入分析的专家经验,同时往往需要基于多个表格,编写不同的 SQL 统计不同维度的指标数据,最终基于一定的归因逻辑才能得出对应的潜在结论。

而 DATAPILOT 平台将复杂的 SQL 编写过程成功转化为自然语言交互,用户仅需以自然语言与平台展开对话,仿若与旧友闲谈一般,平台能够迅速领会用户意图并即刻做出回应。过去用户或许需要等候数分钟乃至数小时方可看到结果,而如今新平台可在短短几秒内完成整个流程,显著提升了速度,且让交互过程如聊天般流畅自然。此外,平台还提供自动洞察功能,借助先进的大型语言模型来应对复杂的业务场景分析难题。用户仅需简单点击一次即可获取格式化的智能分析结果以及详尽的数据报告。

为能更优地理解 DATAPILOT 平台的优势,下述为一个实际的用户案例。某一用户想获知昨天收入下降的原因,借助 DATAPILOT 平台,用户仅需键入问题,平台即可自动生成所需的 SQL 查询,并于数秒内返回结果。此过程涵盖三个步骤:表选择、SQL 生成以及数据洞察。首先,平台会依据用户的输入选取相关的表,而后生成相应的 SQL 查询,最后提供数据洞察报告。这一过程不但快速高效,还极大地简化了用户的操作。

经由这一创新解决方案,百度广告数据团队大幅提高了数据分析的效率与准确性。用户不再需要精通繁杂的查询语法,仅通过自然语言输入问题,即可迅速获取所需的分析结果。这种创新不但极大地优化了用户体验,还显著提升了工作效率。在整个过程中,从自然语言到 SQL 生成以及 SQL 的执行操作极为关键。百度汇集了大量私域知识,在百度的文心大模型上进行预训练与微调,使得模型具备了出色的用户意图理解、表格理解以及 SQL 生成能力。

在具备了卓越的 SQL 生成能力和数据智能洞察能力之后,为了匹配自然语言表达、对话式的交互体验,SQL 的执行速度成为了制约平台表现的瓶颈。自然语言对话式交互成为未来,后端计算效率也必须跟上对话节奏。过去,百度广告数据团队一直专注于软件层面的优化,但现在软件优化已达到瓶颈,需要全新的软硬件协同加速能力来突破 SQL 执行效率的限制。

百度的探索:Spark-RAPIDS+GPU

软硬件结合突破速度瓶颈

NVIDIA RAPIDS 是由一系列开源软件库和 API 组成,用于完全在 GPU 上执行数据科学流程,从而可将训练时间从几天缩短到几分钟。通过隐藏 GPU 的工作复杂性,甚至隐藏数据中心架构内的后台通信协议,RAPIDS 提供了完成数据科学的简单方法,同时 RAPIDS 的运行位置不受限制,在云端或本地均可,因此可以在任何位置大规模运行,大大缩短任务的执行时间。RAPIDS 可以使用 NVIDIA GPU 加速所有主要的 Apache Spark 3 平台,无需更改代码。RAPIDS 由用于生产部署的NVIDIA AI Enterprise软件套件提供支持。软件及电信行业领导者通过 RAPIDS 加速他们的 Spark 业务,平均加速提升 40%,成本降低 60% 以上。

百度对多种技术方案进行了尝试以提升速度,如 Spark CPU 优化,然而该方案性能天花板较低,难以突破 CPU 架构的物理限制;ClickHouse 这类方案无法处理完整且复杂的 SQL 连接,纯硬件的 AEP 加固态硬盘优化仅局限于 I/O 层面,因此采用 Spark-rapids 与 GPU 这种软硬件结合的方式成为当前的最优选择。

百度广告数据团队构建起了一个涵盖 CPU 和 GPU 的异构计算环境,充分发挥 GPU 的加速计算能力,精心设计了 SQL 识别与调度机制,通过对 SQL 进行分析以判定其是否能够被加速,并将可加速的 SQL 分配至 GPU 执行,在NVIDIA RAPIDS Accelerator for Apache Spark和 NVIDIA 加速计算的软硬件结合方案的有力支持下,底层确保了速度的提升以及资源的平衡利用:

该主导架构包括交互层、调度层和计算基础设施层,交互层直接为用户服务,实现文本到 SQL 转换;调度层负责将 SQL 任务分发到不同的硬件引擎;计算和基础设施层负责实际的计算工作,确保数据处理的高效和准确。

NVIDIA 助力百度广告数据团队:

创新方案提升数据分析效能

通过与 NVIDIA 工程师的紧密协作和助力,百度广告数据团队此前在实际业务中遭遇的诸多问题均获得了有效的解决办法。譬如,针对 20% 的数据满足了 80% 的数据需求这一情况,提出了数据冷热分层存储的解决方案,依据不同场景间的数据特征,选取适宜 GPU 批次的数据分布以获取最佳的吞吐量,借助 Parquet sub-rowgroup reading 解决高压缩比扫描数据所产生的 OOM 问题,并优化 GPU 的 parquet 解码以处理部分 IO 性能瓶颈,这些为百度提升 SQL 的速度执行优化给予了极大的助力,最终助力百度广告数据团队显著提高了业务计算效率。

NVIDIA RAPIDS融合了 RAPIDS cuDF 库的强大数据处理能力和 Apache Spark 分布式计算框架的规模化优势。RAPIDS 配备了基于 UCX 的内置加速数据混洗功能,该功能可针对 GPU 间的通信和 RDMA 进行优化配置。此外,RAPIDS 为 Spark 提供了经过优化的 Shuffle 实现,通过 UCX 技术优化 GPU 数据传输,确保数据尽可能保留在 GPU 上,并直接实现 GPU 到 GPU 的数据传输,有效绕过了 CPU 的瓶颈。

在过去的数月中,凭借 NVIDIA RAPIDS for Apache 团队的技术支持,百度广告数据团队在数据分析的效率方面取得了显著进展:

首先,整体上在用户即席查询数据分析场景,实现了 35% 的业务覆盖,并达到了平均 2 倍+的加速比,并且在部分场景加速比达到 5 倍,SQL 执行效率和用户体验得到明显改善;其次,在收入分析等复杂业务场景,数据分析效率从天级别降低到分钟级别;同时由于 SQL 执行效率的提升,用户进行策略调研和 A/B 实验效果分析的节奏也大幅加快。

伴随技术的进一步发展与应用的深入,未来百度广告数据团队还计划在软硬件的定制部署上开展更多的创新,包含探寻 GPU、CPU、MEM 和 SSD 之间的最佳配置,以最大化发挥软硬协同、深度优化之后的资源利用效率,达成全局 50% 的 IT 成本降低目标。百度计划继续与 NVIDIA 合作,进一步提升其在数据分析方面的能力。

NVIDIA 的技术支持使得百度能够在复杂的数据环境中更有效地应对挑战,提高了数据处理的速度与准确性,同时也提升了用户体验。通过这些创新解决方案,百度广告数据团队不但可以提升实际业务价值,也推动了整个数据分析行业的技术进步。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5729

    浏览量

    110304
  • 百度
    +关注

    关注

    9

    文章

    2401

    浏览量

    95381
  • 数据分析
    +关注

    关注

    2

    文章

    1526

    浏览量

    36422

原文标题:百度利用 DATAPILOT 及 NVIDIA RAPIDS Accelerator 实现数据分析变革

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    百度Create 2026发布“百度胜算”

    ;新尺子"取代沿用至今的Token消耗量指标,重新丈量AI时代的真实价值。与此同时,百度智能云同步发布企业数据智能平台 **"百度胜算"** ,剑指Agent在严肃业务场景中"不敢用、用不好"的核心痛点。
    的头像 发表于 05-17 09:47 1364次阅读

    百度智能云正式发布Hogee

    5月13日,在Create2026百度AI开发者大会上,百度智能云正式发布了一款全新的企业一站式AI营销应用——Hogee。这款产品的亮相,标志着百度智能云在AI营销领域迈出了重要一步,也为企业营销效率的
    的头像 发表于 05-15 09:18 814次阅读

    百度发布文心5.1:预训练成本降至行业6%

    5月9日,百度正式发布新一代基础大模型文心5.1。该模型基于百度自研的"多维弹性预训练"技术,在大幅压缩参数规模的同时,实现了基础能力的显著提升。目前,文心5.1已在百度千帆模型广场及
    的头像 发表于 05-09 11:05 648次阅读

    百度地图与NIMO眼镜达成深度合作

    近日,百度地图与NIMO眼镜达成深度合作,将百度地图全栈导航能力以轻量化、低功耗、极简交互的方式落地智能眼镜场景,为骑行、步行、日常通勤用户提供抬头即见、安全随行的新一代导航体验。
    的头像 发表于 04-09 10:00 441次阅读

    百度地图LD解决方案助力无人配送行业规模化落地

    数据飞轮”效应持续优化地图质量与生产效率。相比传统高精地图采图模式,百度地图LD数据在保证高精度、高鲜度的同时,显著降低了地图制作成本,为行业提供高性价比、高安全合规的地图服务,真正助力
    的头像 发表于 03-31 13:54 569次阅读

    百度文心大模型5.0正式版上线

    今天,在百度文心Moment大会现场,文心大模型5.0正式版上线。
    的头像 发表于 01-23 16:48 1609次阅读

    API数据分析:淘宝流量来源分析,渠道优化!

    优化渠道策略。我们将使用Python作为工具,结合数据分析和统计方法,确保过程真实可靠。 1. 理解淘宝流量来源 淘宝流量主要来自多个渠道,包括: 直接访问 :用户直接输入淘宝网址或从收藏夹访问。 搜索引擎 :如百度或淘宝内搜索,贡献
    的头像 发表于 01-23 13:42 511次阅读
    API<b class='flag-5'>数据分析</b>:淘宝流量来源<b class='flag-5'>分析</b>,渠道优化!

    百度地图开放平台与400万开发者共赴智能时空新未来

    二十年星辰大海,十五载开放引航。2025年,百度地图迎来服务用户的二十周年,其开放平台亦走过了与开发者并肩同行的十五个春秋。在近期举行的“2025百度地图开发者盛典”上,百度地图开放平台回顾了从提供基础地图API,演进为以AI为
    的头像 发表于 01-23 09:03 1072次阅读
    <b class='flag-5'>百度</b>地图开放平台与400万开发者共赴智能时空新未来

    百度健康升级发布文心健康管家

    面临医疗资源分布不均、就诊流程繁琐、就医信息不均等难题,“想让每个家庭都拥有专属医生”成为百度健康的愿景。
    的头像 发表于 12-23 15:01 998次阅读

    百度世界大会亮点 五年五芯 百度宣布打造最硬AI云

    自2006年以来,百度世界大会已连续举办近20届,百度世界大会是百度每年面向行业、媒体、合作伙伴和广大用户的最高级别盛事,作为百度年度最重要的的战略、技术、产品发布会,自2006年以来
    的头像 发表于 11-13 15:47 2064次阅读

    百度世界2025进行中 百度昆仑芯超节点亮相 性能巨幅提升

    百度世界大会是百度每年面向行业、媒体、合作伙伴和广大用户的最高级别盛事,作为百度年度最重要的的战略、技术、产品发布会,自2006年以来已连续举办19年,持续为行业搭建起交流前沿技术、碰撞创新
    的头像 发表于 11-13 11:51 1565次阅读

    百度智能云发布全球首批AI数字员工

    没错,在今天的百度AI Day开放日现场,这么溜的同事们正式上岗!
    的头像 发表于 08-12 09:47 1981次阅读

    AI数据分析仪设计原理图:RapidIO信号接入 平板AI数据分析

    AI数据分析仪, 平板数据分析仪, 数据分析仪, AI边缘计算, 高带宽数据输入
    的头像 发表于 07-17 09:20 968次阅读
    AI<b class='flag-5'>数据分析</b>仪设计原理图:RapidIO信号接入 平板AI<b class='flag-5'>数据分析</b>仪

    欧洲央行行长一行到访百度Apollo Park

    近日,拉加德一行到访位于北京亦庄(经济技术开发区)的百度Apollo Park,与百度Jackson等人交流自动驾驶、AI发展等话题,并在亦庄东环南路、宏达南路等公开道路上,试乘了萝卜快跑第六代无人驾驶汽车。
    的头像 发表于 06-18 15:44 1026次阅读

    65%央企大模型落地首选百度智能云

    今天,很荣幸地分享一个好消息,百度智能云已牵手65%的央企,共同推进大模型产业落地。得益于全栈的AI能力,百度联合众多央国企伙伴,针对各类不同业务场景,打造了一大批可推广、可复制的标杆案例。
    的头像 发表于 06-11 15:44 1108次阅读