0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Spark优化:小文件合并的步骤

如意 来源:segmentfault.com 作者:华为云开发者社区 2020-08-13 17:53 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

我们知道,大部分Spark计算都是在内存中完成的,所以Spark的瓶颈一般来自于集群(standalone, yarn, mesos, k8s)的资源紧张,CPU,网络带宽,内存。Spark的性能,想要它快,就得充分利用好系统资源,尤其是内存和CPU。有时候我们也需要做一些优化调整来减少内存占用,例如将小文件进行合并的操作。

一、问题现象

我们有一个15万条总数据量133MB的表,使用SELECT * FROM bi.dwd_tbl_conf_info全表查询耗时3min,另外一个500万条总数据量6.3G的表ods_tbl_conf_detail,查询耗时23秒。两张表均为列式存储的表。

大表查询快,而小表反而查询慢了,为什么会产生如此奇怪的现象呢?

二、问题探询

数据量6.3G的表查询耗时23秒,反而数据量133MB的小表查询耗时3min,这非常奇怪。我们收集了对应的建表语句,发现两者没有太大的差异,大部分为String,两表的列数也相差不大。

CREATE TABLE IF NOT EXISTS `bi`。`dwd_tbl_conf_info` ( `corp_id` STRING COMMENT ‘’, `dept_uuid` STRING COMMENT ‘’, `user_id` STRING COMMENT ‘’, `user_name` STRING COMMENT ‘’, `uuid` STRING COMMENT ‘’, `dtime` DATE COMMENT ‘’, `slice_number` INT COMMENT ‘’, `attendee_count` INT COMMENT ‘’, `mr_id` STRING COMMENT ‘’, `mr_pkg_id` STRING COMMENT ‘’, `mr_parties` INT COMMENT ‘’, `is_mr` TINYINT COMMENT ‘R’, `is_live_conf` TINYINT COMMENT ‘’ ) CREATE TABLE IF NOT EXISTS `bi`。`ods_tbl_conf_detail` ( `id` string, `conf_uuid` string, `conf_id` string, `name` string, `number` string, `device_type` string, `j_time` bigint, `l_time` bigint, `media_type` string, `dept_name` string, `UPDATETIME` bigint, `CREATETIME` bigint, `user_id` string, `USERAGENT` string, `corp_id` string, `account` string )

因为两张表均为很简单的SELECT查询操作,无任何复杂的聚合join操作,也无UDF相关的操作,所以基本确认查询慢的应该发生的读表的时候,我们将怀疑的点放到了读表操作上。通过查询两个查询语句的DAG和任务分布,我们发现了不一样的地方。

查询快的表,查询时总共有68个任务,任务分配比如均匀,平均7~9s左右,而查询慢的表,查询时总共1160个任务,平均也是9s左右。如下图所示:

Spark优化:小文件合并的步骤

至此,我们基本发现了猫腻所在。大表6.3G但文件个数小,只有68个,所以很快跑完了。而小表虽然只有133MB,但文件个数特别多,导致产生的任务特别多,而由于单个任务本身比较快,大部分时间花费在任务调度上,导致任务耗时较长。

那如何才能解决小表查询慢的问题呢?

三、业务调优

那现在摆在我们面前就存在现在问题:

为什么小表会产生这么小文件 已经产生的这么小文件如何合并

带着这两个问题,我们和业务的开发人员聊了一个发现小表是业务开发人员从原始数据表中,按照不同的时间切片查询并做数据清洗后插入到小表中的,而由于时间切片切的比较小,导致这样的插入次数特别多,从而产生了大量的小文件。

那么我们需要解决的问题就是2个,如何才能把这些历史的小文件进行合并以及如何才能保证后续的业务流程中不再产生小文件,我们指导业务开发人员做了以下优化:

使用INSERT OVERWRITE bi.dwd_tbl_conf_info SELECT * FROM bi.dwd_tbl_conf_info合并下历史的数据。由于DLI做了数据一致性保护,OVERWRITE期间不影响原有数据的读取和查询,OVERWRITE之后就会使用新的合并后的数据。合并后全表查询由原来的3min缩短到9s内完成。 原有表修改为分区表,插入时不同时间放入到不同分区,查询时只查询需要的时间段内的分区数据,进一步减小读取数据量。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • cpu
    cpu
    +关注

    关注

    68

    文章

    11216

    浏览量

    222948
  • 数据库
    +关注

    关注

    7

    文章

    3993

    浏览量

    67736
  • SPARK
    +关注

    关注

    1

    文章

    108

    浏览量

    21113
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    如何在CANape合并多个MDF格式的测量文件

    实现步骤:1、点击Tools|FunctionsEditor进入函数编辑界面:2、新建脚本,展开Scripts,右键单击Projectdirectory并选择New:3、创建脚本,给脚本命名,按下图
    的头像 发表于 12-02 10:21 61次阅读
    如何在CANape<b class='flag-5'>合并</b>多个MDF格式的测量<b class='flag-5'>文件</b>

    NVIDIA DGX Spark系统恢复过程与步骤

    在使用 NVIDIA DGX Spark 的过程中,可能会出现配置故障,而导致开发中断的问题,本篇教程将带大家了解如何一步步完成系统恢复。
    的头像 发表于 11-28 09:46 3580次阅读
    NVIDIA DGX <b class='flag-5'>Spark</b>系统恢复过程与<b class='flag-5'>步骤</b>

    系统c盘满了怎么清理不需要文件

    统c盘满了怎么清理不需要文件   你的 c: 驱动已经满了, 电脑变慢或者无法安装更新, 这是 windows 机器常见的问题, 不用当技术专家也能腾出空间, 这篇指南用简单安全的步骤帮你找到并删除
    的头像 发表于 11-22 09:30 691次阅读

    NVIDIA DGX Spark助力构建自己的AI模型

    2025 年 1 月 6 日,NVIDIA 正式宣布其 Project DIGITS 项目,并于 3 月 18 日更名为 NVIDIA DGX Spark,进一步公布了产品细节。DGX Spark
    的头像 发表于 11-21 09:25 537次阅读
    NVIDIA DGX <b class='flag-5'>Spark</b>助力构建自己的AI模型

    NVIDIA DGX Spark快速入门指南

    NVIDIA DGX Spark 已正式向 AI 开发者交付,对于刚入手的全新 DGX Spark,该如何进行初始化设置?本篇文章将引导您完成 DGX Spark 首次设置。在初始设置的过程中,您
    的头像 发表于 11-17 14:11 4157次阅读
    NVIDIA DGX <b class='flag-5'>Spark</b>快速入门指南

    程序运行速度很慢如何优化

    频率: 过高频率的中断会占用大量CPU时间。优化ISR代码,使其尽可能短小精悍。能合并的中断尽量合并。 使用RTOS特性: 如果使用了RTOS,确保任务优先级设置合理,避免高优先级任务长时间阻塞低优先级任务。利用信号量、消息队列
    发表于 11-17 06:12

    安泰新能源发布新一代智能跟踪支架AT-Spark,为大型光伏电站提供一体化解决方案

    发电效率和更低平准化度电成本(LCOE)日益增长的需求,通过提供一体化解决方案来优化整个项目生命周期的性能。 结构设计升级后,稳定性更强、安装更快、成本效率更高 AT-Spark采用多回转驱动系统和八角扭矩管,刚度提升40%,强度提升50%,同时材料成本降低30%。其
    的头像 发表于 11-13 21:08 134次阅读

    订单拆单合并处理接口设计与实现

      在电商或订单管理系统中,订单拆单和合并是常见的优化操作。拆单指将一个订单拆分成多个子订单(例如基于库存位置或物流需求),而合并则是将多个订单整合成一个(例如减少配送成本)。一个高效的订单拆单
    的头像 发表于 10-16 14:47 323次阅读
    订单拆单<b class='flag-5'>合并</b>处理接口设计与实现

    NVIDIA DGX Spark桌面AI计算机开启预订

    DGX Spark 现已开启预订!丽台科技作为 NVIDIA 授权分销商,提供从产品到服务的一站式解决方案,助力轻松部署桌面 AI 计算机。
    的头像 发表于 09-23 17:20 919次阅读
    NVIDIA DGX <b class='flag-5'>Spark</b>桌面AI计算机开启预订

    HarmonyOS优化应用文件上传下载慢问题性能优化

    : 图2 上传数量和耗时对比图表 由于上传耗时受到网络状态影响,偏差较大,结果取的几次测量结果的最小值。但是仍然可以从数据中看出,优化前的耗时基本为线性增长,压缩优化后的耗时在上传文件数量较低时并不
    发表于 05-27 16:19

    HarmonyOS优化应用文件上传下载慢问题性能优化

    : 图2 上传数量和耗时对比图表 由于上传耗时受到网络状态影响,偏差较大,结果取的几次测量结果的最小值。但是仍然可以从数据中看出,优化前的耗时基本为线性增长,压缩优化后的耗时在上传文件数量较低时并不
    发表于 05-22 10:54

    NVIDIA加速的Apache Spark助力企业节省大量成本

    随着 NVIDIA 推出 Aether 项目,通过采用 NVIDIA 加速的 Apache Spark 企业得以自动加速其数据中心规模的分析工作负载,从而节省数百万美元。
    的头像 发表于 03-25 15:09 903次阅读
    NVIDIA加速的Apache <b class='flag-5'>Spark</b>助力企业节省大量成本

    GoTo否认与Grab合并传闻

    印尼网约车巨头GoTo于当地时间2月4日正式提交文件,明确否认同竞争对手Grab的合并传闻。该公司强调,在未来12个月内,除实施股票回购计划外,并无任何重大行动计划。 此前,市场上有消息称Grab
    的头像 发表于 02-06 10:08 838次阅读

    带通滤波器的设计步骤优化方法

    带通滤波器作为信号处理领域的重要组件,其设计步骤优化方法对于确保滤波器性能满足特定应用需求至关重要。本文将详细阐述带通滤波器的设计步骤,并深入探讨优化方法,以期为相关领域的研究者和工
    的头像 发表于 02-05 16:48 2938次阅读

    hyper-v文件,hyper-v文件查找的正确步骤和操作方法是什么?

    在使用Hyper-V进行虚拟化操作时,准确找到相关文件至关重要。无论是需要对虚拟机进行备份、迁移,还是对其配置进行修改,都离不开对Hyper-V文件的查找。那么,查找Hyper-V文件的正确
    的头像 发表于 01-24 14:40 1631次阅读
    hyper-v<b class='flag-5'>文件</b>,hyper-v<b class='flag-5'>文件</b>查找的正确<b class='flag-5'>步骤</b>和操作方法是什么?