电子发烧友App

硬声App

0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示
电子发烧友网>电子资料下载>电子资料>Apache SeaTunnel高性能分布式数据集成平台

Apache SeaTunnel高性能分布式数据集成平台

2022-06-14 | zip | 0.58 MB | 次下载 | 免费

资料介绍

授权协议 Apache
开发语言 Java
操作系统 跨平台
软件类型 开源软件
所属分类 大数据数据处理

软件简介

seatunnel 是一个非常易用的支持海量数据实时同步的超高性能分布式数据集成平台,每天可以稳定高效同步数百亿数据,已在近百家公司生产上使用。

为什么我们需要 seatunnel

seatunnel 尽所能为您解决海量数据同步中可能遇到的问题:

  • 数据丢失与重复
  • 任务堆积与延迟
  • 吞吐量低
  • 应用到生产环境周期长
  • 缺少应用运行状态监控

seatunnel 使用场景

  • 海量数据同步
  • 海量数据集成
  • 海量数据的 ETL
  • 海量数据聚合
  • 多源数据处理

seatunnel 的特性

  • 简单易用,灵活配置,无需开发
  • 实时流式处理
  • 离线多源数据分析
  • 高性能、海量数据处理能力
  • 模块化和插件化,易于扩展
  • 支持利用 SQL 做数据处理和聚合
  • 支持 Spark Structured Streaming
  • 支持 Spark 2.x

seatunnel 的工作流程

pYYBAGKjJIqACBxRAABXRzrh5fs073.png

                         Input[数据源输入] -> Filter[数据处理] -> Output[结果输出]

多个 Filter 构建了数据处理的 Pipeline,满足各种各样的数据处理需求,如果您熟悉 SQL,也可以直接通过 SQL 构建数据处理的 Pipeline,简单高效。目前 seatunnel 支持的Filter列表, 仍然在不断扩充中。您也可以开发自己的数据处理插件,整个系统是易于扩展的。

seatunnel 支持的插件

  • Input plugin

Fake, File, Hdfs, Kafka, S3, Socket, 自行开发的 Input plugin

  • Filter plugin

Add, Checksum, Convert, Date, Drop, Grok, Json, Kv, Lowercase, Remove, Rename, Repartition, Replace, Sample, Split, Sql, Table, Truncate, Uppercase, Uuid, 自行开发的Filter plugin

  • Output plugin

Elasticsearch, File, Hdfs, Jdbc, Kafka, Mysql, S3, Stdout, 自行开发的 Output plugin

环境依赖

  1. java 运行环境,java >= 8

  2. 如果您要在集群环境中运行 seatunnel,那么需要以下 Spark 集群环境的任意一种:

  • Spark on Yarn
  • Spark Standalone

如果您的数据量较小或者只是做功能验证,也可以仅使用 local 模式启动,无需集群环境,seatunnel 支持单机运行。 注: seatunnel 2.0 支持 Spark 和 Flink 上运行

下载

可以直接运行的软件包下载地址:https://github.com/InterestingLab/seatunnel/releases

快速入门

快速入门:https://interestinglab.github.io/seatunnel-docs/#/zh-cn/v1/quick-start

关于 seatunnel 的详细文档

生产应用案例

  • 微博, 增值业务部数据平台 微博某业务有数百个实时流式计算任务使用内部定制版 seatunnel,以及其子项目Guardian做 seatunnel On Yarn 的任务监控。

  • 新浪, 大数据运维分析平台 新浪运维数据分析平台使用 seatunnel 为新浪新闻,CDN 等服务做运维大数据的实时和离线分析,并写入 Clickhouse。

  • 搜狗,搜狗奇点系统 搜狗奇点系统使用 seatunnel 作为 ETL 工具, 帮助建立实时数仓体系

  • 趣头条,趣头条数据中心 趣头条数据中心,使用 seatunnel 支撑 mysql to hive 的离线 ETL 任务、实时 hive to clickhouse 的 backfill 技术支撑,很好的 cover 离线、实时大部分任务场景。

  • 一下科技, 一直播数据平台

  • 永辉超市子公司-永辉云创,会员电商数据分析平台 seatunnel 为永辉云创旗下新零售品牌永辉生活提供电商用户行为数据实时流式与离线 SQL 计算。

  • 水滴筹, 数据平台 水滴筹在 Yarn 上使用 seatunnel 做实时流式以及定时的离线批处理,每天处理 3~4T 的数据量,最终将数据写入 Clickhouse。

更多案例参见: https://interestinglab.github.io/seatunnel-docs/#/zh-cn/v1/case_study/

贡献观点和代码

提交问题和建议:https://github.com/InterestingLab/seatunnel/issues

贡献代码:https://github.com/InterestingLab/seatunnel/pulls

开发者

感谢所有开发者

 

下载该资料的人也在下载 下载该资料的人还在阅读
更多 >

评论

查看更多

下载排行

本周

  1. 1山景DSP芯片AP8248A2数据手册
  2. 1.06 MB  |  532次下载  |  免费
  3. 2RK3399完整板原理图(支持平板,盒子VR)
  4. 3.28 MB  |  339次下载  |  免费
  5. 3TC358743XBG评估板参考手册
  6. 1.36 MB  |  330次下载  |  免费
  7. 4DFM软件使用教程
  8. 0.84 MB  |  295次下载  |  免费
  9. 5元宇宙深度解析—未来的未来-风口还是泡沫
  10. 6.40 MB  |  227次下载  |  免费
  11. 6迪文DGUS开发指南
  12. 31.67 MB  |  194次下载  |  免费
  13. 7元宇宙底层硬件系列报告
  14. 13.42 MB  |  182次下载  |  免费
  15. 8FP5207XR-G1中文应用手册
  16. 1.09 MB  |  178次下载  |  免费

本月

  1. 1OrCAD10.5下载OrCAD10.5中文版软件
  2. 0.00 MB  |  234315次下载  |  免费
  3. 2555集成电路应用800例(新编版)
  4. 0.00 MB  |  33566次下载  |  免费
  5. 3接口电路图大全
  6. 未知  |  30323次下载  |  免费
  7. 4开关电源设计实例指南
  8. 未知  |  21549次下载  |  免费
  9. 5电气工程师手册免费下载(新编第二版pdf电子书)
  10. 0.00 MB  |  15349次下载  |  免费
  11. 6数字电路基础pdf(下载)
  12. 未知  |  13750次下载  |  免费
  13. 7电子制作实例集锦 下载
  14. 未知  |  8113次下载  |  免费
  15. 8《LED驱动电路设计》 温德尔著
  16. 0.00 MB  |  6656次下载  |  免费

总榜

  1. 1matlab软件下载入口
  2. 未知  |  935054次下载  |  免费
  3. 2protel99se软件下载(可英文版转中文版)
  4. 78.1 MB  |  537798次下载  |  免费
  5. 3MATLAB 7.1 下载 (含软件介绍)
  6. 未知  |  420027次下载  |  免费
  7. 4OrCAD10.5下载OrCAD10.5中文版软件
  8. 0.00 MB  |  234315次下载  |  免费
  9. 5Altium DXP2002下载入口
  10. 未知  |  233046次下载  |  免费
  11. 6电路仿真软件multisim 10.0免费下载
  12. 340992  |  191187次下载  |  免费
  13. 7十天学会AVR单片机与C语言视频教程 下载
  14. 158M  |  183279次下载  |  免费
  15. 8proe5.0野火版下载(中文版免费下载)
  16. 未知  |  138040次下载  |  免费