0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

8种主流数据迁移工具技术选型

jf_ro2CN3Fa 来源:苏三说技术 2023-04-20 17:57 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

前言

最近有些小伙伴问我,ETL数据迁移工具该用哪些。

ETL(是Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程),对于企业应用来说,我们经常会遇到各种数据的处理、转换、迁移的场景。

今天特地给大家汇总了一些目前市面上比较常用的ETL数据迁移工具,希望对你会有所帮助。

1.Kettle

Kettle是一款国外开源的ETL工具,纯Java编写,绿色无需安装,数据抽取高效稳定 (数据迁移工具)。

Kettle 中有两种脚本文件,transformation 和 job,transformation 完成针对数据的基础转换,job 则完成整个工作流的控制。

Kettle 中文名称叫水壶,该项目的主程序员 MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。

17508ce0-d3ef-11ed-bfe3-dac502259ad0.png

Kettle 这个 ETL 工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。

1774c2b8-d3ef-11ed-bfe3-dac502259ad0.png

Kettle 家族目前包括 4 个产品:Spoon、Pan、CHEF、Kitchen。

SPOON:允许你通过图形界面来设计 ETL 转换过程(Transformation)。

PAN:允许你批量运行由 Spoon 设计的 ETL 转换 (例如使用一个时间调度器)。Pan 是一个后台执行的程序,没有图形界面。

CHEF:允许你创建任务(Job)。任务通过允许每个转换,任务,脚本等等,更有利于自动化更新数据仓库的复杂工作。任务通过允许每个转换,任务,脚本等等。任务将会被检查,看看是否正确地运行了。

KITCHEN:允许你批量使用由 Chef 设计的任务 (例如使用一个时间调度器)。KITCHEN 也是一个后台运行的程序。

2.Datax

DataX是阿里云 DataWorks数据集成的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。

DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。

17960cb6-d3ef-11ed-bfe3-dac502259ad0.png

设计理念:为了解决异构数据源同步问题,DataX将复杂的网状的同步链路变成了星型数据链路,DataX作为中间传输载体负责连接各种数据源。当需要接入一个新的数据源的时候,只需要将此数据源对接到DataX,便能跟已有的数据源做到无缝数据同步。

当前使用现状:DataX在阿里巴巴集团内被广泛使用,承担了所有大数据的离线同步业务,并已持续稳定运行了6年之久。目前每天完成同步8w多道作业,每日传输数据量超过300TB。

DataX本身作为离线数据同步框架,采用Framework + plugin架构构建。将数据源读取和写入抽象成为Reader/Writer插件,纳入到整个同步框架中。

17af668e-d3ef-11ed-bfe3-dac502259ad0.png

DataX 3.0 开源版本支持单机多线程模式完成同步作业运行,本小节按一个DataX作业生命周期的时序图,从整体架构设计非常简要说明DataX各个模块相互关系。

17bfd262-d3ef-11ed-bfe3-dac502259ad0.png

DataX 3.0六大核心优势:

可靠的数据质量监控

丰富的数据转换功能

精准的速度控制

强劲的同步性能

健壮的容错机制

极简的使用体验

3.DataPipeline

DataPipeline采用基于日志的增量数据获取技术( Log-based Change Data Capture ),支持异构数据之间丰富、自动化、准确的语义映射构建,同时满足实时与批量的数据处理。

可实现 Oracle、IBM DB2、MySQL、MS SQL Server、PostgreSQL、GoldenDB、TDSQL、OceanBase 等数据库准确的增量数据获取。

平台具备“数据全、传输快、强协同、更敏捷、极稳定、易维护”六大特性。

在支持传统关系型数据库的基础上,对大数据平台、国产数据库、云原生数据库、API 及对象存储也提供广泛的支持,并在不断扩展。

DataPipeline 数据融合产品致力于为用户提供企业级数据融合解决方案,为用户提供统一平台同时管理异构数据节点实时同步与批量数据处理任务,在未来还将提供对实时流计算的支持。

采用分布式集群化部署方式,可水平垂直线性扩展的,保证数据流转稳定高效,让客户专注数据价值释放。

17dda512-d3ef-11ed-bfe3-dac502259ad0.png

产品特点:

全面的数据节点支持:支持关系型数据库、NoSQL数据库、国产数据库、数据仓库、大数据平台、云存储、API等多种数据节点类型,可自定义数据节点。

高性能实时处理:针对不同数据节点类型提供TB级吞吐量、秒级低延迟的增量数据处理能力,加速企业各类场景的数据流转。

分层管理降本增效:采用“数据节点注册、数据链路配置、数据任务构建、系统资源分配”的分层管理模式,企业级平台的建设周期从三到六个月减少为一周。

无代码敏捷管理:提供限制配置与策略配置两大类十余种高级配置,包括灵活的数据对象映射关系,数据融合任务的研发交付时间从2周减少为5分钟。

极稳定高可靠:采用分布式架构,所有组件均支持高可用,提供丰富容错策略,应对上下游的结构变化、数据错误、网络故障等突发情况,可以保证系统业务连续性要求。

全链路数据可观测:配备容器、应用、线程、业务四级监控体系,全景驾驶舱守护任务稳定运行。自动化运维体系,灵活扩缩容,合理管理和分配系统资源。

4.Talend

Talend (踏蓝) 是第一家针对的数据集成工具市场的 ETL (数据的提取 Extract、传输 Transform、载入 Load) 开源软件供应商。

18019d28-d3ef-11ed-bfe3-dac502259ad0.png

Talend 以它的技术和商业双重模式为 ETL 服务提供了一个全新的远景。它打破了传统的独有封闭服务,提供了一个针对所有规模的公司的公开的,创新的,强大的灵活的软件解决方案。

5.DataStage

DataStage,即IBM WebSphere DataStage,是一套专门对多种操作数据源的数据抽取、转换和维护过程进行简化和自动化,并将其输入数据集市或数据仓库目标数据库的集成工具,可以从多个不同的业务系统中,从多个平台的数据源中抽取数据,完成转换和清洗,装载到各种系统里面。

其中每步都可以在图形化工具里完成,同样可以灵活地被外部系统调度,提供专门的设计工具来设计转换规则和清洗规则等,实现了增量抽取、任务调度等多种复杂而实用的功能。其中简单的数据转换可以通过在界面上拖拉操作和调用一些 DataStage 预定义转换函数来实现,复杂转换可以通过编写脚本或结合其他语言的扩展来实现,并且 DataStage 提供调试环境,可以极大提高开发和调试抽取、转换程序的效率。

Datastage 操作界面

181d0a86-d3ef-11ed-bfe3-dac502259ad0.png

对元数据的支持:Datastage 是自己管理 Metadata,不依赖任何数据库。

数控制:Datastage 可以对每个 job 设定参数,并且可以 job 内部引用这个参数名。

数据质量:Datastage 有配套用的 ProfileStage 和 QualityStage 保证数据质量。

定制开发:提供抽取、转换插件的定制,Datastage 内嵌一种类 BASIC 语言,可以写一段批处理程序来增加灵活性。

修改维护:提供图形化界面。这样的好处是直观、傻瓜式的;不好的地方就是改动还是比较费事(特别是批量化的修改)。

Datastage 包含四大部件:

Administrator:新建或者删除项目,设置项目的公共属性,比如权限。

Designer:连接到指定的项目上进行 Job 的设计;

Director:负责 Job 的运行,监控等。例如设置设计好的 Job 的调度时间。

Manager:进行 Job 的备份等 Job 的管理工作。

6.Sqoop

Sqoop 是 Cloudera 公司创造的一个数据同步工具,现在已经完全开源了。

目前已经是 hadoop 生态环境中数据迁移的首选 Sqoop 是一个用来将 Hadoop 和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 :MySQL ,Oracle ,Postgres 等)中的数据导入到 Hadoop 的 HDFS 中,也可以将 HDFS 的数据导入到关系型数据库中。

183b24ee-d3ef-11ed-bfe3-dac502259ad0.png

他将我们传统的关系型数据库 | 文件型数据库 | 企业数据仓库 同步到我们的 hadoop 生态集群中。

同时也可以将 hadoop 生态集群中的数据导回到传统的关系型数据库 | 文件型数据库 | 企业数据仓库中。

那么 Sqoop 如何抽取数据呢?

1867472c-d3ef-11ed-bfe3-dac502259ad0.png

首先 Sqoop 去 rdbms 抽取元数据。

当拿到元数据之后将任务切成多个任务分给多个 map。

然后再由每个 map 将自己的任务完成之后输出到文件。

7.FineDataLink

FineDataLink是国内做的比较好的ETL工具,FineDataLink是一站式的数据处理平台,具备高效的数据同步功能,可以实现实时数据传输、数据调度、数据治理等各类复杂组合场景的能力,提供数据汇聚、研发、治理等功能。

FDL拥有低代码优势,通过简单的拖拽交互就能实现ETL全流程。

1881bdbe-d3ef-11ed-bfe3-dac502259ad0.png

FineDataLink——中国领先的低代码/高时效数据集成产品,能过为企业提供一站式的数据服务,通过快速连接、高时效融合多种数据,提供低代码Data API敏捷发布平台,帮助企业解决数据孤岛难题,有效提升企业数据价值。

8.canal

canal [kə'næl],译意为水道/管道/沟渠,主要用途是基于 MySQL 数据库增量日志解析,提供增量数据订阅和消费。

18a6279e-d3ef-11ed-bfe3-dac502259ad0.png

早期阿里巴巴因为杭州和美国双机房部署,存在跨机房同步的业务需求,实现方式主要是基于业务 trigger 获取增量变更。从 2010 年开始,业务逐步尝试数据库日志解析获取增量变更进行同步,由此衍生出了大量的数据库增量订阅和消费业务。

基于日志增量订阅和消费的业务包括:

数据库镜像

数据库实时备份

索引构建和实时维护(拆分异构索引、倒排索引等)

业务 cache 刷新

带业务逻辑的增量数据处理

当前的 canal 支持源端 MySQL 版本包括 5.1.x , 5.5.x , 5.6.x , 5.7.x , 8.0.x。

18bf22e4-d3ef-11ed-bfe3-dac502259ad0.png

MySQL master 将数据变更写入二进制日志( binary log, 其中记录叫做二进制日志事件binary log events,可以通过 show binlog events 进行查看)。

MySQL slave 将 master 的 binary log events 拷贝到它的中继日志(relay log)。

MySQL slave 重放 relay log 中事件,将数据变更反映它自己的数据。

canal 工作原理

canal 模拟 MySQL slave 的交互协议,伪装自己为 MySQL slave ,向 MySQL master 发送dump 协议

MySQL master 收到 dump 请求,开始推送 binary log 给 slave (即 canal )

canal 解析 binary log 对象(原始为 byte 流)







审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • ETL
    ETL
    +关注

    关注

    0

    文章

    24

    浏览量

    10016
  • JAVA语言
    +关注

    关注

    0

    文章

    138

    浏览量

    21354
  • HDFS
    +关注

    关注

    1

    文章

    32

    浏览量

    10074
  • 调度器
    +关注

    关注

    0

    文章

    99

    浏览量

    5637

原文标题:8 种主流数据迁移工具技术选型,yyds!

文章出处:【微信号:芋道源码,微信公众号:芋道源码】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    无质量损失的数据迁移:Nikon SLM Solutions信赖3Dfindit企业版

    数据迁移,并从另外两个应用中获益:战略性零部件管理和ECAD集成。作为金属增材制造集成解决方案的全球供应商,该公司被认为是选区激光熔化技术的先驱。其创新技术被广泛应用于各行各业,包括
    发表于 11-25 10:06

    新型超快速单脉冲技术解决传统迁移率测量挑战

    沟道有效迁移率 (µeff) 通过载流子速度和驱动电流影响MOSFET性能。它是互补金属氧化物半导体的关键参数之一 (CMOS) 技术。 随着新型介电材料的出现,传统的迁移率评估测量技术
    的头像 发表于 11-17 13:58 2955次阅读
    新型超快速单脉冲<b class='flag-5'>技术</b>解决传统<b class='flag-5'>迁移</b>率测量挑战

    8常用的CRC算法分享

    CRC 计算单元可按所选择的算法和参数配置来生成数据流的 CRC 码。有些应用中,可利用 CRC 技术来验证数据的传输和存储的完整性。 8
    发表于 11-13 07:25

    分钟部署、秒级预警、一键迁移!三大厂商PLC新品加速迭代

    knowhow的前提下实现控制系统平稳升级。   在此背景下,对可编程逻辑控制器(PLC)的选型提出更高要求,汇川技术指出,传统产线的升级改造有以下四大需求,一是工程数据平稳迁移:无缝
    的头像 发表于 10-11 09:24 6862次阅读
    分钟部署、秒级预警、一键<b class='flag-5'>迁移</b>!三大厂商PLC新品加速迭代

    华大电子支持的主流开发工具有哪些

    华大电子支持的主流开发工具
    的头像 发表于 09-28 10:43 318次阅读
    华大电子支持的<b class='flag-5'>主流</b>开发<b class='flag-5'>工具</b>有哪些

    微电子所在芯粒集成电迁移EDA工具研究方向取得重要进展

    随着高性能人工智能算法的快速发展,芯粒(Chiplet)集成系统凭借其满足海量数据传输需求的能力,已成为极具前景的技术方案。该技术能够提供高速互连和大带宽,减少跨封装互连,具备低成本、高性能等显著
    的头像 发表于 09-01 17:40 494次阅读
    微电子所在芯粒集成电<b class='flag-5'>迁移</b>EDA<b class='flag-5'>工具</b>研究方向取得重要进展

    载流子迁移率提高技术详解

    在高k金属栅之外,另一等效扩充的方法是增加通过器件沟道的电子或空穴的迁移率。表2.5列举了一些提高器件载流子迁移率的手段及其对 PMOS或者 NMOS的作用。
    的头像 发表于 05-30 15:19 1044次阅读
    载流子<b class='flag-5'>迁移</b>率提高<b class='flag-5'>技术</b>详解

    博鼎弹簧发布数字目录实现稳定高效且易于操作的技术数据管理

    CADENAS****技术颠覆产品数据提供方式:一全新的、行业领先的数字目录 Mollificio Bordignon公司是一家以生产各种高质量弹簧而闻名的公司,为了进一步提高产品数据
    发表于 05-23 10:52

    灵动微电子MM32MCU的主流型芯片选型

    灵动微电子MM32系列32位MCU已经在江湖上久负盛名,以产品平台化、系列化、兼容性好、性价比高、易于开发著称。MM32MCU分为超值型、主流型、性能型、低功耗、汽车控制、电机与电源等六大系列。今天给大家综合介绍MM32MCU的主流型芯片
    的头像 发表于 05-06 13:32 1894次阅读
    灵动微电子MM32MCU的<b class='flag-5'>主流</b>型芯片<b class='flag-5'>选型</b>

    中软国际推出金融数据信创迁移与集成解决方案

    随着国家对信息技术应用创新战略的深入推进,金融行业作为国民经济的重要支柱,成为国产化替代的关键领域。这一转型过程面临着国产化产品选型复杂、传统系统与信创平台兼容性不足、数据迁移风险高、
    的头像 发表于 04-10 16:08 803次阅读

    LCR测试仪数据传输接口类型选型指南

    LCR测试仪作为电子元件参数测量的核心工具,其数据传输接口直接影响测试效率、系统集成能力和数据管理灵活性。随着自动化测试和智能制造需求的提升,理解不同接口的技术特性、应用场景及
    的头像 发表于 04-01 15:16 650次阅读
    LCR测试仪<b class='flag-5'>数据</b>传输接口类型<b class='flag-5'>选型</b>指南

    hyper v迁移,hyper v迁移的教程,hyper-v批量管理工具的使用教程

    力支持,成为企业关注的重点。批量管理虚拟机技术通过整合管理资源,实现对虚拟机的集中监控和批量操作,提高IT资源的利用率,为企业业务发展提供坚实保障。接下来和大家一起探索hyperv迁移的教程。    hyperv迁移的教程:  
    的头像 发表于 01-23 13:41 966次阅读
    hyper v<b class='flag-5'>迁移</b>,hyper v<b class='flag-5'>迁移</b>的教程,hyper-v批量管理<b class='flag-5'>工具</b>的使用教程

    HarmonyOS Next 应用元服务开发-分布式数据对象迁移数据文件资产迁移

    使用分布式数据对象迁移数据,当需要迁移数据较大(100KB以上)或需要迁移文件时,可以使用分布式数据
    发表于 12-24 10:11

    HarmonyOS Next 应用元服务开发-分布式数据对象迁移数据权限与基础数据

    使用分布式数据对象迁移数据,当需要迁移数据较大(100KB以上)或需要迁移文件时,可以使用分布式数据
    发表于 12-24 09:40

    维谛技术:如何让贵州医科大学数据中心迁移0业务影响?

    ——数据中心迁移做到了高效、快捷,甚至“无感”,而且实现了PUE﹤1.25的节能目标。如此顺滑的数据中心迁移,出色的PUE水平,贵州医科大学是如何做到的?1、新旧
    的头像 发表于 12-18 15:20 696次阅读
    维谛<b class='flag-5'>技术</b>:如何让贵州医科大学<b class='flag-5'>数据</b>中心<b class='flag-5'>迁移</b>0业务影响?