如何使用ApacheHudi和Debezium构建健壮的CDC管道

这篇文章将为大家详细讲解有关如何使用Apache Hudi和Debezium构建健壮的CDC管道，文章内容质量较高，因此小编分享给大家做个参考，希望大家阅读完这篇文章后对相关知识有一定的了解。

网站设计制作、成都网站建设的关注点不是能为您做些什么网站，而是怎么做网站，有没有做好网站，给创新互联一个展示的机会来证明自己，这并不会花费您太多时间，或许会给您带来新的灵感和惊喜。面向用户友好，注重用户体验，一切以用户为中心。

一篇在Bangalore Hadoop Meetup上分享的使用Apache Hudi和Debezium构建CDC管道，分享者是Apache Hudi社区活跃贡献者Pratyaksh。

如何使用Apache Hudi和Debezium构建健壮的CDC管道

CDC（CHANGE DATA CAPTURE）：是一种软件设计模式，用于确定和跟踪已变更的数据，以便可以对更改后的数据采取措施，一个简单的示例是捕获MySQL变更的记录，然后导入数据湖。

如何使用Apache Hudi和Debezium构建健壮的CDC管道

业务部门要求获取业务洞察力；服务所有者随着时间的推移要求验证记录的每个版本，数据工程师要求建立维护成本低的管道以从事务处理系统（MySQL， Postgres，Cassandra，Mongo）到分析系统（HDFS）CDC具有低延迟。CDC具有如下优势，事件处理，实时分析和展示板，审计日志，24小时负载工作。

如何使用Apache Hudi和Debezium构建健壮的CDC管道

对于CDC有不同的方案，如基于日志的Debezium和基于查询的JDBC Connector，如Sqoop，大多数公司在使用Sqoop来处理数据，处理数据源的模式变更并处理文件存储格式，但很难处理CSV等格式。

如何使用Apache Hudi和Debezium构建健壮的CDC管道

在过去，考虑到必须放弃开放性和社区支持，我们因此使用了Maxwell。

只要避免高频流处理，NiFi是一个很好的数据流工具，它具有很高的IO，因此磁盘可能成为瓶颈并且没有数据冗余，所以应该配置AWS EBS，此外，我们还必须给CatpureChangeMySql处理器打patch以便处理内存缓冲。

Debezium是一个得到了redhat支持的活跃项目。它基于KafkaConnect构建，并支持SQL和NoSql数据库，它通过合并SQL info模式和Alter语句来更新已缓存的模式。

Bootstrap：由于binlog/WAL不会保留太久，因此是在首次启动时会处理整个数据库快照。

如何使用Apache Hudi和Debezium构建健壮的CDC管道

Databricks最近开源的Delta.io（前不久才支持Presto和Authena。Uber开源Apache hudi，存储格式只具有重写拆分功能（Athena）的parquet文件输入格式。Parquet格式-看起来有争议-但Spark社区（DS）的文件格式演变更好。Hive–尽管获得LLAP支持，但感觉仍然很慢（MR，TEZ）

如何使用Apache Hudi和Debezium构建健壮的CDC管道