搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏FlinkCDC
FlinkCDC的探索与实践【SQL部分】2
本人开通付费的知识群，如果需要可以添加QQ：975863632，需要99.9元即可加入，添加需要备注【云雀课堂知识群】，这里可以获取到上面的源码，如果遇到问题可以一起解决，同时可以一起学习和进步。
1.6K00编辑于 2022-09-23
来自专栏FlinkCDC
FlinkCDC的探索与实践1
2000L));// //3.5 设置状态后端// env.setStateBackend(new FsStateBackend("hdfs://192.168.1.204:9000/flinkCDC sourceFunction); //5.数据打印 dataStreamSource.print(); //6.启动任务 env.execute("FlinkCDC
85000编辑于 2022-09-23
来自专栏大数据成神之路
FlinkCDC发展历程和简历中项目描述的思路
前两天，FlinkCDC 3.0版本发布。Flink CDC的定位也发生了变化，从捕获数据变更的Flink数据源正式迈向为以Flink为基础的端到端流式ELT数据集成框架。这些不是我们今天的重点。未来发展针对当前的一些现状，社区的Maintainer也在思考在FlinkCDC的不足，思考CDC乃至数据集成领域面临的技术挑战：历史数据规模大：数据库的历史数据规模大，100T+ 规模很常见增量数据实时性要求高数据的保序性：CDC 数据的加工结果通常需要强一致性语义，需要处理工具支持全局保序表结构动态变化：增量数据随时间增长，数据对应的表结构会不断演进最终，面向数据集成用户、面向端到端实时数据集成的框架FlinkCDC
60710编辑于 2023-12-26
来自专栏数据仓库践行者
Flink系列 - 实时数仓之FlinkCDC实现动态分流实战
自从Flink出了FlinkCDC之后，我们对数据库日志的采集就变得方便了许多了，除去了MaxWell、Cannel、OGG等第三方组件的繁琐配置，目前实现CDC有两种方式：HQL实现和 DataStreamAPI /flink-cdc-connectors/master/ 项目 -> https://github.com/ververica/flink-cdc-connectors 废话不多说，今天我们就使用 FlinkCDC 一、动态分流由于FlinkCDC是把全部数据统一写入一个Topic中, 这样显然不利于日后的数据处理。所以需要把各个表拆开处理。但是由于每个表有不同的特点，有些表是维度表，有些表是事实表。 delete".equals(type); } }); //TODO 4.使用FlinkCDC消费配置表并处理成 } // })); //TODO 9.启动任务 env.execute("BaseDBApp"); } 3.3）自定义反序列化类这里接触过FlinkCDC
3.4K20编辑于 2021-12-06
来自专栏DataLink数据中台
Dinky实践系列之FlinkCDC整库实时入仓入湖
整库入湖 Hudi 整库入仓 StarRocks 整库入库 MySQL 整库同步 Kafka 整库入库 PostgreSQL 整库入仓 ClickHouse 总结 Tips：历史传送门～《Dinky FlinkCDC
3K30编辑于 2023-02-26
来自专栏大数据成神之路
FlinkCDC发展历程和简历中项目描述的思路
前两天，FlinkCDC 3.0版本发布。Flink CDC的定位也发生了变化，从捕获数据变更的Flink数据源正式迈向为以Flink为基础的端到端流式ELT数据集成框架。这些不是我们今天的重点。未来发展针对当前的一些现状，社区的Maintainer也在思考在FlinkCDC的不足，思考CDC乃至数据集成领域面临的技术挑战：历史数据规模大：数据库的历史数据规模大，100T+ 规模很常见增量数据实时性要求高数据的保序性：CDC 数据的加工结果通常需要强一致性语义，需要处理工具支持全局保序表结构动态变化：增量数据随时间增长，数据对应的表结构会不断演进最终，面向数据集成用户、面向端到端实时数据集成的框架FlinkCDC
66010编辑于 2023-12-26
Apache Doris Flink Connector 24.0.0 版本正式发布
此外，整库同步所依赖的 FlinkCDC，也需升级至 3.1.x 版本，以便更好的应用。下载地址：https://github.com/apache/doris-flink-connector/releases/tag/24.0.0行为变更将整库同步所依赖的 FlinkCDC 版本升级至 FlinkCDC 3.1.x。由于 FlinkCDC 3.1 及后续版本已捐赠给 Apache 基金会，并与 FlinkCDC 2.4 版本不兼容，因此在升级 Doris Flink Connector 时，已运行的整库同步作业无法从之前的状态重启 SchemaChange 支持使用 JSQLParser 框架解析 DDL支持 Stream Load GZ 压缩导入支持通过 Arrow Flight SQL 读取 Doris 中数据改进提升升级 FlinkCDC
53410编辑于 2024-09-11
来自专栏大数据从业者
一文掌握教育行业FlinkCDC+Paimon实时湖仓案例实践总结
业务数据库为MySQL，最终方案为很经典的流式架构：Mysql -> FlinkCDC -> Paimon -> FlinkSQL。组件版本信息如下： MySQL 5.7.36 FlinkCDC 3.2.0 Paimon 0.9.0 Flink 1.18.1 欢迎关注微信公众号：大数据从业者 Paimon支持以多种形式FlinkCDC Flink部署路径：/home/myHadoopCluster/flink-1.18.1 FlinkCDC编译部署 git clone -b release-3.2.0 https://github.com
1.1K10编辑于 2024-10-14
来自专栏DataLink数据中台
Dinky在Doris实时整库同步和模式演变的探索实践
FlinkCDC 整库入仓挑战那 FlinkCDC 实时入仓又有哪些痛点和挑战呢？或者我们可以理解为 FlinkCDC 在整库入仓具备哪些挑战。 FlinkCDC 模式演变挑战此外，在整个实时入仓过程，用户还比较关注一点是自动模式演变。这也是 FlinkCDC 整库模式演变的挑战。 Doris 在 Dinky 中的应用—— FlinkCDC 整库入仓 Doris Dinky 实现了 FlinkCDC 整库入仓入湖的能力并对其进行了性能和成本优化。三、FlinkCDC 实时整库入仓那接下来将重点介绍 Dinky 在 FlinkCDC 整库入仓 Doris 的实现及优化细节。
7.1K40编辑于 2023-02-26
来自专栏腾讯云数据库(TencentDB)
毫秒级延时，MySQL 也可以做到的实时数据分析
对比 Flinks+Doris 目前业界常采用 FlinkCDC + Doris 方案实现实时分析。本文通过模拟测试，对比分析引擎与 Doris 在高频数据变更场景下的同步延迟&查询表现。 Doris 版本：3.0.5 Flink 版本：1.19.1 腾讯云数据库分析引擎： 3.2503.5.0 测试结果根据测试结果，可得出以下结论： ● 腾讯云数据库分析引擎以从库形式直接实时同步数据，而 FlinkCDC ● 分析引擎平均延迟稳定保持在百毫秒级别，而 FlinkCDC 方案的同步延迟高达 9 秒以上。 ● FlinkCDC 在同步 DDL 至 Doris 时支持有限，部分列变更场景需人工干预。因此，传统 ETL + 数仓方案通常需引入数据攒批以规避高频写入对查询的影响，这也是 FlinkCDC 同步至 Doris 延迟较高的根本原因。尽管多数数仓已增强 DDL 支持，仍存在诸多局限： ● 使用 FlinkCDC 同步 MySQL 数据时，通常需手动在 Doris 中执行 Schema Change。
42010编辑于 2025-09-30
来自专栏DataLink数据中台
【用户投稿】Dinky整库同步Mysql至StarRocks
2.3.0.jar（不包含依赖jar）确保 flink standalone 集群在 dinky 正常注册，心跳正常三、数据准备 Mysql数据准备 -- 创建数据库 CREATE DATABASE `flinkcdc ` DEFAULT CHARACTER SET utf8 COLLATE utf8_general_ci; -- 使用指定数据库 use `flinkcdc` ; -- 创建表 CREATE TABLE `t_user` (`id`, `user_name`, `age`) VALUES (3, 'dsd', 23); StarRocks数据准备 -- 创建数据库 CREATE DATABASE `flinkcdc checkpoint' = '3000', 'scan.startup.mode' = 'initial', 'parallelism' = '1', 'database-name' = 'flinkcdc ', 'table-name' = 'flinkcdc\.t_user', 'sink.connector' = 'starrocks', 'sink.jdbc-url' = 'jdbc:mysql
1.7K20编辑于 2023-09-22
来自专栏DataLink数据中台
Flink CDC 和 kafka 进行多源合并和下游同步更新
内容包括：前言环境查看文档新建 FlinkCDC 的 DataStream 项目自定义序列化类总线 kafka Dinky 开发和提交作业查看结果总结一、前言本文主要是针对 Flink 四、新建 FlinkCDC 的 DataStream 项目 import com.alibaba.ververica.cdc.connectors.mysql.MySQLSource; import com.alibaba.ververica.cdc.connectors.mysql.table.StartupOptions StreamExecutionEnvironment.getExecutionEnvironment(); env.setParallelism(1); //1.1 设置 CK&状态后端 //略 //2.通过 FlinkCDC streamSource.addSink(getKafkaProducer("10.1.64.156:9092",sinkTopic)); //4.启动任务 env.execute("FlinkCDC TypeInformation<String> getProducedType() { return BasicTypeInfo.STRING_TYPE_INFO; } } OK，运行 flinkCDC
3.8K40编辑于 2022-02-10
来自专栏布衣者博客
FlinkCDC/DEBEZIUM自定义日期转换器
Flinkcdc研究最近在研究Flinkcdc数据采集，底层技术为debezium，debezium会将日期转为5位数字，日期时间位13位的数字，看之前代码解决办法是： 1.识别十三位数字进行转换为日期格式 flinkcdc 可使用源代码也可使用编译好的jar包。只需要放入目录即可。并在配置中设置参数。
4.1K30编辑于 2023-02-13
来自专栏DataLink数据中台
Dinky 构建 Flink CDC 整库入仓入湖
近日，目标要成为 FlinkSQL 最佳搭档的 Dinky 也带来了 FlinkCDC 整库入仓入湖的实践，快一起来试用和改进下吧~ 二、痛点 Flink CDC 的入湖入仓的痛点由《Flink CDC 2.手工映射表结构易出错通过 FlinkCDC 构建同步任务时，需要手工映射 Mysql 等表结构到 Flink DDL，当表和字段数目非常多时，开发和维护的成本将线性增加。 3.Schema 变更导致入湖链路难以维护表结构的变更是经常出现的事情，但它会使已存在的 FlinkCDC 任务丢失数据，甚至导致入湖链路挂掉。 4.整库入湖整库入湖是一个炙手可热的话题了，目前通过 FlinkCDC 进行会存在诸多问题，如需要定义大量的 DDL 和编写大量的 INSERT INTO，更为严重的是会占用大量的数据库连接，对 Mysql 通过 Schema Evolution 使 FlinkCDC 支持实时同步 schema 变更。通过 CDAS 语法，一行 SQL 语句完成整库同步作业的定义，并合 source。
5.5K20编辑于 2022-05-19
来自专栏Tapdata
TapData Oracle 日志解析性能全面领先：20秒处理1GB日志，效率提升100%——释放数据潜能，驱动实时决策
然而，研发团队并未止步于现有的优势，而是通过深度优化解析引擎、采用更高效的算法架构，并增强数据处理并行度，将解析速度提升至行业新高度，核心数据对比如下：产品 TapData 某国产产品 FlinkCDC 从中我们可以看到，TapData 的解析速度是该国产产品的2倍，是 FlinkCDC 的近8倍！规模化优势：若每日处理100GB日志，TapData可节省 0.6小时/天（对比该国产产品）或 3.6小时/天（对比FlinkCDC），显著加速数据流转。
21810编辑于 2025-03-28
来自专栏Apache Doris
一键实现 Oracle 数据整库同步至 Apache Doris
FlinkCDC：该方式虽然可以直接将上游数据同步到 Doris 中，并在一定程度上缩短了同步链路，实际在使用过程中还会遇到以下问题：数据同步时，需要在 Flink 中对每张表手动配置参数及字段映射为了解决上述问题，在新版本的 Doris-Flink-Connector 中，我们实现了 FlinkCDC 的 Datastream API 集成，无需提前在 Doris 中创建表以及映射关系，仅仅通过简单的参数配置就能一键完成从通过 FlinkCDC 提供的 OracleSource 功能，能够从 Oracle 数据库中读取数据，并将其传递到下游进行处理。期间我们也尝试了 FlinkCDC，该方式虽然可以实现数据实时写入 Doris ，但每个表都需要手动创建新任务，配置工作量大且会浪费服务器资源。 —— 博思软件资深大数据开发工程师刘工总结 Doris-Flink-Connector 通过集成 FlinkCDC，能够将上游 Oracle 数据库中的数据快速同步到 Doris 中。
2.7K21编辑于 2023-08-23
来自专栏DataLink数据中台
Dinky 扩展 iceberg 的实践分享
) 与hive元数据互通） iceberg-mr-0.13.1 用于集成hive数仓 (iceberg (hadoop_catalog) 与hive元数据互通) 三、案例本案例为 FlinkCDC flink-sql-connector-kafka_2.12-1.13.5.jar ,kafka-clients-3.1.0.jar,kafka_2.12-3.1.0.jar 用于 flink 打通 kafka 2.创建 FlinkCDC_Kafka_Env FlinkSQLEnv 在 Dinky 上创建 FlinkCDC_Kafka_Env 环境文件（FlinkSqlEnv文件） USE CATALOG default_catalog; use default_database 'changelog-json'/*数据json格式解析*/ , 'sink.parallelism'='1'/*并行度设置*/ ); 3.指定 Mysql 表和 Kafka 表 4.创建 FlinkCDC_Kafka_Sql 作业在 Dinky 上创建 FlinkCDC_Kafka_Sql 文件（ FlinkSQL 类型文件） set jobmanager.memory.process.size= 1024m; set
2K10编辑于 2022-09-02
来自专栏C博文
覆盖迁移工具选型、增量同步策略与数据一致性校验
"network_usage": stats.network_total } # 测试结果 results = [] for tool in ["Debezium", "Canal", "FlinkCDC 吞吐量(rec/s) CPU使用率内存峰值(GB) 网络流量(GB) 断点精度 Debezium 85,000 63% 4.2 98 事务级 Canal 72,000 58% 3.8 102 行级 FlinkCDC 120,000 78% 5.1 89 事务级 DataX 45,000 42% 2.3 110 文件级关键结论：实时场景首选：FlinkCDC（高吞吐）资源敏感场景：Canal（平衡性好实时场景优先考虑FlinkCDC和Debezium组合；批量场景根据数据量选择工具；云环境可直接使用托管服务。混合云架构建议采用开源方案保持灵活性。通过本文的深度探索，我们得出以下核心结论：工具选型需场景化：没有万能工具，实时场景选FlinkCDC，批量迁移用DataX，云环境优先托管服务增量同步核心在可靠性：乱序处理：分区键+时间窗口
45410编辑于 2025-07-15
来自专栏数栈技术分享
开源共建 | 中国移动冯江涛：ChunJun（原FlinkX）在数据入湖中的应用
Q：FlinkX 相较于 FlinkCDC 优势在哪里？ A：单说 FlinkCDC 他只是支持结构化数据增量更新，FlinkX 如果是 1.12 版本它跟 FlinkCDC 之间的插件一些是共用的，然后他相较于原生的 FlinkCDC 做了一些扩展，特别是它会支持很多国产的数据库，比如达梦，FlinkCDC 目前还不支持。
1.1K50编辑于 2022-11-23
来自专栏数栈技术分享
开源共建 | 中国移动冯江涛：ChunJun（原FlinkX）在数据入湖中的应用
Q：FlinkX相较于FlinkCDC优势在哪里？ A：单说FlinkCDC他只是支持结构化数据增量更新，FlinkX如果是1.12版本它跟FlinkCDC之间的插件一些是共用的，然后他相较于原生的FlinkCDC做了一些扩展，特别是它会支持很多国产的数据库，比如达梦，FlinkCDC目前还不支持。
89430编辑于 2022-11-28

第 2 页第 3 页第 4 页

点击加载更多

FlinkCDC的探索与实践【SQL部分】2

FlinkCDC的探索与实践1

FlinkCDC发展历程和简历中项目描述的思路

Flink系列 - 实时数仓之FlinkCDC实现动态分流实战

Dinky实践系列之FlinkCDC整库实时入仓入湖

FlinkCDC发展历程和简历中项目描述的思路

Apache Doris Flink Connector 24.0.0 版本正式发布

一文掌握教育行业FlinkCDC+Paimon实时湖仓案例实践总结

Dinky在Doris实时整库同步和模式演变的探索实践

毫秒级延时，MySQL 也可以做到的实时数据分析

【用户投稿】Dinky整库同步Mysql至StarRocks

Flink CDC 和 kafka 进行多源合并和下游同步更新

FlinkCDC/DEBEZIUM自定义日期转换器

Dinky 构建 Flink CDC 整库入仓入湖

TapData Oracle 日志解析性能全面领先：20秒处理1GB日志，效率提升100%——释放数据潜能，驱动实时决策

一键实现 Oracle 数据整库同步至 Apache Doris

Dinky 扩展 iceberg 的实践分享

覆盖迁移工具选型、增量同步策略与数据一致性校验

开源共建 | 中国移动冯江涛：ChunJun（原FlinkX）在数据入湖中的应用

开源共建 | 中国移动冯江涛：ChunJun（原FlinkX）在数据入湖中的应用

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐