需要从不同的数据源或者 mq 队列来获取数据的变化,然后同步到数据仓库,再把数据清洗和整理成不同维度的中间表,最终再提供不同接口给不同的调用方获取统计数据。
另外数据同步的这些 job 、数据统计整理的任务调度、还有提供的 rest 接口等到需要整合到原来的一个 springboot 系统中。
现在考虑数据采集同步这块采用 Flink cdc 。问题在于纠结是新部署 flink 集群来处理,还是直接只把 flink cdc 整合到该 springboot 项目中。
如果放到 flink 集群中,怎么在原来的 springboot 项目中管理这些 job ?(启停/状态/同步的行数等)
如果整合到 springboot 中,部署多服务器节点,怎么保证数据不重复采集?