公司之前做数据处理的场景,基本上一台机器可以解决,是通过一些脚本把要处理的数据文件放在机器的某个路径下,然后用 python 程序去做业务逻辑,比如去关联 mysql 中的规则进行匹配,然后更新界面使用的 mongodb 、es 这类存储系统,不只是增量的更新,是有业务逻辑的,比如把 monogdb 数据查询出来,然后对比,更新,记录之类的。 最近项目数据量比较巨大,我想知道这套代码可以用 hdfs+spark 平替吗,用 spark 来写 python 这种业务逻辑,会不会有啥问题呢。。。会有这个疑问的原因是因为,之前用 spark 就是来操作 hive ,或者 hdfs 数据的,然后直接增量覆盖到 hive 或者 es ,没有复杂的和数据库交互太多的业务逻辑,spark 是分布式计算,会不会有啥事务安全问题啥的。。。有点想不明白。 Spark, 逻辑, Python, Hive