要对单个 6.20TB 的超大 csv 文件保持顺序的情况下进行去除重复行，有什么好思路？显然不可能加载进内存

查看 681|回复 39

yinmin 2024-6-2 09:19:57

1. hash
2. 加序号
3. 按照 hash 分区
4. 逐个处理分区
5. 分区内排序
6. 分区外归并排序
只有单机的话，可以考虑用 duckdb ，多机就用 spark 吧。

xxfye 2024-6-2 09:20:52

分治：
1 、用空间换时间（计算）
2 、用时间（计算）换空间
针对（ 1 ）有 spark 集群很快的，如果预算有限那么方法（ 2 ）：
1 、把数据分成 N 块，并针对 N 块内进行去重
2 、从 n 块中取一块，和剩下的 n-1 块去重，取这一块建立 hash or map 都可以，n-1 按照顺序读取
3 、从剩下的 n-1 块中又进行步骤（ 2 ），直到 n=0
4 、经过上述思路处理的 csv 就包含重复

yangxin0 2024-6-2 09:21:34

直接存入 kvrocks (硬盘版 redis)

caola 2024-6-2 09:22:09

单文件这么大，文件系统压力也不小吧。多数文件系统单文件也不支持这么大吧

dacapoday 2024-6-2 09:22:46

sed 有往下查找一样内容行并删除的工具都可以其它的都要内存或硬盘空间 vim 就差在它开启文件要暂存不然也可以

james122333 2024-6-2 09:23:18

磁盘够用的话，先外部排序，然后直接读取，忽略与上一条相同的数据就行了吧，随机读取文件指定位置，也不用加载进内存

YTMartian 2024-6-2 09:24:18

按顺序处理，依据一个合适长度的前缀做分区，逐行文本进行处理，写入到对应分区下面。
检索特定行文本，是否在对应分区内存在，不存在则写入，存在就返回已存在。

dode 2024-6-2 09:25:03

emeditor

chen7897499 2024-6-2 09:25:39

https://www.emeditor.com/text-editor-features/large-file-support/files-up-to-248gb/

chen7897499 2024-6-2 09:26:33

上面有人提到的 Bloom Filter 应该是相对最优的解法了，实现简单，占用内存低，速度也快。唯一的问题就是要选择合适的长度，将错误率降低，这需要一定的算法知识，不过现在可以问 AI 了，让 AI 给出公式

要对单个 6.20TB 的超大 csv 文件保持顺序的情况下进行去除重复行，有什么好思路？显然不可能加载进内存

浏览过的版块

热门主题

你们有没有遇到和我一样的情况，用手机流量

落伍论坛的那些老站长，为何烟消云散了？

14亿人口的大中国，就这一个站长论坛了？不

黑五优惠促销 · S.EE 终身版限时优惠（59

iOS 版豆包输入法上线，豆包是怎么做到语音

Linveo 2025 黑五促销 AMD Ryzen 9 7950X/9

HostCram 2025 黑五促销 RYZEN 9 10Gbps 性

我在4414今天提现什么时候能到账

谷歌有时候是真的很操蛋

七牛云的服务器有人用过吗，这个价格很有吸

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则

要对单个 6.20TB 的超大 csv 文件保持顺序的情况下进行去除重复行，有什么好思路？显然不可能加载进内存

浏览过的版块

热门主题

你们有没有遇到和我一样的情况，用手机流量

落伍论坛的那些老站长，为何烟消云散了？

14亿人口的大中国，就这一个站长论坛了？不

黑五优惠促销 · S.EE 终身版限时优惠（59

iOS 版豆包输入法上线，豆包是怎么做到语音

Linveo 2025 黑五促销 AMD Ryzen 9 7950X/9

HostCram 2025 黑五促销 RYZEN 9 10Gbps 性

我在4414今天提现什么时候能到账

谷歌有时候是真的很操蛋

七牛云的服务器有人用过吗，这个价格很有吸

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿 投放广告

Yoo趣儿网站用户应遵守规则

在 Yoo趣儿投放广告