要对单个 6.20TB 的超大 csv 文件保持顺序的情况下进行去除重复行，有什么好思路？显然不可能加载进内存

查看 683|回复 39

作者：drymonfidelia 发布时间：2024-6-2 09:04:59

duckdb 值得拥有

xxfye 2024-6-2 09:05:45

扔数据库不行吗？

dcsuibian 2024-6-2 09:06:29

能想到的只有数据库

opengps 2024-6-2 09:07:04

内存里搞个哈希表，一行一行读 csv ，哈希表碰撞了就扔掉该行，没碰撞就插入哈希表再写到磁盘

buaasoftdavid 2024-6-2 09:07:42

表的结构是怎样的，有天然的主键吗

52boobs 2024-6-2 09:08:20

行数是多少？平均行长是多少？
去重是应该基于整行文本还是列内容？比如 1.0 和 1 是否应该算做重复？
每行前缀重复度是否够高？是否有某列（ XXID ）可以用于快速去重？
机器性能如何？内存有多大？

kneo 2024-6-2 09:09:09

spark 干的活？

securityCoding 2024-6-2 09:10:05

@kneo 行数是 203 亿，平均行长 335
去重是基于整行文本
前缀重复度不高，没有 ID
最高可以弄到 256GB 内存的服务器

drymonfidelia

2024-6-2 09:10:52

光就这点信息说个屁呢，一行 8 个字符，是几千亿行，一行 1M 字符，是几百万行，这能一样吗？
内存也不说，4KB 内存和 4GB 内存能一样吗？

phrack 2024-6-2 09:11:51

@phrack 8 楼补充了

要对单个 6.20TB 的超大 csv 文件保持顺序的情况下进行去除重复行，有什么好思路？显然不可能加载进内存

浏览过的版块

热门主题

你们有没有遇到和我一样的情况，用手机流量

落伍论坛的那些老站长，为何烟消云散了？

14亿人口的大中国，就这一个站长论坛了？不

黑五优惠促销 · S.EE 终身版限时优惠（59

iOS 版豆包输入法上线，豆包是怎么做到语音

Linveo 2025 黑五促销 AMD Ryzen 9 7950X/9

HostCram 2025 黑五促销 RYZEN 9 10Gbps 性

我在4414今天提现什么时候能到账

谷歌有时候是真的很操蛋

七牛云的服务器有人用过吗，这个价格很有吸

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则

要对单个 6.20TB 的超大 csv 文件保持顺序的情况下进行去除重复行，有什么好思路？显然不可能加载进内存

浏览过的版块

热门主题

你们有没有遇到和我一样的情况，用手机流量

落伍论坛的那些老站长，为何烟消云散了？

14亿人口的大中国，就这一个站长论坛了？不

黑五优惠促销 · S.EE 终身版限时优惠（59

iOS 版豆包输入法上线，豆包是怎么做到语音

Linveo 2025 黑五促销 AMD Ryzen 9 7950X/9

HostCram 2025 黑五促销 RYZEN 9 10Gbps 性

我在4414今天提现什么时候能到账

谷歌有时候是真的很操蛋

七牛云的服务器有人用过吗，这个价格很有吸

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿 投放广告

Yoo趣儿网站用户应遵守规则

在 Yoo趣儿投放广告