要对单个 6.20TB 的超大 csv 文件保持顺序的情况下进行去除重复行,有什么好思路?显然不可能加载进内存

查看 473|回复 39
作者:drymonfidelia   
duckdb 值得拥有
xxfye   
扔数据库不行吗?
dcsuibian   
能想到的只有数据库
opengps   
内存里搞个哈希表,一行一行读 csv ,哈希表碰撞了就扔掉该行,没碰撞就插入哈希表再写到磁盘
buaasoftdavid   
表的结构是怎样的,有天然的主键吗
52boobs   
行数是多少?平均行长是多少?
去重是应该基于整行文本还是列内容?比如 1.0 和 1 是否应该算做重复?
每行前缀重复度是否够高?是否有某列( XXID )可以用于快速去重?
机器性能如何?内存有多大?
kneo   
spark 干的活?
securityCoding   
@kneo 行数是 203 亿,平均行长 335
去重是基于整行文本
前缀重复度不高,没有 ID
最高可以弄到 256GB 内存的服务器
drymonfidelia
OP
  
光就这点信息说个屁呢,一行 8 个字符,是几千亿行,一行 1M 字符,是几百万行,这能一样吗?
内存也不说,4KB 内存和 4GB 内存能一样吗?
phrack   
@phrack 8 楼补充了
您需要登录后才可以回帖 登录 | 立即注册

返回顶部