Java8 使用 easyExcel 导入 4g 大小的 csv 文件

查看 150|回复 3

作者：jiangboyueplus 发布时间：2024-4-17 03:05:14

粗略观测，在没完成导入前内存占用已经超 48g 。粗略估算好像是因为我需要将所有的行记录都放到一个 list ，最后聚合处理，这个 list 至少有 9 千万条以上的记录。
以上，何解？
1.多次读取每次只保存需要聚合的数据的一部分.缺点，同一个文件要读好多次预计会非常耗时
2.每次读取一行记录都存入数据库，最后从数据库取用。缺点，需要额外的数据库表结构，且 mysql 单表存储也会有查询压力（可以考虑分表，但这个方案挺麻烦的）

imzhoukunqiang 2024-4-17 03:06:09

改动量最小的方案，用 mapdb ，把 list 映射到磁盘。

512357301 2024-4-17 03:07:03

对 Java 不熟，我的方案：
纯本地，sqlite 或 duckdb 或同类型方案
100 并发以内，clickhouse 或同类型 olap 方案
100 以上并发，出门左转找数据团队。

jiangboyueplus

2024-4-17 03:07:58

@imzhoukunqiang 作为一个数据导入的需求，我就喜欢改动最小的方案。我去了解下

Java8 使用 easyExcel 导入 4g 大小的 csv 文件

热门主题

经过连日来的奋战， puaclaw 的官网 puacla

移动狗贼/西药见效确实快

既然 Anthropic 明牌反华，为什么不直接封

模型api有没有便宜点的

面对不懂技术，强势的甲方要给你甩锅，你们

尝试给自己的 waifu 做了一个 vscode 主题

“十五五”规划都指明了未来重要领域，但感

明天股市能买了吗，今天美国股市涨了

我发现修电瓶车很暴利啊

4414论坛发帖回帖奖励少了后，在4414论坛打

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则

Java8 使用 easyExcel 导入 4g 大小的 csv 文件

热门主题

经过连日来的奋战， puaclaw 的官网 puacla

移动狗贼/西药见效确实快

既然 Anthropic 明牌反华，为什么不直接封

模型api有没有便宜点的

面对不懂技术，强势的甲方要给你甩锅，你们

尝试给自己的 waifu 做了一个 vscode 主题

“十五五”规划都指明了未来重要领域，但感

明天股市能买了吗，今天美国股市涨了

我发现修电瓶车很暴利啊

4414论坛发帖回帖奖励少了后，在4414论坛打

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿 投放广告

Yoo趣儿网站用户应遵守规则

在 Yoo趣儿投放广告