虚心求教，数据量上亿的爬虫数据用什么该用什么数据库呢

查看 750|回复 40

作者：morost 发布时间：2024-5-15 15:03:41

本来数据量小的时候用的就是 MySQL ，后来爬虫做过升级后，无论是广度和深度都有了改进，数据量慢慢已经来到了亿级，查询越来越慢，只能一直加索引来加快查询速度，但是这不是长久之计，准备从数据库上改善这个问题。
希望更换一个对于大数据量支持友好的数据库，奈何本人这方面了解的确实不多，希望各位 v 友给点建议。

pota 2024-5-15 15:04:25

放 es 里面？

tikazyq 2024-5-15 15:05:19

mongodb

me1onsoda 2024-5-15 15:06:07

tidb?

sagaxu 2024-5-15 15:06:45

索引质量低导致查询慢，索引太多导致插入慢，换 DB 可能解决不了

gazi 2024-5-15 15:07:27

不知道数据特性和数据结构，是否经常删改，经常聚合分析，使用场景也不清楚不好推荐。
我们在用 Clickhouse, 朋友在用 StarRocks 。可以了解对比一下

morost

2024-5-15 15:08:15

@sagaxu 是数据量大—①—>查询慢—②—>加索引，这个逻辑链，现在想解决第一个传导逻辑。

sagaxu 2024-5-15 15:09:13

数据量大查询慢，是因为索引质量低

morost

2024-5-15 15:09:51

@gazi 图片和视频（均为链接）数据，使用场景目前最主要是就是下载和更新状态

morost

2024-5-15 15:10:49

@sagaxu #7 那只需要建立高质量索引就不需要更换 db 了这个意思嘛，我一开始是认为 MySQL 对于大数据量的支持不是很友好才想要更换 db 的

虚心求教，数据量上亿的爬虫数据用什么该用什么数据库呢

浏览过的版块

热门主题

闲得蛋疼了，把mysql换成mariadb了

豆包有点意思.刚问他网站每天更新多少篇文

用龙虾.每天帮我生成2篇文章怎么样?

4414论坛为什么不能交易域名和网站

BA的二级域名能绑定国外主机不

能做炒股类的微信公众号吗

出售几个数字域名，想要的联系

raidrive有人用吗

CasOS：自带控制面的容器云平台——不用先

现在做网址导航的站长还有没有，进来交流一

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则

虚心求教，数据量上亿的爬虫数据用什么该用什么数据库呢

浏览过的版块

热门主题

闲得蛋疼了，把mysql换成mariadb了

豆包有点意思.刚问他网站每天更新多少篇文

用龙虾.每天帮我生成2篇文章怎么样?

4414论坛为什么不能交易域名和网站

BA的二级域名能绑定国外主机不

能做炒股类的微信公众号吗

出售几个数字域名，想要的联系

raidrive有人用吗

CasOS：自带控制面的容器云平台——不用先

现在做网址导航的站长还有没有，进来交流一

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿 投放广告

Yoo趣儿网站用户应遵守规则

在 Yoo趣儿投放广告