虚心求教,数据量上亿的爬虫数据用什么该用什么数据库呢

查看 387|回复 40
作者:morost   
本来数据量小的时候用的就是 MySQL ,后来爬虫做过升级后,无论是广度和深度都有了改进,数据量慢慢已经来到了亿级,查询越来越慢,只能一直加索引来加快查询速度,但是这不是长久之计,准备从数据库上改善这个问题。
希望更换一个对于大数据量支持友好的数据库,奈何本人这方面了解的确实不多,希望各位 v 友给点建议。
pota   
放 es 里面?
tikazyq   
mongodb
me1onsoda   
tidb?
sagaxu   
索引质量低导致查询慢,索引太多导致插入慢,换 DB 可能解决不了
gazi   
不知道数据特性和数据结构,是否经常删改,经常聚合分析,使用场景也不清楚 不好推荐。
我们在用 Clickhouse, 朋友在用 StarRocks 。可以了解对比一下
morost
OP
  
@sagaxu 是数据量大—①—>查询慢—②—>加索引,这个逻辑链,现在想解决第一个传导逻辑。
sagaxu   
数据量大查询慢,是因为索引质量低
morost
OP
  
@gazi 图片和视频(均为链接)数据,使用场景目前最主要是就是下载和更新状态
morost
OP
  
@sagaxu #7 那只需要建立高质量索引就不需要更换 db 了这个意思嘛,我一开始是认为 MySQL 对于大数据量的支持不是很友好才想要更换 db 的
您需要登录后才可以回帖 登录 | 立即注册

返回顶部