断点续爬中的去重问题

查看 57|回复 3
作者:hard2reg   
没有用爬虫框架纯手撸 python 代码。
如果我在读取上次异常终止的参数后,插入数据库时检查记录是否存在( if exists ),是否会很影响整体速度?虽然每条数据都会有一个唯一 id 。需要爬的最终数据条数应该在几百万级(单指存 id 的表)。

断点续爬, exists, Python, 条数

hard2reg
OP
  
id 设置主键索引了。如果是我杞人忧天了请告诉我。
lisxour   
把 id 放 redis 去重会比较好
lisxour   
@lisxour 说错,url
您需要登录后才可以回帖 登录 | 立即注册

返回顶部