mysql 小白请教大佬一个问题

作者：shrugginG 发布时间：2024-9-7 18:02:30

首先 mysql 环境是我购买的腾讯云学生 TDSQL,1c1g60G 。
最开始我创建了一张表：
-- auto-generated definition
create table phishtank_database
(
id             int auto_increment
      primary key,
phish_id       int                               not null,
url             varchar(2048)                      not null,
url_sha256       char(64)                         not null,
phish_detail_url  varchar(2048)                      not null,
submission_time datetime                         not null,
verified       varchar(255)                      not null,
verification_time datetime                         not null,
online          varchar(255)                      not null,
target          varchar(255)                      not null,
created_at       timestamp default CURRENT_TIMESTAMP not null,
etag             varchar(255)                      not null,
constraint url_sha256_unique
      unique (url_sha256)
)
charset = utf8mb4;
因为为了保证 url 是唯一的，给 url_sha256 加了唯一约束，我是有一个 github action 定时抓取最新的 url 到数据库中的，已经执行了好几个月没有问题。但是突然最近疯狂报错，我一看是现在批量 insert 的速度太慢。我的批量 insert 模板就是：
insert ignore into phishing_intelligence.phishtank_database (phish_id, url, url_sha256, phish_detail_url, submission_time , verified, verification_time, online, target, etag) values (?, ?, ?, ?, ? , ?, ?, ?, ?, ?),(?, ?, ?, ?, ? , ?, ?, ?, ?, ?),......
我测试了单个 insert into 需要 2s 出头，有一次批量插入 300 余条记录花费了 18min 。
然后我看腾讯云控制台中有一次慢 sql 执行竟然扫描了 7 亿多行。
我很自然会想到由于是需要检查唯一索引 url_sha256 每次插入都需要全表扫描+重建索引。随着数据量增加（但其实现在这个表中也只有 10w 出头的行）执行时间逐渐变长。而且我现在手动执行一次上述 instert 语句然后在实时监控中看到每秒的 innodb_rows_read 在 10w+。
但是我转头一想，既然 url_sha256 是唯一索引，那我这条语句岂不是逻辑上可以分两步：
[ol]

先检查本条 url_sha256 是否存在，存在就直接 ignore （我理解的因为有索引的存在这个过程应该很快）

如果不存在就直接在表尾插入新数据。（因为我的主键是自增 ID ，按照聚簇的话是不是新数据就追加在最后面？）
如果按照上述逻辑的话是不是就不应该有大量全表扫描的操作了？难道是插入完毕后重建索引的操作需要大量的全表扫描？
[/ol]
原谅我数据库知识太欠缺了，我知道上面很多推测只是我片面认识的结果，希望能有大佬帮忙解答一下:
[ol]

上面的逻辑是不是存在问题

是不是我购买的低配置的 tqsql 硬件配置制约了插入的速度？必须提升硬件配置才有可能解决

大佬有没有其他解决方案可以赐教
[/ol]

Gilgamesh7 2024-9-7 18:03:03

1. 看能不能增加一个 redis ，将所有的 url redis 里面缓存，每次入库前，在 redis 里面检查数据是否重复，去重后直接入库，修改 url 字段为唯一约束。去掉 url_sha256 。
2. url 字段增加索引，假设不存在并发写入的情况下，每次入库前，进行 in 查询，过滤掉重复数据。
3. 减少批量插入的数量，单个 insert into 需要 2s 出头这个包含获取 url 的时间吗，正常 1 条记录插入应该在 ms 级

shrugginG

OP

2024-9-7 18:03:39

@Gilgamesh7 感谢大佬，2s 是不包含获取 url 的时间的，就是单纯的 sql 执行时间

mysql 小白请教大佬一个问题

浏览过的版块

热门主题

求推荐 300 价位电视盒子

[分享] 纯前端撸了一个「交互式哺乳动物演

她说离婚原因是男的挣不到钱

这是缅北开发的游戏…

短视频里，高速现在都开始堵车了啊，大家都

百度统计或者cnzz的数据，来源分析，直接访

必应移动端有流量的吗？

发现了很多这种后缀的的百度收录，是怎么做

我看那个huoban网站权重被百度干没了。。。

按 Ctrl 好累？我不是一个人吧

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则

mysql 小白请教大佬一个问题

浏览过的版块

热门主题

求推荐 300 价位电视盒子

[分享] 纯前端撸了一个「交互式哺乳动物演

她说离婚原因是男的挣不到钱

这是缅北开发的游戏…

短视频里，高速现在都开始堵车了啊，大家都

百度统计或者cnzz的数据，来源分析，直接访

必应移动端有流量的吗？

发现了很多这种后缀的的百度收录，是怎么做

我看那个huoban网站权重被百度干没了。。。

按 Ctrl 好累？我不是一个人吧

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿 投放广告

Yoo趣儿网站用户应遵守规则

在 Yoo趣儿投放广告