因为有 SEO 需要,翻了一下 github 没有找到能用的工具,发现一个项目 已经是 3 年前的了,没跑起来。索性自己写了脚本。
这个脚本会访问你启动的 spa 服务,查找页面的所有 a 标签,进行访问爬取。爬取的 html 内容会放到以域名为目录的文件夹下。
核心逻辑是根据 user_agent 字段,判断是否是爬虫,如果是爬虫访问,我们就把请求转发到另外一个专门为 bot 启动的 server 。
项目中也附带了 user_agent 判断的 nginx 配置, 可以参考复用。
如果你也有类似的需求,希望能节省你宝贵的时间。🥴
如果需求大的话, 后续考虑会集成插件,一键使用。