Wayback Archiver 自托管的个人网页归档系统

查看 5|回复 0
作者:codeface   
一个自托管的个人网页归档系统,自动捕获并保存你在 Chrome 中浏览过的网页 — HTML 、CSS 、JavaScript 、图片等一应俱全。当原始网页无法访问时,你仍然可以通过归档副本还原当时的页面样式和内容。



工作原理
Chrome + Tampermonkey ──HTTP POST──▶ Go 服务器 ──▶ PostgreSQL (元数据)
  (关闭标签页 / 页面跳转                │              + 文件系统 (静态资源)
   时自动捕获)                          │
                                        ▼
                                     Web UI ──▶ 浏览 / 搜索 / 还原
[ol]
  • Tampermonkey 用户脚本在浏览器中运行,当你离开页面时自动捕获完整的 DOM 和资源。
  • Go 服务器接收快照,下载浏览器因 CORS 限制无法获取的跨域资源,基于内容哈希去重后存储到本地。
  • 内置 Web UI 可以浏览、搜索和还原任意归档页面 — 完全离线,不依赖外部服务。
    [/ol]
    功能特性
  • 高保真还原 — CSSOM 序列化、计算样式内联、防刷新保护,尽可能还原页面原始效果
  • 完整页面捕获 — HTML 、CSS 、JS 、图片、字体;资源 URL 自动重写为本地路径
  • 跨域资源恢复 — 服务器端自动提取并下载被 CORS 拦截的资源
  • 内容哈希去重 — 相同资源跨页面共享,仅存储一份( SHA-256 )
  • 版本历史 — 同一 URL 可多次归档,按时间戳区分
  • 智能去重 — 会话级 + 服务器级双重去重,内容无变化时仅更新访问时间
  • 动态内容支持 — 捕获实时 DOM 状态; MutationObserver 监听变化,超过阈值自动提交一次更新
  • SPA 感知 — 检测单页应用导航,按路由重置捕获状态
  • 防刷新保护 — 归档页面被冻结:定时器、WebSocket 和导航 API 均被拦截
  • Web UI — 响应式界面,支持全文搜索(页面内容、URL 、标题)、按时间范围筛选和还原归档页面
  • RESTful API — 提供完整的归档和查询接口

    欢迎体验
    https://github.com/icodeface/wayback-archiver
  • 您需要登录后才可以回帖 登录 | 立即注册

    返回顶部