分享一份采集了一年的数据

查看 11|回复 0
作者:zzjcool   
背景
每天摸鱼就是刷刷知乎还有微博,但是随着国内内容站的质量下滑,以及作恶,强制下载客户端查看,所以渐渐的不想打开这些软件,慢慢的每天就只看一下热榜,追一下热点新闻,所以就想提升效率,做个页面直接查看微博和知乎的热榜。市场上现有的热榜网页有很多,但是都没有符合我的需求:
[ol]
  • 可以一个页面查看我需要站点的热门榜单
  • 可以看到热门的趋势图
  • 有极速上升的热点,能主动及时通知我
  • 可以对每日、每周、每月的热点自定义生成总结报告
  • 手机端友好
    [/ol]
    所以我自己写了个网页:
    https://huoju.info/
    但是,近一年工作、生活上有很多事情,上面的需求基本没有完成,不过数据已经采集了近一年了,不想让这数据浪费,所以分享出来。
    数据应用
    目前只是做了趋势的展示
    比如今天知乎关于大 A 的提问 https://www.zhihu.com/question/788585736
    查看热点趋势:
    https://huoju.info/hot/zhihu/788585736
    可以看到 12:30 左右有一个明显的断崖,这种就是被限流的问题。
    还有很多有意思的使用方式,但是个人精力有限,所以一直没有搞。
    想交流的伙伴可以邮箱 [email protected] 联系
    Release
    https://github.com/zzjcool/huoju-data/releases
    数据库文档
    表: HotType
    用途: 存储热榜类型的基本信息。
    [td]字段名[/td]
    [td]数据类型[/td]
    [td]索引[/td]
    [td]注释[/td]
    id
    bigint
    primary key
    主键
    type_name
    varchar(16)
    unique index
    站点名称
    refresh_time
    int
    刷新时间
    表: Hot
    用途: 存储具体的热榜条目。
    [td]字段名[/td]
    [td]数据类型[/td]
    [td]索引[/td]
    [td]注释[/td]
    id
    bigint
    primary key
    主键
    type_id
    int
    unique index (type_key)
    热榜类型
    unique_key
    varchar(64)
    unique index (type_key)
    唯一标识
    title
    varchar(255)
    index (idx_title)
    标题
    content
    text
    内容
    link
    varchar(255)
    链接
    image_link
    varchar(255)
    图片链接
    表: Rank
    用途: 存储热榜条目的排名和热度指标。
    [td]字段名[/td]
    [td]数据类型[/td]
    [td]索引[/td]
    [td]注释[/td]
    id
    bigint
    primary key
    主键
    type_id
    int
    index (idx_typename_timestamp)
    站点名称
    unique_key
    varchar(64)
    index
    唯一标识
    rank
    tinyint
    排名
    metric
    int
    热度指标
    timestamp
    int
    index (idx_typename_timestamp)
    时间戳
    详细说明

  • HotType 表
  • id: 主键,自动生成。
  • type_name: 站点名称,长度为 16 个字符,唯一索引。
  • refresh_time: 刷新时间,整数类型。

  • Hot 表
  • id: 主键,自动生成。
  • type_id: 热榜类型,整数类型,和 unique_key 组成唯一索引。
  • unique_key: 唯一标识,长度为 64 个字符,和 type_id 组成唯一索引。
  • title: 标题,长度为 255 个字符,索引 idx_title。
  • content: 内容,文本类型。
  • link: 链接,长度为 255 个字符。
  • image_link: 图片链接,长度为 255 个字符。

  • Rank 表
  • id: 主键,自动生成。
  • type_id: 站点名称,整数类型,索引 idx_typename_timestamp。
  • unique_key: 唯一标识,长度为 64 个字符,索引。
  • rank: 排名,tinyint 类型。
  • metric: 热度指标,整数类型。
  • timestamp: 时间戳,整数类型,索引 idx_typename_timestamp。

  • 您需要登录后才可以回帖 登录 | 立即注册

    返回顶部