过程:用时一天时间,收集整理了很多网站数据,建立 URL 集合,使用 Scrapy 总共从十几个地址,爬了总计 3534 条数据。所有的数据及 SQL 已经放到文件 telegram_info.sql 中,爬虫代码放在了 telegram-groups-spider 文件夹里面。有需要的同学可以自行取用。
结果:从 3534 个中,按照订阅数 /会员数排序,并排除了其他语言的账号只选择做中文内容的账号,也排除了包含:机场、Sex 、Gamble 、Politics 等内容,手工精选了 200 多个放在了下面的表格里,感兴趣的同学可以根据自己喜好选择加入。
感悟:从数据来看,其中有很多是早已注销的群 /频道 /机器人,也有不是是灰黑产业的账号或者挂羊头卖狗肉的账号。精选账号大概只占到总数的 6% ,这个比例还是挺惊人的,中文的优质内容在 Telegram 还是相对匮乏,Telegram 在中文内容上更像是一个灰黑产的温床。虽然精选了 200 多个账号,但其中也有不少是羊毛,搬运,资源,影视,破解等内容,这些内容也是处于擦边球地带,真正优质的内容还会更少,当然这也限制与样本本身的质量,也许有不少好的账号还未被发现,也欢迎知道优质账号的同学能在 issue 留下它的链接。
GitHub 地址: https://github.com/alexbei/telegram-groups