[续] 辛苦爬了 5000+个 Telegram 群/频道/机器人，异常 ...

作者：BeiChuanAlex 发布时间：2023-6-27 17:02:44

书接上文，没看过上集的同学可以看，第一集内容： /t/951729
第二集：
首先来看看一些有意思的数据：

v2ex

在帖子发出后的 24 小时内：共有 6232 次点击，206 人收藏，22 人感谢，被 4505 位注册会员查看过。其中 收藏率 4.6% ，感谢占比 0.49% ，还有 126 次来自 Google 的点击。

GitHub

在帖子发出后的 24 小时内：共收到 Star 552 个，Fork 51 个，有 7 人提交了 issue 。平均每小时 Star 23 个

昨天发帖之后，发现样本还是太少，所以又重新收集了数据，在昨天数据的基础上，爬了一晚上，样本数来到了 5000+ （这貌似是我能找到的极限了），基于更大的样本集，也重新产出了一些值得参考的新数据：

总样本数量：5205 个

其中正常账号 3036 个，异常账号 2169 个（主要是已注销账号），异常账号占比：41.7%，正常账号占比：58%

频道数：1700 ，群组：1136 ，机器人：198 。分别占比：32.7%，21.8%，0.38%

频道订阅人数排名前 10 的没有一个中文账号，前 10 的账号订阅人数均超过了 100 万，最高订阅人数 912 万

群组会员人数排名前 10 的 9 个都是中文账号，最高会员人数 19 万，最低 6 万

在过滤了 144 个关键字之后还剩下 2209 个账号，当然这其中依然有不少是需要筛选的（人麻了，筛了 5 个小时，实在筛不动了...），结果如下：

资源分享类 352 个，占比 15.9%

机场、VPS 类 103 个，占比 4.7%

影视类 108 个，占比 4.9%

音乐类 56 个，占比 2.5%

币圈类 39 个，占比 1.8%

书类 67 个，占比 3%

破解类 44 个，占比 2%

羊毛、优惠类 53 个，占比 2.4%

总结：
本次总共从 25 个 URL 地址获得了 5205 个样本集，样本集本身已经做了去重处理，实际的数量应该有 10000+，重复的账号没有分析的意义，就直接过滤掉了没有入库。入库之后的数据进行了二次过滤（主要是人工过滤），过滤了 Sex 、Gamble 、Politics 、黑灰产、已注销、私人账号等，经过两轮筛选最终只剩下了 2209 个账号，占总数的：42.4% ，已经不到一半了，这还是粗筛，如果细筛那最终样本会更少。
从过滤之后的数据来看，貌似各个分类的占比都很少，其实不然，因为很多账号都是跨多个分类，并不是只专精一个分类。另一方面从关键字来筛选分类，并不是很准确，最准确的应该是点进每个账号里去看内容，但这样的话人工成本会很高。
假如按照程序员这个角色的用户画像来进行推荐的话，应该和昨天的 6% 差距不大，这也基本反应了现在 Telegram 中文生态的现状。这些数据还有其他的挖掘价值，用来做数据分析还是很不错的。

GitHub 地址： https://github.com/alexbei/telegram-groups
网页版：https://www.tgqun.xyz

占比, 账号, 过滤, 样本

[续] 辛苦爬了 5000+个 Telegram 群/频道/机器人，异常占比却高达 41.7%？

相关帖子

浏览过的版块

热门主题

最近收BA的人很多交易了要立刻取消BA 教训

刚看了一个视频，让我又清醒了一下

小小农民新开中转站，欢迎来踩

港版安卓机是满血的国际版安卓机吗？

我 ThreeJSON 又回来了： V 友们批评得对！

继之前 5.4 的 “收口”之后， 5.6 Sol 好

折腾 homelab 挺长时间了建了一个群想不

codex 打开风扇狂转怎么办

Vibe 的一个中文起名小工具

你们明天要去看周星驰的电影么？

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则