约 192GB 短信样本如何标记分类？

查看 236|回复 8

作者：andforce 发布时间：2024-9-25 01:01:21

之前开发了一个《垃圾短信过滤 App 》- 胖鱼信使
为什么要重新造轮子？
主要是 2 个原因：
1: 市面上没有完全不联网的垃圾短信过滤 App
2: 想学习一下人工智能分类
192.36 GB 纯文本短信数据
上架研发初期，垃圾短信的训练样本都是来自互联网，然后加上自己和家人的几百条数据，
偶尔有用户会给我回馈几条，还能处理。
后来想更提高一把模型准确性，想多搞点样本，有个用户提供了这些个短信数据。

192,184,722,019 字节（磁盘上的 192.36 GB ）

纯文本数据，这也太多了。。。。
有什么工具能对其进行批量标注吗？

raycool 2024-9-25 01:02:18

部署个 qwen2.5 最新开源的大模型
使用大模型快速标注

andforce

2024-9-25 01:03:09

@raycool 我粗略估算了一下，按照 utf8 编码，汉字大约占用 3 个字节。那么就是约 640 亿个汉字，假设每条短信按 30 个汉字算，大约有 21 亿条。
如果考虑到去重，就算 80%是重复的，那么还得有 4 亿条。。。。
由于大模型思考需要时间，就算 1 秒条，全部标注完也得 10 万小时起步了。。。

lozzow 2024-9-25 01:03:43

可以简单的使用文本正则处理一次,然后用这些基于正则的数据跑一个分类模型出来,再用这个分类模型(需要适当的调整下输入的数据)去处理剩余的数据,如果是我的话会这么处理,或者第一步用正则处理出来的数据+用大模型处理的一些数据来做

andforce

2024-9-25 01:04:18

@lozzow 经过 2 楼的数据量估算，数据量太大了。
数据条数都按亿为单位了，突然觉得没有必要全部都参与训练。
感觉可以从中根据关键字主动选取垃圾短信，和正常短信。
感觉训练数据样本再百万级别就已经很能打了

guiyumin 2024-9-25 01:05:12

有吧？那个熊猫吃短信

andforce

2024-9-25 01:06:06

@guiyumin 可能我表达不太严谨。我想要的是这个应用完全离线，连网络权限都不申请那种。
熊猫我记得提交反馈的时候会有网络权限申请

noqwerty 2024-9-25 01:06:50

@andforce 不联网怎么提交反馈呢

rechardwong0522 2024-9-25 01:07:36

可以先用聚类试着清理掉重复度高的样本，然后选出一部分来训练就可以了。

约 192GB 短信样本如何标记分类？

浏览过的版块

热门主题

最近收BA的人很多交易了要立刻取消BA 教训

刚看了一个视频，让我又清醒了一下

小小农民新开中转站，欢迎来踩

港版安卓机是满血的国际版安卓机吗？

我 ThreeJSON 又回来了： V 友们批评得对！

继之前 5.4 的 “收口”之后， 5.6 Sol 好

折腾 homelab 挺长时间了建了一个群想不

codex 打开风扇狂转怎么办

Vibe 的一个中文起名小工具

你们明天要去看周星驰的电影么？

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则

约 192GB 短信样本如何标记分类？

浏览过的版块

热门主题

最近收BA的人很多 交易了要立刻取消BA 教训

刚看了一个视频，让我又清醒了一下

小小农民新开中转站，欢迎来踩

港版安卓机是满血的国际版安卓机吗？

我 ThreeJSON 又回来了： V 友们批评得对！

继之前 5.4 的 “收口”之后， 5.6 Sol 好

折腾 homelab 挺长时间了 建了一个群 想不

codex 打开风扇狂转怎么办

Vibe 的一个中文起名小工具

你们明天要去看周星驰的电影么？

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿 投放广告

Yoo趣儿网站用户应遵守规则

最近收BA的人很多交易了要立刻取消BA 教训

折腾 homelab 挺长时间了建了一个群想不

在 Yoo趣儿投放广告