之前开发了一个《垃圾短信过滤 App 》- 胖鱼信使 为什么要重新造轮子? 主要是 2 个原因: 1: 市面上没有完全不联网的垃圾短信过滤 App 2: 想学习一下人工智能分类 192.36 GB 纯文本短信数据 上架研发初期,垃圾短信的训练样本都是来自互联网,然后加上自己和家人的几百条数据, 偶尔有用户会给我回馈几条,还能处理。 后来想更提高一把模型准确性,想多搞点样本,有个用户提供了这些个短信数据。 192,184,722,019 字节(磁盘上的 192.36 GB ) 纯文本数据,这也太多了。。。。 有什么工具能对其进行批量标注吗?
@raycool 我粗略估算了一下,按照 utf8 编码,汉字大约占用 3 个字节。那么就是约 640 亿个汉字,假设每条短信按 30 个汉字算,大约有 21 亿条。 如果考虑到去重,就算 80%是重复的,那么还得有 4 亿条。。。。 由于大模型思考需要时间,就算 1 秒条,全部标注完也得 10 万小时起步了。。。
可以简单的使用文本正则处理一次,然后用这些基于正则的数据跑一个分类模型出来,再用这个分类模型(需要适当的调整下输入的数据)去处理剩余的数据,如果是我的话会这么处理,或者第一步用正则处理出来的数据+用大模型处理的一些数据来做
@lozzow 经过 2 楼的数据量估算,数据量太大了。 数据条数都按亿为单位了,突然觉得没有必要全部都参与训练。 感觉可以从中根据关键字主动选取垃圾短信,和正常短信。 感觉训练数据样本再百万级别就已经很能打了