求靠谱敏感词过滤方案

查看 165|回复 13
sanyang001
OP
  
哦哦,忘记告知了,我们是海外产品,不需要处理中文。
sanyang001
OP
  
@stinkytofu 忘记说了,我们海外的产品,不用考虑太多中文。
1996v   
github 很多共享的词库
buaacss   
贡献个低成本的方案
首先是分词,用 hanlp 的多语言分词模型就不错,tok 的分词效率很高。可以把自家的敏感词当作 force 字典加进去,然后对于误杀的,只要保证词长度比敏感词更长就能解决。
然后对每个分词作 ac 自动机检测,只要有一个命中就报错出来。
然后可以再做一层 zero-shot-classification ,把每个敏感词分个类,比如刀属于管制器械,但是刀剑神域是游戏,命中的时候判断刀剑神域是不是管制器械,可以进一步降低误杀概率,hg 上一大堆 zsc 的模型。随便搞一个,之后还能积累一波数据做个微调。
我们的场景相对来说没有太多敏感词,所以主要的性能消耗在 hanlp 的分词,实际运行效率非常高。10 万量级的词库,50 个 30-50 个字符的检测差不多 200-300ms 。
您需要登录后才可以回帖 登录 | 立即注册

返回顶部