贡献个低成本的方案 首先是分词,用 hanlp 的多语言分词模型就不错,tok 的分词效率很高。可以把自家的敏感词当作 force 字典加进去,然后对于误杀的,只要保证词长度比敏感词更长就能解决。 然后对每个分词作 ac 自动机检测,只要有一个命中就报错出来。 然后可以再做一层 zero-shot-classification ,把每个敏感词分个类,比如刀属于管制器械,但是刀剑神域是游戏,命中的时候判断刀剑神域是不是管制器械,可以进一步降低误杀概率,hg 上一大堆 zsc 的模型。随便搞一个,之后还能积累一波数据做个微调。 我们的场景相对来说没有太多敏感词,所以主要的性能消耗在 hanlp 的分词,实际运行效率非常高。10 万量级的词库,50 个 30-50 个字符的检测差不多 200-300ms 。