求靠谱敏感词过滤方案

查看 172|回复 13
作者:sanyang001   
事情是这样子的:
我们项目需要移动端本地的敏感词检测服务,之前使用三方的收费太贵,现在打算自研。
这几天调研了 DFA 、Trie 、AC 这类的实现方案,对于几 w 的敏感词库,CPU 、内存尚可,有误杀的几率;老板比较有野心,说要搞几十 w 的敏感词库,我觉得移动端方案估计靠不住了。
求 V 站大佬提供一些本地化的检测方案,主要性能要可靠,感激不尽。

敏感, 词库, 方案, trie

adminvtoex   
DFA 、Trie 这些基于搜索的方案只要遇上谐音、特殊字符混淆等、相似字符等基本就白瞎。第三方基本都是模型审核+人工审核兜底,想又可靠又成本低,目前来说别想了。
stinkytofu   
几十万的敏感词库!!! 汉字的排列组合都被你们干完了
binbin0915jjpp   
调用文心一言 如果他说换个话题 就敏感(手动狗头)
c2const   
自研可能需要长时间实践来迭代哦 :(
特别是各种谐音、拼音、英文,还有 unicode 特殊字符,unicode 超平面字符(比如 emoji 表情)之类的,规则太多了,还要不断更新 :(
WillBeethoven   
三国杀是我见过的最强文字狱。
babyoung   
有那么多敏感词吗
SilentRhythm   
自研最大的问题还是维护词库,新闻天天有,敏感词也一样。
NessajCN   
建议禁用整个 CJK 编码
tomczhen   
自研,还要比现有收费贵的第三方服务效果好?
凭啥啊,搞出来自己成立个公司专门提供收费服务不香吗?
您需要登录后才可以回帖 登录 | 立即注册

返回顶部