求靠谱敏感词过滤方案

sanyang001

OP

2023-9-14 11:10:50

哦哦，忘记告知了，我们是海外产品，不需要处理中文。

sanyang001

OP

2023-9-14 11:11:50

@stinkytofu 忘记说了，我们海外的产品，不用考虑太多中文。

1996v 2023-9-14 11:12:34

github 很多共享的词库

buaacss 2023-9-14 11:13:13

贡献个低成本的方案
首先是分词，用 hanlp 的多语言分词模型就不错，tok 的分词效率很高。可以把自家的敏感词当作 force 字典加进去，然后对于误杀的，只要保证词长度比敏感词更长就能解决。
然后对每个分词作 ac 自动机检测，只要有一个命中就报错出来。
然后可以再做一层 zero-shot-classification ，把每个敏感词分个类，比如刀属于管制器械，但是刀剑神域是游戏，命中的时候判断刀剑神域是不是管制器械，可以进一步降低误杀概率，hg 上一大堆 zsc 的模型。随便搞一个，之后还能积累一波数据做个微调。
我们的场景相对来说没有太多敏感词，所以主要的性能消耗在 hanlp 的分词，实际运行效率非常高。10 万量级的词库，50 个 30-50 个字符的检测差不多 200-300ms 。

求靠谱敏感词过滤方案

浏览过的版块

热门主题

Fee Calculator — 一键计算手续费，让跨境

【黑五】RN RackNerd 2025 黑色星期五VPS，

11月平台域名一口价成交速报：l69.com小五

翻看周松松的博客，说点

饿啦么改头换面，是否可以提升业绩呢？

终身会员分享 RouteX，轨迹记录与追光

【求助】亚马逊云 AWS MFA丢失

如何取消 apple ID 和 Chatgpt plus 订阅关

博客外链，发布后几乎都没有收录的，还要继

务必"重视"虚拟货币

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则

求靠谱敏感词过滤方案

浏览过的版块

热门主题

Fee Calculator — 一键计算手续费，让跨境

【黑五】RN RackNerd 2025 黑色星期五VPS，

11月平台域名一口价成交速报：l69.com小五

翻看周松松的博客，说点

饿啦么改头换面，是否可以提升业绩呢？

终身会员分享 RouteX，轨迹记录与追光

【求助】亚马逊云 AWS MFA丢失

如何取消 apple ID 和 Chatgpt plus 订阅关

博客外链，发布后几乎都没有收录的，还要继

务必&quot;重视&quot;虚拟货币

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿 投放广告

Yoo趣儿网站用户应遵守规则

务必"重视"虚拟货币

在 Yoo趣儿投放广告