求教!缩略词、错别字符串还原单词

查看 38|回复 3
作者:sonnyclarity492   
1. 假设每个单词都有自己的变种书写形式,缩写、扩写,原样照写。
2. 变种形式的单词,可能是恰巧和另一个单词拼写相同,可能是写错了,可能是有特定缩略形式。
3. 词汇表的数量是有限的,比如说原始单词就 2000 个。
4. 用户的书写习惯不同,例如 apple 这个单词,有人写作 ape ,有人写作 apl ,有人写作 apple ,有人写作 opple ,有人写作 udtp (某种意义上是正确的)。
5. 存在用户随意输入的情况。
于是我们就有一堆字符串,希望能够确定这个字符串最可能是哪个原始单词。
说说我的今天工作,我把 word 和 aliases 丢到神经网络里训练,用 alias 预测 word ,结果是它几乎不认识没见过的 alias ,错误率很高。
这是因为那些字符串我自己也还原不出来,可能是用户随意打的。
各位大佬有没有什么好的建议?
sonnyclarity492
OP
  
当然了,词汇表限定在某个专业领域,也不是随便什么单词,但有些输入确实看不懂,一个个去猜的话很费时间
aloxaf   
感觉这事儿适合 LLM 。如果只是单纯的简写/拼错的话,用模糊匹配或许也行。
话说我没明白 apple 究竟是咋样才能拼成 udtp……
sonnyclarity492
OP
  
@aloxaf 哈哈哈哈哈感谢回答,这个是我随便取名字,就当是一个专有名词。
这个数量倒不多,更多的是缩写,比如地名缩写加三个首字母
您需要登录后才可以回帖 登录 | 立即注册

返回顶部