2. 变种形式的单词,可能是恰巧和另一个单词拼写相同,可能是写错了,可能是有特定缩略形式。
3. 词汇表的数量是有限的,比如说原始单词就 2000 个。
4. 用户的书写习惯不同,例如 apple 这个单词,有人写作 ape ,有人写作 apl ,有人写作 apple ,有人写作 opple ,有人写作 udtp (某种意义上是正确的)。
5. 存在用户随意输入的情况。
于是我们就有一堆字符串,希望能够确定这个字符串最可能是哪个原始单词。
说说我的今天工作,我把 word 和 aliases 丢到神经网络里训练,用 alias 预测 word ,结果是它几乎不认识没见过的 alias ,错误率很高。
这是因为那些字符串我自己也还原不出来,可能是用户随意打的。
各位大佬有没有什么好的建议?