求教！缩略词、错别字符串还原单词

查看 140|回复 3

作者：sonnyclarity492 发布时间：2024-6-11 18:02:45

1. 假设每个单词都有自己的变种书写形式，缩写、扩写，原样照写。
2. 变种形式的单词，可能是恰巧和另一个单词拼写相同，可能是写错了，可能是有特定缩略形式。
3. 词汇表的数量是有限的，比如说原始单词就 2000 个。
4. 用户的书写习惯不同，例如 apple 这个单词，有人写作 ape ，有人写作 apl ，有人写作 apple ，有人写作 opple ，有人写作 udtp （某种意义上是正确的）。
5. 存在用户随意输入的情况。
于是我们就有一堆字符串，希望能够确定这个字符串最可能是哪个原始单词。
说说我的今天工作，我把 word 和 aliases 丢到神经网络里训练，用 alias 预测 word ，结果是它几乎不认识没见过的 alias ，错误率很高。
这是因为那些字符串我自己也还原不出来，可能是用户随意打的。
各位大佬有没有什么好的建议？

sonnyclarity492

2024-6-11 18:03:34

当然了，词汇表限定在某个专业领域，也不是随便什么单词，但有些输入确实看不懂，一个个去猜的话很费时间

aloxaf 2024-6-11 18:04:23

感觉这事儿适合 LLM 。如果只是单纯的简写/拼错的话，用模糊匹配或许也行。
话说我没明白 apple 究竟是咋样才能拼成 udtp……

sonnyclarity492

2024-6-11 18:04:58

@aloxaf 哈哈哈哈哈感谢回答，这个是我随便取名字，就当是一个专有名词。
这个数量倒不多，更多的是缩写，比如地名缩写加三个首字母

求教！缩略词、错别字符串还原单词

热门主题

最近收BA的人很多交易了要立刻取消BA 教训

刚看了一个视频，让我又清醒了一下

小小农民新开中转站，欢迎来踩

港版安卓机是满血的国际版安卓机吗？

我 ThreeJSON 又回来了： V 友们批评得对！

继之前 5.4 的 “收口”之后， 5.6 Sol 好

折腾 homelab 挺长时间了建了一个群想不

codex 打开风扇狂转怎么办

Vibe 的一个中文起名小工具

你们明天要去看周星驰的电影么？

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则

求教！缩略词、错别字符串还原单词

热门主题

最近收BA的人很多 交易了要立刻取消BA 教训

刚看了一个视频，让我又清醒了一下

小小农民新开中转站，欢迎来踩

港版安卓机是满血的国际版安卓机吗？

我 ThreeJSON 又回来了： V 友们批评得对！

继之前 5.4 的 “收口”之后， 5.6 Sol 好

折腾 homelab 挺长时间了 建了一个群 想不

codex 打开风扇狂转怎么办

Vibe 的一个中文起名小工具

你们明天要去看周星驰的电影么？

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿 投放广告

Yoo趣儿网站用户应遵守规则

最近收BA的人很多交易了要立刻取消BA 教训

折腾 homelab 挺长时间了建了一个群想不

在 Yoo趣儿投放广告