字符编码的坑很多。(太多了,具体看 readme 里写了一堆):
https://github.com/garywill/cc-visualize

unihan 的坑也有,像之前的什么“入职”字的事:

汉字本身的繁简异体关系也多
有谁踩了坑了呢? rime 和 fcitx 这两个开源输入法的 table 中就有坑: https://github.com/garywill/cc-visualize/discussions
那些搜狗、苹果之类的输入法里肯定也有。自己尝试把同形汉字字符输入搜索引擎,可以发现中文网络上的内容已经含有那些坑在里面了