怎么实现纠正语音提取文字后的错别字、同音字,而不改变原文

查看 42|回复 4
作者:richiewu   
试过两种路线,pycorrector 识别率稍微低
qwen 模型总是要改原文,怎么提要求都不行
kifile   
增加 Workflow loop ,逻辑,搞一个比对脚本,QWEN 生成数据之后,必须经过一次比对脚本,不通过,那么将错误信息发回给 QWEN 重新生成,多次迭代。
想要进一步优化,就考虑切片,返回时给出变化内容行数信息,只调整对应行,做增量变更。
Meteora626   
错别字还能比对,同音字没有字库根本搞不定吧
richiewu
OP
  
@Meteora626 大部分同音字大模型能搞定,因为有上下文
richiewu
OP
  
@kifile 标点、断句、错字都改了很多,不好对比呢
您需要登录后才可以回帖 登录 | 立即注册

返回顶部