工作需要,经常要把语音讲话转为文字。想请教大家,一是自己搭建个语音转文字的服务,是用 Whisper 模型搭建吗,准确率能达到多少?二是和使用录音笔自带的转文字功能相比,哪个准确度更高一点?三是因为讲话人也就是固定的三五个人,能否进行模型训练,用什么来训练?四是成本大概是多少呢?谢谢。