各位佬,最近想内部开发个小工具,在 Windows 或者 Mac 上实现 语音转文本,目前有哪个模型可以比较好支持中、英文识别,模型要开源的,识别率尽量高,而且对于资源的占用不是很高。是否有哪位佬整个,推荐一个比较合适的模型。先谢过各位大佬了! speech-to-text, 模型, 识别
我在 pc + nvidia 上用这个看视频生成字幕, 中英文都没啥问题, 你可以不同规模都试试 https://huggingface.co/ggerganov/whisper.cpp/tree/main