感觉这类产品的技术栈( ASR+LLM 润色)门槛不高,但工程细节拉满,比如实时流处理、语义纠错、输入法集成,大厂砸资源做出来的体验确实是个人项目比不了的。期待后面豆包的版本,也看看开源社区能不能跟上。
我和 https:///t/1202162 这位老哥一样,参考 https://github.com/yetone/voice-input-src ,codex 生成了一个 macos 下的来 vibe coding ,之后自己用的过程中发现了几个边界问题,补全了下边界,现在还挺稳的。 输入端是 dji mic mini