下面我跟大家分享技术、经验和资源哈。
一句话介绍
是基于 Whisper 魔改版,实现音视频转字幕,GPT-4 翻译加润色,识别说话人,字幕智能重排的一站式音视频平台。
V 友们肯定会说,XX 、XXX 和 XXXX 不都有这些东西?
我们的优势是:
[ol]
[/ol]
对我们的产品的技术实现感兴趣的话,可以留言,我会分享一些技术细节。比如,我们的说话人识别,用的是 NVIDIA 的 Nemo 。
API
另外,V 友如果想要在自己的产品上快速实现我们现在的功能,我们也做了 API 可以对接,比如我们支持 2 小时以内,100M 的不分段的音频识别。
一些 todo
[ol]
[/ol]