基于一段音频识别有多少个人在说话

查看 27|回复 3
作者:coderwei   
前几天看到一个应用,可以实现分析音频有多少人说话/以及各自说话时间段和说了什么, 于是我就很好奇是如何实现的识别一段音频有多少人说话。
  目前借助 pyannote-audio 和 huggingface 直接进行人声分离, 但是不知道为何识别的人数永远都是 2 人, 不知道是什么原因,有没有大佬能够解答一下。

音频识别, 人声分离, 人数识别

supuwoerc   
whisper 好像可以做到
Seanfuck   
识别的人数永远都是 2 人,大概是模型就只支持区分 2 人。
ttgo   
简单说这是一个分类问题。我记得哪个大佬在他的 ai 课里炫技,用一行 matlab 代码就实现了用 svm 来区分多人语音。
您需要登录后才可以回帖 登录 | 立即注册

返回顶部