基于一段音频识别有多少个人在说话

查看 38|回复 3

作者：coderwei 发布时间：2025-10-14 10:34:35

前几天看到一个应用,可以实现分析音频有多少人说话/以及各自说话时间段和说了什么, 于是我就很好奇是如何实现的识别一段音频有多少人说话。
目前借助 pyannote-audio 和 huggingface 直接进行人声分离, 但是不知道为何识别的人数永远都是 2 人, 不知道是什么原因，有没有大佬能够解答一下。

音频识别, 人声分离, 人数识别

supuwoerc 2025-10-14 10:35:16

whisper 好像可以做到

Seanfuck 2025-10-14 10:36:08

识别的人数永远都是 2 人，大概是模型就只支持区分 2 人。

ttgo 2025-10-14 10:36:41

简单说这是一个分类问题。我记得哪个大佬在他的 ai 课里炫技，用一行 matlab 代码就实现了用 svm 来区分多人语音。

返回列表

公告

返回顶部

基于一段音频识别有多少个人在说话

浏览过的版块

热门主题

瓦嫂，我被搞了~

CommentBot的GO版本正在开发，主国内的CMS

输入法推荐-豆包输入法

电信100M,和移动300，哪个更快？

谷歌老域名同样效果牛逼

小伙出差时抽中大奖公司要求上交

上海男子请陪产假8分钟后被开除

美股大跌英伟达跌超3%

许昕：对不起家庭和同事

当心甜食正在悄悄损害你的视力

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则

基于一段音频识别有多少个人在说话

浏览过的版块

热门主题

瓦嫂，我被搞了~

CommentBot的GO版本正在开发，主国内的CMS

输入法推荐-豆包输入法

电信100M,和移动300，哪个更快？

谷歌老域名同样效果牛逼

小伙出差时抽中大奖 公司要求上交

上海男子请陪产假8分钟后被开除

美股大跌 英伟达跌超3%

许昕：对不起家庭和同事

当心甜食正在悄悄损害你的视力

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿 投放广告

Yoo趣儿网站用户应遵守规则

小伙出差时抽中大奖公司要求上交

美股大跌英伟达跌超3%

在 Yoo趣儿投放广告