使用树莓派 4B + wukong 模块 + OpenAI，做了个智能音箱 ...

作者：quietjosen 发布时间：2023-9-1 16:02:23

使用树莓派 4B + wukong 模块 + OpenAI ，做了个智能音箱，简单记录下关键节点。

智能音箱的大概流程是这样的：

关键词唤醒

听用户说什么并转换为文字

识别文字中的命令并得到答案

将文字转换为音频并播放

将上述流程串起来

上面是从技术的角度分析。从产品的角度，还要考虑很多事情

产品外观及工业设计

响应速度与使用感受

稳定性

电池、功耗、散热等

从实现的角度，各个模块都有对应的选择，每个模块取最优解，然后组合出产品，是可以的。只是，这会比较耗时。经过简单的比较，选择 wukong-robot 这一成套解决方案。
关于硬件的选型。先是用我手上吃灰的 Radxa 安装。不过，由于这个硬件比较老了，官方的 Ubuntu 系统很久远，在安装 wukong-robot 时，遇到一系列兼容性问题。花了很多时间后，决定放弃。
找朋友借来了树莓派 3B 。果然，树莓派生态很好。就拿安装系统来说，官方出了多平台的工具，很容易安装指定系统。并且，树莓派的系统是安装在 SD 卡上的。这样，更换 SD 卡就可以更换系统，很方便。
安装 wukong-robot 后，又遇到问题：这块板的 USB 有故障，识别不了 USB 设备。这就难办了，因为麦克风、扬声器是需要 USB 接口的。没办法，又买了树莓派 4B 。
在新的硬件上，基本跑通了默认系统后，还要有一系列的配置和优化。
关于后端引擎，最想用的自然是 ChatGPT/OpenAI 。不过，这个东西在国内是无法访问的。试了在板子上搭建梯子，可遇到 SSL 的问题，花了很长时间没解决，并且也不是必现的，只是高概率。
后来想的办法，就使用 Azure 的 ChatGPT 接口。具体的，使用日本的节点，会相对快点。好处是不用梯子，但总的响应速度，还是不如梯子 + OpenAI 接口。先这样用段时间，再考虑优化速度吧。现在文心一言发布了，可以考虑对接一下。
关于语音识别，简单比较几个，感觉区别不是太大，最后选了腾讯语音。
关于语音全成，默认是 Edge 接口，合成的效果不错。不过，实际有时会慢，比如一句短语可能要 2s 以上，这就比较影响体验，最后选了腾讯语音。
关于麦克风和扬声器，考虑最后的外观，选择了一个 USB 一体的、方形的设备。这样，可以比较容易和树莓派一起放到一个壳子里。
说到壳子，自己设计了简单的外壳。

还有其它一些优化，比如：

wukong-robot 在识别出命令后，会先调用百度 Unit 进行第一遍处理，目的是识别出一些预定义的功能，比如「大点声」这类的。问题是，这个操作会增加 3s 的延时。显然，为了低频的预处理，给所有请求都加上延时，是不划算的，于是我去掉了。

但调音量的需求确实存在，于是在发送到 OpenAI 进行识别之前，硬编码对命令进行预识别和处理。这是本地的，不消耗时间。wukong-robot 内置的调音量，是硬编码设置默认设备的，这点改成了可以调节指定设备的。

替换录音开始、结束的提示音，减缓大延时带来的差体验。

最终产品，主要是给娃用的，回答他的十万个为什么。从初步使用体验上看，还是满意的。最大的不足是唤醒不灵敏、可能误唤醒。这点之后考虑用麦克风阵列，取代现在的单麦克风。未来，还会根据实际使用来不断改进。
后记：其实这件事，我几个月前就想做了，拖拖拉拉做到现在。
最开始，我是想基于现有的智能音箱做二次开发。最后发现，我还是太年轻。但凡厂商，几乎没有真正开放的。如果很容易让别人二次开发，岂不是给别人嫁衣。
如果自己完整做一个，需要大块的时间，一直没这个勇气，直到最近才下决心。比如，看到人家稚晖君，半年时间就做出那么高级的机器人，自己半年组装不出一个音箱，真是太汗颜了。

树莓, openai, 音箱, 识别

相关帖子

macy 2023-9-1 16:03:13

可以，我也想给娃做一个，期待教程，我的想法是 asr 模型跑在家里的服务器上，可能会快点，其他的调用 chatgpt

quietjosen

OP

2023-9-1 16:04:07

@macy asr 不是大问题，短句一般 <2s 。教程不太会写更详细的了，毕竟程序员都不喜欢写文档……

musi 2023-9-1 16:04:44

麦克风阵列比起单麦克风在误唤醒上可能有点提升，但提升不会太大。误唤醒其实现在的智能音箱或多或少都会存在这个问题，厂商的智能音箱除了是麦克风阵列还用了算法降噪，对麦克风消音等对环境音的处理

quietjosen

OP

2023-9-1 16:05:14

@musi 恩，其实我买了 4 阵列的麦克风，录音效果好一点，但不是特别明显，又退货了…
现在主要是两个问题：
- 叫它它不应
- 不叫它它应，尤其是播放声音时。
我想到的办法，就是把唤醒词变复杂点，降低误解概率。

billzhuang 2023-9-1 16:05:58

chatgpt 来给娃回答十万个为什么，娃会不会被坑了。

quietjosen

OP

2023-9-1 16:06:47

@billzhuang 常识性问题还好，比如太阳系有几大行星、世界上最大的 XX 是什么。

使用树莓派 4B + wukong 模块 + OpenAI，做了个智能音箱

相关帖子

浏览过的版块

热门主题

微信开放平台发布AI生态接入指引，小程序可

快快服务器有拼团的吗？

你们用什么ai做图？

卫生间的洗漱池下水堵了，网上想找师傅上门

Cloudflare 优选 IP，收到 CF 的 DNS 验证

你们遇到婆媳矛盾处理过的最妥当的方式是怎

32 寸的电脑显示器体验如何？

最近各种卖车视频总刷到出售各自新能源车的

帮后端好哥哥问问glm5.1 版本 ai 设计的数

[开源分享] 从 workbuddy 提炼转化的专家团

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则

使用树莓派 4B + wukong 模块 + OpenAI，做了个智能音箱

相关帖子

浏览过的版块

热门主题

微信开放平台发布AI生态接入指引，小程序可

快快服务器有拼团的吗？

你们用什么ai做图？

卫生间的洗漱池下水堵了，网上想找师傅上门

Cloudflare 优选 IP，收到 CF 的 DNS 验证

你们遇到婆媳矛盾处理过的最妥当的方式是怎

32 寸的电脑显示器体验如何？

最近各种卖车视频总刷到出售各自新能源车的

帮后端好哥哥 问问glm5.1 版本 ai 设计的数

[开源分享] 从 workbuddy 提炼转化的专家团

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿 投放广告

Yoo趣儿网站用户应遵守规则

帮后端好哥哥问问glm5.1 版本 ai 设计的数

在 Yoo趣儿投放广告