1. 使用扩展程序从浏览器捕获音频。 2. 通过 WebSocket 将音频数据作为分块数据( 512 字节)发送到服务器。 3. 使用 VAD (语音活动检测)预处理数据。 4. 将预处理的数据发送到 Whisper 。 5. 将文本发送回浏览器。 6. 使用 JavaScript 将文本插入到与视频播放器相关的 DOM 中。