一句话:给大模型装眼睛和手。它能自己打开微信、企业微信、WhatsApp ,像人一样看界面、读消息、打字回复。
不是 API 套壳——因为这几个平台根本没给开发者开放可用的 API 。
核心方案:
最难的部分(视觉执行层)我已经啃完了,代码已开源。上层留了一个本地 Skill Server ,你只需要写业务逻辑(比如自动客诉、销售跟进、群回复),不用碰底层。
适用场景:
为什么搞这个?
因为全球 5000 万+ 企业用 WhatsApp Business ,中国 1200 万+ 企业微信用户,但官方接口要么没有,要么贵得离谱。AI Agent 想落地到最赚钱的业务场景,绕不开这些平台。
现状:
有场景的开发者欢迎 clone 下来跑一跑,也欢迎讨论。

