你需要让 AI 学会左脚踩右脚,能够自己校验自己的产出。 先让 UI 写自动化测试外加 UI 稿作为 fixture 。 再开始实施,完成以后通过自动化测试和 UI 稿校验实施的结果。但是要注意强调禁止更改自动化测试用例和 fixture 。 减少 human in the loop 的节点。 现在 codex 和 claude code 的 /goal 的目标就是追求这种可量化的标准。
我也有类似的问题。不过我自己搞了一个通过 ssh 在手机上远程使用 claude code/codex 的 iOS App ,给里面加了两个功能,感觉有一些帮助。 1. 以 http 访问主机上的端口(通过 ssh 打洞),这样就随时能调试正在开发的 web 应用了 2. 通过 vnc 连接主机(可以连接 macOS 自带的屏幕共享.app ,直连或者也通过 ssh 打洞访问 vnc 端口连接),手点一些按钮来调试正在开发的 iOS 应用,或者操作发布到 tf 啥的来真机测试