写了个智能体框架,先用本地 20b 测了 deepresearch 的 bench,竟然比 grok 的 deepresearch 分高😂,然后做了几个常见的智能体类型,AI Scientist (自动化研究实验,半通用型),Cowork (类似 anthropic 的 cowork:编程,做 ppt ,整理桌面,通用型)。AI Scientist 测的挺多,做实验比较方便,写出来的文章过一些 ei 会议投稿没什么问题。Cowork 即使是用 docker 隔离了目标文件夹和宿主机,我感觉还是很危险...不知道 anthropic 官方的 Cowork 有没有出现把人文件删了的事情

