@Bad0Guy 1 、benchmark score 就是具体成果的量化,这是学术界通用做法,不是我发明的。2 、排版确实一般,第一次发帖,认。3 、图床那句是事实描述,不知道默认用 imgur 很好笑吗。。4 、31 楼说推广,分享开源项目叫推广的话 V2EX 一半帖子都是推广。38 楼说没人搭理,GitHub star 和 Datawhale 收录你可以自己去看。5 、语言组织能力差不差跟项目好不好用有关系吗。。你要觉得技术不行,拿东西出来说,别光评价我作文写得好不好
@h4nru1 学术归学术,这里需要的是实际可直接落地的项目,而不是 benchmark ,御三家每次发新模型后就 benchmark ,真上手后又不一定跟 benchmark 的结果一样,大部分人都看厌了。V 站里跟 Google 都有关于图床的免费教程帖在,都读到博士了信息检索能力还这么差?好的帖子内容写的能让 V 友一眼就知道 ga 能做什么,那么大家自然都乐意去尝试,你叽里咕噜说了一堆学术性的东西+拉踩 cc/codex/oc 最后就摆了个 skill 的合集跟用 ga 发了个帖?那除此之外它能实现什么你拉踩的这三家做不到的事?做题做到人做傻了?
我使用了一周了,这个浏览器操作确实不错,有人也提取了一个 mcp 。我把 openclaw 上的一个工作流程迁移过来,遇到一些问题。一个是这个不支持多智能体,这个还不是主要的,主要是这个经常运行会没执行中断,还有会出现上下文丢失,经常让他继续,他都不知道上一句是干撒的呢,去干很久以前的事
@Bad0Guy 1 、事实是我懒得信息检索。会弄图床很了不起吗?是你检索相关教程然后按步骤操作快还是我打一行字快? 2 、你看不懂的东西不代表别人看不懂 3 、我不是你们 v 友,不知道你们规矩这么大,假如触犯你们天条了,那我认罪认罚 = =
@fishlium 麻烦关注我的下一篇帖子,我会具体讲如何实现多智能体。在我们的视角里,多智能体是在约束下催生的涌现能力:主 agent 完全可以通过 code_run 去调用自己,然后起 agent team 。ga 本质上也可以自 cli 。至于上下文的问题,可能需要你提供更具体的信息才好判断。
@h4nru1 现在是用 subagent 替代的,本质上很多情况其实用不到 agent team ,agent team 主要还是探索使用,但是要自己启 agent team 还是有很多问题要解决的。上下文这个问题我自己也在看,而且我最近发现好像通过飞书比通过自带的 streamlit ui 更容易出现这个问题,按理说是没有关系的。
@fishlium 飞书有可能是因为他的卡片有 200 的的元素变化的限制,你更新最新版代码这个问题应该解决了。subagent 是为了隔离上下文,防止污染,如果你自己脑海里有明确的想法,可以在提示词中显式的提示;通过 plan 模式可以天生解决这个问题,plan 模式+监察者本质上就是多 agent 协作。启动方式,在提示词中写:开 plan 模式帮我 xxxx
@h4nru1 你打那一行废话的时间都能让 agent 检索完信息并且粘贴了,跟了不起没有任何关系。其次你自己看看评论区有几个人是能耐心看你 bb 一堆所谓的 score ?都读到博士了连宣传项目的帖子都不会让 AI 润色下然后再发?🤷