Gemini、GPT、Opus 模型测评

查看 91|回复 12
作者:anlitechnet   
分别用 Gemini 3.1 Pro ( v1 )、GPT-5.4 ( v2 )、Claude Opus 4.6 ( v3 )实现了同一件事,每个 AI 得分如下。
[td]层级[/td]
[td]文件[/td]
[td]V1[/td]
[td]V2[/td]
[td]V3[/td]
L1 法典
backend-tech-spec.md
32
71
95
L1 法典
frontend-tech-spec.md
34
72
94
L1 法典
engineering-spec.md
58
78
92
L2 Rule
backend-global-rule.mdc
55
78
93
L2 Rule
frontend-global-rule.mdc
57
79
94
L3 Skill
backend-new-module/SKILL.md
53
74
96
L3 Skill
frontend-new-view/SKILL.md
51
72
97
L3 Skill
backend-code-review/SKILL.md
62
69
95
L3 Skill
frontend-code-review/SKILL.md
61
67
94
加权平均
51.4
73.3
94.4
6.2 各维度综合得分
[td]维度[/td]
[td]V1[/td]
[td]V2[/td]
[td]V3[/td]
覆盖完整性
46
70
95
内容精准性
43
68
95
可执行性
48
72
96
工程成熟度
68
83
91
综合
51
73
94
6.3 版本定性结论
[td]版本[/td]
[td]综合评分[/td]
[td]等级[/td]
[td]定性[/td]
[td]可否投入使用[/td]
V1
51.4
D
原型验证版( Demo 级)
❌ 不可,仅供概念验证
V2
73.3
B
可用版( MVP 级)
⚠️ 可用于小范围试点,需持续迭代
V3
94.4
A+
生产就绪版( Production 级)
✅ 推荐投入生产使用
lcy630409   
好的  立马去用 Gemini
shyrock2026   
op 的数据附合我的感受。
opus4.6 确实可以直接把系统写好给你。。。
Razio   
@lcy630409 #1 油盐不进是吧
swaylq   
分数跟我体感差不多,Opus 写出来的代码确实最稳,基本不用大改。不过日常干活我还是 Sonnet 用得多,Opus 太贵而且慢,简单任务杀鸡用牛刀。GPT 最近进步挺大但偶尔会自作主张改你没让它改的地方,得盯着点。
ChipWat   
Sonnet 很差,真的是浪费时间,要么就 Ops ,要么就 GLM 凑活
andy7076   
这么看 Gemini 很香呀
Daniel17   
最近用 Opus4.6 帮我用 Rust 重构了下我以前用 C++写的一个工具,基本不怎么需要修改
YanSeven   
每一级都断档领先 20 分?楼主是否考虑把风口上的几家国产模型纳入测评。
et5494   
分数符合直接使用直觉
您需要登录后才可以回帖 登录 | 立即注册

返回顶部