Gemini、GPT、Opus 模型测评

查看 187|回复 12

作者：anlitechnet 发布时间：2026-3-17 11:41:25

分别用 Gemini 3.1 Pro （ v1 ）、GPT-5.4 （ v2 ）、Claude Opus 4.6 （ v3 ）实现了同一件事，每个 AI 得分如下。
[td]层级[/td]
[td]文件[/td]
[td]V1[/td]
[td]V2[/td]
[td]V3[/td]
L1 法典
backend-tech-spec.md
32
71
95
L1 法典
frontend-tech-spec.md
34
72
94
L1 法典
engineering-spec.md
58
78
92
L2 Rule
backend-global-rule.mdc
55
78
93
L2 Rule
frontend-global-rule.mdc
57
79
94
L3 Skill
backend-new-module/SKILL.md
53
74
96
L3 Skill
frontend-new-view/SKILL.md
51
72
97
L3 Skill
backend-code-review/SKILL.md
62
69
95
L3 Skill
frontend-code-review/SKILL.md
61
67
94
加权平均
51.4
73.3
94.4
6.2 各维度综合得分
[td]维度[/td]
[td]V1[/td]
[td]V2[/td]
[td]V3[/td]
覆盖完整性
46
70
95
内容精准性
43
68
95
可执行性
48
72
96
工程成熟度
68
83
91
综合
51
73
94
6.3 版本定性结论
[td]版本[/td]
[td]综合评分[/td]
[td]等级[/td]
[td]定性[/td]
[td]可否投入使用[/td]
V1
51.4
D
原型验证版（ Demo 级）
❌ 不可，仅供概念验证
V2
73.3
B
可用版（ MVP 级）
⚠️ 可用于小范围试点，需持续迭代
V3
94.4
A+
生产就绪版（ Production 级）
✅ 推荐投入生产使用

lcy630409 2026-3-17 11:42:02

好的立马去用 Gemini

shyrock2026 2026-3-17 11:42:40

op 的数据附合我的感受。
opus4.6 确实可以直接把系统写好给你。。。

Razio 2026-3-17 11:43:36

@lcy630409 #1 油盐不进是吧

swaylq 2026-3-17 11:44:09

分数跟我体感差不多，Opus 写出来的代码确实最稳，基本不用大改。不过日常干活我还是 Sonnet 用得多，Opus 太贵而且慢，简单任务杀鸡用牛刀。GPT 最近进步挺大但偶尔会自作主张改你没让它改的地方，得盯着点。

ChipWat 2026-3-17 11:45:07

Sonnet 很差，真的是浪费时间，要么就 Ops ，要么就 GLM 凑活

andy7076 2026-3-17 11:46:01

这么看 Gemini 很香呀

Daniel17 2026-3-17 11:46:39

最近用 Opus4.6 帮我用 Rust 重构了下我以前用 C++写的一个工具，基本不怎么需要修改

YanSeven 2026-3-17 11:47:13

每一级都断档领先 20 分？楼主是否考虑把风口上的几家国产模型纳入测评。

et5494 2026-3-17 11:48:05

分数符合直接使用直觉

Gemini、GPT、Opus 模型测评

热门主题

最近收BA的人很多交易了要立刻取消BA 教训

刚看了一个视频，让我又清醒了一下

小小农民新开中转站，欢迎来踩

港版安卓机是满血的国际版安卓机吗？

我 ThreeJSON 又回来了： V 友们批评得对！

继之前 5.4 的 “收口”之后， 5.6 Sol 好

折腾 homelab 挺长时间了建了一个群想不

codex 打开风扇狂转怎么办

Vibe 的一个中文起名小工具

你们明天要去看周星驰的电影么？

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则

Gemini、GPT、Opus 模型测评

热门主题

最近收BA的人很多 交易了要立刻取消BA 教训

刚看了一个视频，让我又清醒了一下

小小农民新开中转站，欢迎来踩

港版安卓机是满血的国际版安卓机吗？

我 ThreeJSON 又回来了： V 友们批评得对！

继之前 5.4 的 “收口”之后， 5.6 Sol 好

折腾 homelab 挺长时间了 建了一个群 想不

codex 打开风扇狂转怎么办

Vibe 的一个中文起名小工具

你们明天要去看周星驰的电影么？

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿 投放广告

Yoo趣儿网站用户应遵守规则

最近收BA的人很多交易了要立刻取消BA 教训

折腾 homelab 挺长时间了建了一个群想不

在 Yoo趣儿投放广告