请教下 AI 中转站模型真伪测试跑分标准

因为有的中转站会造假，所以就整了个 AI 中转站的跑分网页。
网站上个月就做出来了，但之前比较忙，还没有开始真的按计划跑。
这段时间我也接触过其他的一些中转站，按正常来说，比如 GPT5.5 模型，是支持图片的，
但是为什么我在使用一些中转站的时候，提示他不支持图片？如果做其他内容测试吧，又判断出来是 GPT5.5 的模型？
我现在的跑分测试是 25 个，考虑到网络延迟的情况，很多都做了最低标准的限制。
我自己是想加上图片测试的，但是测试几个结果和我想象的不一样，是我提示词不对吗。
各位还有什么好的建议，可以尽可能的去测试模型的真伪？
https://www.jingxialai.com/apirank/
现在网站上的几个中转站有这两天新提交的，也有我在其他群里面看见，我加进去的。
这是我现在的：
① 自我认知探测
② API 响应字段核查
③ 字母计数测试
④ 单词逆序测试
⑤ 语言陷阱题
⑥ 数学推理
⑦ 组合数学
⑧ 数值比较
⑨ 精确格式控制
⑩ 响应速度分析
⑪ 一致性重复测试
⑫ 幻觉检测
⑬ 复杂指令遵循
⑭ 反事实推理
⑮ 高级逻辑推理
⑯ 代码生成
⑰ 流式输出检测
⑱ 知识截止日期探测
⑲ 中文能力深度测试
⑳ 异构语言查错 (Rust)
㉑多轮对话记忆测试
㉒函数调用能力探针
㉓多模态盲降级探测
㉔空间方向推理测试
㉕极端字符约束能力

请教下 AI 中转站模型真伪测试跑分标准

浏览过的版块

热门主题

盲猜 2 小时后发布 GPT-5.6!

做了一个 5 Letter Word Finder：按 Wordle

[分享] 分享一个我做的新闻 CLI 可以帮助大

小米手机贴膜掉了，去小米之家或者授权体验

我当年混铁血论坛，坛友们混哪里？

中级职称考试，过了~以后也是有职称的人了

限时免费公益codex满血5.55.4可用，免费分

3117倒闭了吗？

我做了一个给 AI 时代用的内容发布工具：即

codex 似乎也没有说的那么神~

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则

请教下 AI 中转站模型真伪测试跑分标准

浏览过的版块

热门主题

盲猜 2 小时后发布 GPT-5.6!

做了一个 5 Letter Word Finder：按 Wordle

[分享] 分享一个我做的新闻 CLI 可以帮助大

小米手机贴膜掉了，去小米之家或者授权体验

我当年混铁血论坛，坛友们混哪里？

中级职称考试，过了~以后也是有职称的人了

限时免费公益codex满血5.55.4可用，免费分

3117倒闭了吗？

我做了一个给 AI 时代用的内容发布工具：即

codex 似乎也没有说的那么神~

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿 投放广告

Yoo趣儿网站用户应遵守规则

在 Yoo趣儿投放广告