网站上个月就做出来了,但之前比较忙,还没有开始真的按计划跑。
这段时间我也接触过其他的一些中转站,按正常来说,比如 GPT5.5 模型,是支持图片的,
但是为什么我在使用一些中转站的时候,提示他不支持图片?如果做其他内容测试吧,又判断出来是 GPT5.5 的模型?
我现在的跑分测试是 25 个,考虑到网络延迟的情况,很多都做了最低标准的限制。
我自己是想加上图片测试的,但是测试几个结果和我想象的不一样,是我提示词不对吗。
各位还有什么好的建议,可以尽可能的去测试模型的真伪?
https://www.jingxialai.com/apirank/
现在网站上的几个中转站有这两天新提交的,也有我在其他群里面看见,我加进去的。
这是我现在的:
① 自我认知探测
② API 响应字段核查
③ 字母计数测试
④ 单词逆序测试
⑤ 语言陷阱题
⑥ 数学推理
⑦ 组合数学
⑧ 数值比较
⑨ 精确格式控制
⑩ 响应速度分析
⑪ 一致性重复测试
⑫ 幻觉检测
⑬ 复杂指令遵循
⑭ 反事实推理
⑮ 高级逻辑推理
⑯ 代码生成
⑰ 流式输出检测
⑱ 知识截止日期探测
⑲ 中文能力深度测试
⑳ 异构语言查错 (Rust)
㉑ 多轮对话记忆测试
㉒ 函数调用能力探针
㉓ 多模态盲降级探测
㉔ 空间方向推理测试
㉕ 极端字符约束能力

