目前我已知的 ai 排行榜, 那个是更可信的, 国内 ai 哪个是体验接近的

查看 27|回复 4
作者:dwhh   
https://artificialanalysis.ai/leaderboards/models
https://livebench.ai/#/?highunseenbias=true
https://www.superclueai.com/generalpage
ai 排行与对比
https://arena.ai/text
经评论区提醒加:
https://vercel.com/ai-gateway/leaderboards
        
   
   
   
        第 2 条附言  ·  59 分钟前
        
        
        (arena)用一段简单代码对比测试(prompt 由 claude opus 生成, 不完全测试), 简单评价(模型均为最新最好)一下:
顶级: claude > chatgpt
优等: gemini > grok
对比 1: glm-5 > qwen
对比 2: kimi > longcat mimo
劣等: 豆包, deepseek, minimax, ernie
推荐使用方式:
关注模型评测网站, 选择表现好的实际网站, 在实际网站上选择表现好的最新最好模型, 不要使用快速模式.
生活化选择手机的语音 ai 或者豆包/品牌自带, 工作用顶级优等模型, 学习用优等及国产顶级模型, 龙虾关注次等模型厂商的 coding plan, 不要关注过于小众表现差的模型.
        
   
   
   
avenger   
经评论区提醒加:
https://vercel.com/ai-gateway/leaderboards
kuhung   
(arena)用一段简单代码对比测试(prompt 由 claude opus 生成, 不完全测试), 简单评价(模型均为最新最好)一下:
顶级: claude > chatgpt
优等: gemini > grok
对比 1: glm-5 > qwen
对比 2: kimi > longcat mimo
劣等: 豆包, deepseek, minimax, ernie
推荐使用方式:
关注模型评测网站, 选择表现好的实际网站, 在实际网站上选择表现好的最新最好模型, 不要使用快速模式.
生活化选择手机的语音 ai 或者豆包/品牌自带, 工作用顶级优等模型, 学习用优等及国产顶级模型, 龙虾关注次等模型厂商的 coding plan, 不要关注过于小众表现差的模型.
avenger   
这个也可以参考
https://vercel.com/ai-gateway/leaderboards
kuhung   
我认为 arena 的主观打分盲测更靠谱 只要有排行,就免不了那啥
要不就是使用主流最新模型,其他的看看就得了
您需要登录后才可以回帖 登录 | 立即注册

返回顶部