做了个 2026 世界杯概率预测站，顺手拿它做了个「LLM 能 ...

站在这儿： https://wcelo.com
起因是我对那些「 AI 预测世界杯」一直有点怀疑——大多没法证伪，赛后还能随便挑口径圆
回来。所以我干脆把它做成一个能打脸自己的实验：开赛前把三个假设写死、git commit
冻结、锁定赛后怎么算分，之后只许按这套规则结算。
三个假设：
[ol]

每天拿赛果更新模型，到底比「赛前冻结那版」强不强？（很多号称 live 的模型从不验这个）

概率准不准（校准误差 ECE ≤ 0.05 ）？

我最想知道的：让大模型（ Claude ）每个比赛日前联网读伤病 / 停赛 / 预计首发 / 死亡
之组放水这些「软信息」，折成一个有界的实力修正，它能不能赢过一个 1997 年的纯
统计模型（ Elo + 双泊松 + 10 万次蒙卡）？
[/ol]
模型本身很常规、不炫技，好玩的是这套不能反悔的设计。也把我们的概率和 Polymarket /
Stake 的盘口摆一起，但不指望赢市场——人家有伤病和内幕，我没有，输给它才正常。
说实话我的先验是「大模型多半只加噪声」，但我按最强形态把它实现了，免得验证变成
自我实现。方法和预注册都在站内 /method 。
小组赛今晚开打，欢迎来拍，尤其第 3 条的设计。

做了个 2026 世界杯概率预测站，顺手拿它做了个「LLM 能不能赢过统计模型」的预注册实验

热门主题

最近收BA的人很多交易了要立刻取消BA 教训

刚看了一个视频，让我又清醒了一下

小小农民新开中转站，欢迎来踩

港版安卓机是满血的国际版安卓机吗？

我 ThreeJSON 又回来了： V 友们批评得对！

继之前 5.4 的 “收口”之后， 5.6 Sol 好

折腾 homelab 挺长时间了建了一个群想不

codex 打开风扇狂转怎么办

Vibe 的一个中文起名小工具

你们明天要去看周星驰的电影么？

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则