孤独的裁判员：高效地人工评估 LLM fine-tuning 效果 ...

幸幸苦苦更新了数据集……fine-tuning 训练得到了一堆不同步数的 checkpoints……但是，要选哪一个呢？这次训练结果跟上一次比有没有提升呢？
选一个 LLM 评估套件吧。C-Eval ？ CMMLU ？ BBH ？可是我的模型它不擅长考试啊！自制一个领域内评估套件？可是我的领域很难制定客观标准啊！让 GPT-4 当裁判？OpenAI: This prompt may violate our content policy.
还是手动做人工评估吧。望向一大堆生成结果，能不能减少一些心智负担呢？
我将人工评估的过程抽丝剥茧，最后剩下灵魂一问：

按 f 键或 j 键裁定对决结果。
这个工具会自动将模型回答的采样结果配对转化成淘汰赛。对于每个 prompt ，如果两个模型各进行 8 次采样，评判过程会被分解成大约 20 次的这种两两对决。淘汰赛的详细规则我写在项目 README 里了。因为目前只比较两个模型并且我给不同比赛加了不同权重，所以暂时没有采用 Elo 计分。
那么，https://github.com/Contextualist/lone-arena
作为对机器学习社群文化的致意，本项目界面采用 Gradio 编写。

孤独的裁判员：高效地人工评估 LLM fine-tuning 效果

浏览过的版块

热门主题

[2025.10.22]WIN11.23H2企业版22631.6130 P

股票当日成交的分价表

初学者值得学习的歌曲宝小爬虫

音乐封面&id3标签编辑器

鸿蒙6正式发布 90余款机型开放升级

求教提取这种网页音频的方法

三个维度带你看三季度中国经济

直发个人！生育津贴这些知识要知道

武汉一网吧提供海鲜自助走红

这个错误是什么东西？

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则