LLM 评估

今天看到一个有意思的 repo,作者用一个 DSL 来评估 LLM 的能力
DSL
"Write a C program that draws an american flag to stdout." >> LLMRun() >> CRun() >> \
LLMRun("What flag is shown in this image?") >> \
(SubstringEvaluator("United States") | SubstringEvaluator("USA") | SubstringEvaluator("America"))

https://github.com/carlini/yet-another-applied-llm-benchmark

https://nicholas.carlini.com/writing/2024/evaluation_examples/index.html

其中有一个 python convert to c(这个我第一次没反应过来哈哈) 问题很有意思,所有的 llm 都错了.
Question
def foo(x):
sum = 0
for i in range(x):
x += i
sum += x
return sum
LLM OUTPUT
#include
int foo(int x) {
int sum = 0;
for (int i = 0; i
Reference
python_to_c_loop_update

LLM 评估

浏览过的版块

热门主题

企业贷款利率3%左右，个人消费贷款7%到23%

卢松松也被d了吗

又一个下载站关闭了........

(鸟哥)大神都不更新博客了

域名城现在成一坨翔了

AI写代码最大的毛病，就是反复造轮子

又一个号被推荐了，所以公众号坚持发吧

翻箱倒柜八年前建的站长社区

昨晚成为spaceX的股东

近乎直线距离的下降

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿投放广告

Yoo趣儿网站用户应遵守规则

LLM 评估

浏览过的版块

热门主题

企业贷款利率3%左右，个人消费贷款7%到23%

卢松松也被d了吗

又一个下载站关闭了........

(鸟哥)大神都不更新博客了

域名城 现在成一坨翔了

AI写代码最大的毛病，就是反复造轮子

又一个号被推荐了，所以公众号坚持发吧

翻箱倒柜八年前建的站长社区

昨晚成为spaceX的股东

近乎直线距离的下降

热门板块

公告

网站帮助 - Yoo趣儿

我们的愿景

在 Yoo趣儿 投放广告

Yoo趣儿网站用户应遵守规则

域名城现在成一坨翔了

在 Yoo趣儿投放广告