$ tasks

Tasks

Tasks in detail

Click a task to see every model's response. Each task card shows the top 3 models by mean score. The full set of trials for each task is in /raw/.

code_debug

139 trials 2.6 avg score 26 pass

code_gen_long

139 trials 3.7 avg score 95 pass

json_strict

139 trials 4.6 avg score 127 pass

summarize

139 trials 4.2 avg score 106 pass

creative_write

139 trials 0.7 avg score 14 pass

reasoning_multistep

139 trials 4.8 avg score 133 pass

agentic_prompt

139 trials 3.8 avg score 94 pass