All Source Checks

Type	Entity	Claim	Verdict	Confidence	Sources	Last Checked
Benchmark Result	-	sid_bFjrDfX8rQ / GSM8K: 57.1	confirmed	95%	1	Apr 29, 2026
Benchmark Result	-	sid_bFjrDfX8rQ / DROP: 61.4	confirmed	95%	1	Apr 29, 2026
Benchmark Result	-	sid_bFjrDfX8rQ / HellaSwag: 85.5	confirmed	95%	1	Apr 29, 2026
Benchmark Result	-	sid_bFjrDfX8rQ / TruthfulQA: 47	confirmed	95%	1	Apr 29, 2026
Benchmark Result	-	sid_bFjrDfX8rQ / WinoGrande: 81.6	confirmed	95%	1	Apr 29, 2026
Benchmark Result	-	sid_oSG59ppF7g / MMLU: 80.1	confirmed	98%	1	Apr 29, 2026
Benchmark Result	-	sid_oSG59ppF7g / Aider Polyglot: 9.8	confirmed	95%	1	Apr 29, 2026
Benchmark Result	-	sid_kWPQCvjKSg / MMLU: 87.3	confirmed	99%	1	Apr 29, 2026
Benchmark Result	-	sid_kWPQCvjKSg / HumanEval: 89	confirmed	95%	1	Apr 29, 2026
Benchmark Result	-	sid_kWPQCvjKSg / MATH: 73.8	confirmed	99%	1	Apr 29, 2026
Benchmark Result	-	sid_tppPAkJqjQ / GSM8K: 95	confirmed	99%	1	Apr 29, 2026
Benchmark Result	-	sid_tppPAkJqjQ / HumanEval: 92	confirmed	99%	1	Apr 29, 2026
Benchmark Result	-	sid_tppPAkJqjQ / MMLU-Pro: 89.5	confirmed	99%	1	Apr 29, 2026
Benchmark Result	-	sid_tppPAkJqjQ / SimpleQA: 36	confirmed	99%	1	Apr 29, 2026
Benchmark Result	-	sid_tppPAkJqjQ / LiveCodeBench: 70.3	confirmed	99%	1	Apr 29, 2026
Benchmark Result	-	sid_tppPAkJqjQ / MGSM: 92.5	confirmed	99%	1	Apr 29, 2026
Benchmark Result	-	sid_tppPAkJqjQ / Humanity's Last Exam: 43.2	confirmed	98%	1	Apr 29, 2026
Benchmark Result	-	sid_Ac7c55KtVw / MMLU: 92.1	confirmed	99%	1	Apr 29, 2026
Benchmark Result	-	sid_Ac7c55KtVw / HumanEval: 95.4	confirmed	99%	1	Apr 29, 2026
Benchmark Result	-	sid_Ac7c55KtVw / BrowseComp: 84	confirmed	95%	1	Apr 29, 2026
Benchmark Result	-	sid_Ac7c55KtVw / MMMU: 76.5	confirmed	99%	1	Apr 29, 2026
Benchmark Result	-	sid_Ac7c55KtVw / GSM8K: 98.4	confirmed	99%	1	Apr 29, 2026
Benchmark Result	-	sid_Ac7c55KtVw / IFEval: 91.2	confirmed	99%	1	Apr 29, 2026
Benchmark Result	Claude 3.7 Sonnet	sid_ePVee3jidQ / MMMU: 69.1	confirmed	99%	1	Apr 24, 2026
Benchmark Result	Claude 3.7 Sonnet	sid_ePVee3jidQ / LiveCodeBench: 65.4	confirmed	99%	1	Apr 24, 2026
Benchmark Result	Claude 3.7 Sonnet	sid_ePVee3jidQ / GSM8K: 96.4	confirmed	99%	1	Apr 24, 2026
Benchmark Result	Claude 3.7 Sonnet	sid_ePVee3jidQ / MMLU-Pro: 78.4	confirmed	99%	1	Apr 24, 2026
Benchmark Result	Claude 3.7 Sonnet	sid_ePVee3jidQ / HumanEval: 94	confirmed	99%	1	Apr 24, 2026
Benchmark Result	Claude 3.5 Sonnet	sid_ISfAiImMYg / SWE-bench Verified: 49	confirmed	98%	1	Apr 24, 2026
Benchmark Result	Claude 3.5 Sonnet	sid_ISfAiImMYg / GSM8K: 96.4	confirmed	95%	1	Apr 24, 2026
Benchmark Result	Mistral	sid_v1e1ZwDwoA / HellaSwag: 84	confirmed	95%	1	Apr 24, 2026
Benchmark Result	Mistral	sid_v1e1ZwDwoA / MMLU: 60.1	confirmed	98%	1	Apr 24, 2026
Benchmark Result	Mistral	sid_v1e1ZwDwoA / HumanEval: 30.5	confirmed	98%	1	Apr 24, 2026
Benchmark Result	Mistral	sid_v1e1ZwDwoA / GSM8K: 40.3	confirmed	98%	1	Apr 24, 2026
Benchmark Result	Grok	sid_nnv09Wl5OQ / LiveCodeBench: 79.4	confirmed	95%	1	Apr 24, 2026
Benchmark Result	Grok	sid_nnv09Wl5OQ / Chatbot Arena Elo: 1402	confirmed	95%	1	Apr 24, 2026
Benchmark Result	Grok	sid_nnv09Wl5OQ / MMLU-Pro: 79.9	confirmed	95%	1	Apr 24, 2026
Benchmark Result	Grok	sid_nnv09Wl5OQ / GSM8K: 89.3	confirmed	95%	1	Apr 24, 2026
Benchmark Result	Grok	sid_nnv09Wl5OQ / HumanEval: 86.5	confirmed	95%	1	Apr 24, 2026
Benchmark Result	GPT-4.1 mini	sid_nywmt9QdsA / MathVista: 73.1	unverifiable	85%	1	Apr 24, 2026
Benchmark Result	GPT-4.1 mini	sid_nywmt9QdsA / MMLU: 80.1	confirmed	98%	1	Apr 24, 2026
Benchmark Result	GPT	sid_Gqv7h9oEwA / HellaSwag: 95	confirmed	95%	1	Apr 24, 2026
Benchmark Result	GPT	sid_Gqv7h9oEwA / GSM8K: 92	confirmed	95%	1	Apr 24, 2026
Benchmark Result	GPT	sid_Gqv7h9oEwA / MATH: 76.6	confirmed	95%	1	Apr 24, 2026
Benchmark Result	GPT	sid_Gqv7h9oEwA / MGSM: 90.5	confirmed	95%	1	Apr 24, 2026
Benchmark Result	GPT	sid_Gqv7h9oEwA / HumanEval: 90.2	confirmed	99%	1	Apr 24, 2026
Benchmark Result	GPT	sid_Gqv7h9oEwA / MMLU: 88.7	confirmed	98%	1	Apr 24, 2026
Benchmark Result	Gemini	sid_PaKhQQNPkg / MATH: 78.3	confirmed	95%	1	Apr 24, 2026
Benchmark Result	Gemini	sid_PaKhQQNPkg / MMLU: 92.4	confirmed	95%	1	Apr 24, 2026
Benchmark Result	Gemini	sid_PaKhQQNPkg / HumanEval: 89.7	confirmed	95%	1	Apr 24, 2026

Showing 1–50 of 67

PrevPage 1 of 2Next

Data from source_check_verdicts table. Click a row to view detailed evidence.