GPQA Diamond

Reasoning

Graduate-level Google-Proof Q&A Diamond subset — extremely difficult questions in physics, chemistry, and biology that even domain experts struggle with.

Wiki page →Data →

Models Tested

Best Score

91.3%

Median Score

62.5%

Scoring: accuracy

Introduced: 2023-11

Maintainer: David Rein et al.

Leaderboard38 models

#	Model	Developer	Score
🥇	Claude Opus 4.6	Anthropic	91.3%
🥈	Claude Opus 4.5	Anthropic	87%
🥉	Gemini 2.5 Pro	Google DeepMind	84%
4	Claude Sonnet 4.5	Anthropic	83.4%
5	o3	OpenAI	83.3%
6	Gemini 2.5 Flash	Google DeepMind	82.8%
7	o4-mini	OpenAI	81.4%
8	Claude Opus 4.1	Anthropic	81%
9	Grok-3	xAI	80%
10	o3-mini	OpenAI	79.7%
11	o1	OpenAI	79.2%
12	o1-preview	OpenAI	78%
13	Claude Opus 4	Anthropic	74.1%
14	Claude Sonnet 4.6	Anthropic	74.1%
15	DeepSeek R1	DeepSeek	71.5%
16	Claude Sonnet 4	Anthropic	70.3%
17	Llama 4 Maverick	Meta AI (FAIR)	69.8%
18	Claude 3.7 Sonnet	Anthropic	68%
19	Claude 3.5 Sonnet	Anthropic	65%
20	o1-mini	OpenAI	60%
21	DeepSeek V3	DeepSeek	59.1%
22	Llama 4 Scout	Meta AI (FAIR)	57.2%
23	Gemini 2.0 Flash	Google DeepMind	57%
24	GPT-4.1	OpenAI	56.4%
25	Grok-2	xAI	56.4%
26	GPT-4o	OpenAI	53.6%
27	Llama 3.1	Meta AI (FAIR)	50.7%
28	Claude 3 Opus	Anthropic	50.4%
29	GPT-4 Turbo	OpenAI	49.3%
30	Llama 3.3	Meta AI (FAIR)	49.2%
31	Mistral Large 2	Mistral AI	43.9%
32	Claude 3.5 Haiku	Anthropic	41.6%
33	Claude 3 Sonnet	Anthropic	40.4%
34	GPT-4o mini	OpenAI	39.8%
35	Llama 3	Meta AI (FAIR)	39.5%
36	GPT-4	OpenAI	35.7%
37	Gemini 1.0 Ultra	Google DeepMind	35.4%
38	Claude 3 Haiku	Anthropic	33.3%