SWE-bench Verified

Coding

A curated subset of SWE-bench with human-verified task instances for evaluating AI systems on real-world software engineering tasks from GitHub issues.

Wiki page →Website →Data →

Models Tested

Best Score

80.9%

Median Score

68.1%

Scoring: percentage

Introduced: 2024-08

Maintainer: OpenAI / Princeton NLP

Leaderboard21 models

#	Model	Developer	Score
🥇	Claude Opus 4.5	Anthropic	80.9%
🥈	Claude Opus 4.6	Anthropic	80.8%
🥉	Claude Sonnet 4.6	Anthropic	79.6%
4	Claude Sonnet 4.5	Anthropic	77.2%
5	Claude Opus 4.1	Anthropic	74.5%
6	Claude Haiku 4.5	Anthropic	73.3%
7	Claude Sonnet 4	Anthropic	72.7%
8	Claude Opus 4	Anthropic	72.5%
9	Claude 3.7 Sonnet	Anthropic	70.3%
10	o3	OpenAI	69.1%
11	o4-mini	OpenAI	68.1%
12	Gemini 2.5 Pro	Google DeepMind	63.8%
13	Gemini 2.5 Flash	Google DeepMind	60.4%
14	GPT-4.1	OpenAI	54.6%
15	Grok-3	xAI	53.2%
16	o3-mini	OpenAI	49.3%
17	DeepSeek R1	DeepSeek	49.2%
18	Claude 3.5 Sonnet	Anthropic	49%
19	o1	OpenAI	48.9%
20	DeepSeek V3	DeepSeek	42%
21	Claude 3.5 Haiku	Anthropic	40.6%