Claude 3.5 Sonnet on SWE-bench Verified: 49

benchmark-result

Metadata

`id`	ZrlsN6im3t
`benchmarkId`	WOSlsBTTmV
`modelId`	Claude 3.5 Sonnet(ai-model)
`score`	49
`unit`	percent
`date`	2024-10-22
`sourceUrl`	—
`notes`	Updated Claude 3.5 Sonnet, real-world software engineering (GitHub issues)
`testedBy`	unknown
`testedByOrgId`	—
`evaluationDate`	—
`methodologyNotes`	—

confirmed98% confidence

Last checked: 4/24/2026

Inline sourcing: confirmed

Debug info

Thing ID: ZrlsN6im3t

Source Table: benchmark_results

Source ID: ZrlsN6im3t

Parent Thing ID: WOSlsBTTmV