AI Evaluations

Evaluationactive

Data

Systematic testing and measurement of AI system capabilities, alignment, and safety properties.

Organizations

Grants

122

Total Funding

$111M

Risks Addressed

Cluster: Evaluation

Organizations4

Organization	Role
Anthropic	active
Alignment Research Center (ARC)	active
Google DeepMind	active
OpenAI	active

GrantsTop 50 of 122

Name	Recipient	Amount	Funder	Date
OpenMined Foundation — Secure Enclaves for LLM Evaluation	OpenMined	$11M	Coefficient Giving	2025-06
UC Davis — Malaria Gene Drive Feasibility Analysis (Greg Lanzaro) (2021)	University of California, Davis	$10M	Coefficient Giving	2021-12
RAND — AI Evaluation and Testing	RAND	$10M	Coefficient Giving	2025-09
University of Oxford — Malaria Vaccine Manufacturing	University of Oxford	$4.7M	Coefficient Giving	2024-12
UC Berkeley — Cyberoffense Benchmark	University of California, Berkeley	$3.4M	Coefficient Giving	2025-06
General Support of Alignment Research Center (Evals Team)	ARC Evaluations	$3.2M	Survival and Flourishing Fund (SFF)	2023-01
Center for Global Development — General Support (2019)	Center for Global Development	$3M	Coefficient Giving	2019-06
FutureHouse — Benchmarks for Biology Research and Development	FutureHouse	$2.9M	Coefficient Giving	2024-03
Stanford University — LLM Cybersecurity Benchmark	Stanford University	$2.9M	Coefficient Giving	2024-07
Harvard University — Antimalarial Bednet Development and Evaluation	Harvard University	$2.9M	Coefficient Giving	2024-05
African Union Development Agency — General Support (2020)	African Union Development Agency	$2.5M	Coefficient Giving	2020-04
New Partnership for Africa’s Development Planning and Coordinating Agency — General Support	New Partnership for Africa’s Development	$2.4M	Coefficient Giving	2017-04
IDinsight — Embedded GiveWell Team (2017)	IDinsight	$2.3M	Coefficient Giving	2017-05
Apollo Research — General Support	Apollo Research	$2.2M	Coefficient Giving	2024-05
IDinsight — Endline Evaluation of New Incentives RCT	IDinsight	$2.1M	Coefficient Giving	2019-08
New York University — LLM Cybersecurity Benchmark	New York University	$2.1M	Coefficient Giving	2024-07
Malaria Consortium — Monitoring and Evaluation of LLIN Distribution Campaign	Malaria Consortium	$2.1M	Coefficient Giving	2021-07
Center for Study of Science, Technology and Policy — Centre for Air Pollution Studies Initiative	CSTEP	$2M	Coefficient Giving	2023-08
IDinsight — General Support	IDinsight	$2M	Coefficient Giving	2016-06
University of Maryland — LLM Cybersecurity Benchmark	University of Maryland	$1.7M	Coefficient Giving	2024-09
Center for Open Science — LLM Research Benchmark	Center for Open Science	$1.7M	Coefficient Giving	2024-07
SeedAI — General Support	SeedAI	$1.6M	Coefficient Giving	2025-03
UC Davis — Malaria Gene Drive Feasibility Analysis (Greg Lanzaro)	University of California, Davis	$1.5M	Coefficient Giving	2020-02
UC Berkeley — Research on Rapid COVID-19 Serology Testing (Lisa Barcellos and Eva Harris)	University of California, Berkeley	$1.3M	Coefficient Giving	2020-04
Texas Organizing Project — Criminal Justice Reform (2017)	Texas Organizing Project	$1.2M	Coefficient Giving	2017-03
Owain Evans Research Group — AI Evaluations Research	Effective Ventures Foundation USA	$1.2M	Coefficient Giving	2023-05
Malaria Consortium — Monitoring and Evaluation of Net Distribution in Anambra, Nigeria	Malaria Consortium	$1.1M	Coefficient Giving	2021-12
Algorithmic Research Group — Language Model Capabilities Benchmarking (2024)	Algorithmic Research Group	$1.1M	Coefficient Giving	2024-08
Princeton University — Software Engineering LLM Benchmark	Princeton University	$1M	Coefficient Giving	2024-05
gui2de — Zusha! Road Safety Campaign (February 2017)	Georgetown University	$900K	Coefficient Giving	2017-02
Stanford University — LLM-Generated Research Ideation Benchmark	Stanford University	$880K	Coefficient Giving	2024-05
Princeton University — AI R&D Benchmark	Princeton University	$863K	Coefficient Giving	2024-09
Friedrich Schiller University Jena — Analytical Chemistry Benchmark	Friedrich Schiller University Jena	$829K	Coefficient Giving	2024-10
Evidence Action — Impact Evaluation of Iron and Folic Acid Supplementation (“Phase 2”)	Evidence Action	$800K	Coefficient Giving	2019-03
University of Illinois Foundation — LLM Hacking Benchmarks	University of Illinois Urbana-Champaign	$800K	Coefficient Giving	2024-01
Trustees of Boston University — LLM Research Benchmark	Boston University	$756K	Coefficient Giving	2024-07
University of California, Berkeley — Software Engineering Benchmark	University of California, Berkeley	$740K	Coefficient Giving	2024-08
Daniel Kang — Research on AI Benchmarks	Daniel Kang	$680K	Coefficient Giving	2024-12
Abdul Latif Jameel Poverty Action Lab — Innovation and Science Research	Abdul Latif Jameel Poverty Action Lab	$649K	Coefficient Giving	2022-08
University of Oxford — LLM Research Replication	University of Oxford	$622K	Coefficient Giving	2024-09
University of Illinois Urbana-Champaign — Zero-knowledge Proofs for Secure AI Audits	University of Illinois Urbana-Champaign	$615K	Coefficient Giving	2025-02
FutureSearch – Benchmark for Language Model Forecasting	FutureSearch	$607K	Coefficient Giving	2024-03
Yale University — LLM Persuasiveness Evaluation	Yale University	$596K	Coefficient Giving	2024-06
Grant to Model Evaluation & Threat Research (METR)	METR	$548K	Survival and Flourishing Fund (SFF)	2025
Carnegie Mellon University — Benchmark for Web-Based Tasks	Carnegie Mellon University	$547K	Coefficient Giving	2024-03
WestExec — Report on Assurance in Machine Learning Systems	WestExec	$540K	Coefficient Giving	2020-02
Precision Development – Trial Scoping	Precision Development	$540K	Coefficient Giving	2022-04
Metaculus — Forecasting Tournaments	Metaculus	$532K	Coefficient Giving	2024-05
iGEM — Synthetic Biology Safety and Security (2016)	International Genetically Engineered Machine Foundation	$520K	Coefficient Giving	2016-05
Cambridge in America — Data Science Benchmark	Cambridge in America	$518K	Coefficient Giving	2024-07

Funding by Funder

Funder	Grants	Total Amount
Coefficient Giving	85	$105M
Survival and Flourishing Fund (SFF)	3	$4M
Manifund	11	$1.1M
Long-Term Future Fund (LTFF)	15	$608K
Centre for Effective Altruism	4	$131K
Centre for Effective Altruism	4	$131K

Sub-Areas12

Name	Status	Orgs	Papers
Alignment EvaluationsEvaluations specifically designed to measure alignment properties: honesty, helpfulness, harmlessness, and value adherence.	active	4	0
Alignment FakingResearch on whether and how AI systems might pretend to be aligned during evaluation while pursuing different goals at deployment.	emerging	4	1
Backdoor DetectionDetecting adversarially implanted vulnerabilities in model weights.	active	4	0
Capability ElicitationMethods for discovering hidden or latent capabilities in AI systems.	active	4	0
Control EvaluationsStress-testing systems designed to constrain AI behavior; monitoring for collusion.	emerging	4	0
Dangerous Capability EvaluationsTesting AI systems specifically for dangerous capabilities like CBRN knowledge, cyber offense, autonomous replication, and persuasion.	active	4	0
Evaluation AwarenessStudying how AI systems might game evaluations by detecting when they are being tested.	active	4	0
Jailbreak ResearchResearch on prompt injection, jailbreaking attacks, and defenses for language model safety filters.	active	4	0
Red TeamingAdversarial testing of AI systems to discover failure modes, safety issues, and vulnerabilities, both manual and automated.	active	7	0
Reward Hacking of Human OversightEmpirically investigating how AI systems deceive or manipulate human evaluators.	emerging	4	0
Scheming DetectionResearch on detecting when AI systems are engaged in deceptive alignment or strategic manipulation of their training process.	emerging	4	0
Sleeper Agent DetectionResearch on detecting and mitigating backdoors, trojans, and time-delayed deceptive behavior in AI systems.	emerging	4	1

AI Evaluations

Organizations4

GrantsTop 50 of 122

Funding by Funder

Sub-Areas12

Tags