Safety Approaches Table

Columns:|

		Current research investment	Safety vs capability progress ratio	Recommended funding change	How much does this reduce catastrophic risk?	Does it make AI more capable?	Is the world safer with this?	Does it work as AI gets smarter?	Does it work against deceptive AI?	Works for superintelligent AI?	Current adoption level
RLHF	Training & Alignment	$1B+/yr	CAPABILITY-DOMINANT	REDUCE	LOW-MEDIUM	DOMINANT	UNCLEAR	BREAKS	NONE	NO	UNIVERSAL
Constitutional AI / RLAIF	Training & Alignment	$50-200M/yr	CAPABILITY-LEANING	MAINTAIN	MEDIUM	SIGNIFICANT	UNCLEAR	PARTIAL	WEAK	UNLIKELY	WIDESPREAD
AI Safety via Debate	Training & Alignment	$5-20M/yr	SAFETY-LEANING	INCREASE	UNKNOWN	SOME	UNCLEAR	MAYBE	PARTIAL	MAYBE	EXPERIMENTAL
Process Supervision	Training & Alignment	$100-500M/yr	BALANCED	MAINTAIN	MEDIUM	SIGNIFICANT	HELPFUL	PARTIAL	PARTIAL	UNLIKELY	WIDESPREAD
Weak-to-Strong Generalization	Training & Alignment	$10-50M/yr	SAFETY-LEANING	INCREASE	UNKNOWN	SOME	UNCLEAR	UNKNOWN	UNKNOWN	MAYBE	EXPERIMENTAL
Reward Modeling	Training & Alignment	$500M+/yr	CAPABILITY-DOMINANT	REDUCE	LOW	SIGNIFICANT	UNCLEAR	PARTIAL	NONE	NO	UNIVERSAL
Cooperative IRL (CIRL)	Training & Alignment	$1-5M/yr	SAFETY-DOMINANT	INCREASE	MEDIUM	NEUTRAL	HELPFUL	UNKNOWN	PARTIAL	MAYBE	NONE
Model Specifications	Training & Alignment	$10-30M/yr	SAFETY-LEANING	INCREASE	MEDIUM	SOME	HELPFUL	PARTIAL	WEAK	UNLIKELY	WIDESPREAD
Adversarial Training	Training & Alignment	$50-150M/yr	BALANCED	MAINTAIN	LOW-MEDIUM	SOME	HELPFUL	PARTIAL	NONE	NO	UNIVERSAL
Cooperative AI	Training & Alignment	$5-20M/yr	SAFETY-LEANING	INCREASE	MEDIUM	SOME	HELPFUL	UNKNOWN	PARTIAL	MAYBE	EXPERIMENTAL
Mechanistic Interpretability	Interpretability	$50-150M/yr	SAFETY-DOMINANT	PRIORITIZE	LOW (now) / HIGH (potential)	NEUTRAL	HELPFUL	UNKNOWN	STRONG (if works)	MAYBE	EXPERIMENTAL
Sparse Autoencoders (SAEs)	Interpretability	$10-30M/yr	SAFETY-DOMINANT	INCREASE	LOW (now)	NEUTRAL	HELPFUL	PARTIAL	PARTIAL	UNKNOWN	EXPERIMENTAL
Representation Engineering	Interpretability	$5-20M/yr	SAFETY-LEANING	INCREASE	MEDIUM	SOME	HELPFUL	PARTIAL	PARTIAL	UNKNOWN	EXPERIMENTAL
Probing / Linear Probes	Interpretability	$5-10M/yr	SAFETY-DOMINANT	MAINTAIN	LOW	NEUTRAL	HELPFUL	YES	PARTIAL	MAYBE	WIDESPREAD
Dangerous Capability Evaluations	Evaluation	$20-50M/yr	SAFETY-DOMINANT	INCREASE	MEDIUM	NEUTRAL	HELPFUL	PARTIAL	WEAK	UNLIKELY	WIDESPREAD
Red Teaming	Evaluation	$50-200M/yr	BALANCED	MAINTAIN	LOW-MEDIUM	NEUTRAL	HELPFUL	PARTIAL	NONE	NO	UNIVERSAL
Alignment Evaluations	Evaluation	$10-30M/yr	SAFETY-DOMINANT	PRIORITIZE	MEDIUM	NEUTRAL	HELPFUL	UNKNOWN	WEAK	UNLIKELY	SOME
Third-Party Model Auditing	Evaluation	$10-30M/yr	SAFETY-DOMINANT	INCREASE	LOW-MEDIUM	NEUTRAL	HELPFUL	PARTIAL	WEAK	UNLIKELY	SOME
AI Safety Cases	Evaluation	$5-15M/yr	SAFETY-DOMINANT	PRIORITIZE	MEDIUM-HIGH	TAX	HELPFUL	PARTIAL	PARTIAL	UNLIKELY	EXPERIMENTAL
Capability Elicitation	Evaluation	$10-30M/yr	SAFETY-LEANING	INCREASE	MEDIUM	SOME	HELPFUL	PARTIAL	WEAK	NO	SOME
Sleeper Agent Detection	Evaluation	$5-15M/yr	SAFETY-DOMINANT	PRIORITIZE	HIGH (if works)	NEUTRAL	HELPFUL	UNKNOWN	UNKNOWN	UNKNOWN	EXPERIMENTAL
Output Filtering	Architectural	$50-200M/yr	BALANCED	MAINTAIN	LOW	TAX	NEUTRAL	BREAKS	NONE	NO	UNIVERSAL
Refusal Training	Architectural	(included in RLHF)	BALANCED	MAINTAIN	LOW-MEDIUM	TAX	NEUTRAL	BREAKS	NONE	NO	UNIVERSAL
Sandboxing / Containment	Architectural	$20-50M/yr	SAFETY-LEANING	INCREASE	MEDIUM	TAX	HELPFUL	PARTIAL	PARTIAL	UNLIKELY	SOME
Tool-Use Restrictions	Architectural	$10-30M/yr	SAFETY-DOMINANT	INCREASE	MEDIUM	TAX	HELPFUL	PARTIAL	PARTIAL	PARTIAL	WIDESPREAD
Monitoring / Trip Wires	Architectural	$10-30M/yr	SAFETY-DOMINANT	INCREASE	MEDIUM	NEUTRAL	HELPFUL	PARTIAL	WEAK	NO	SOME
Circuit Breakers / Inference Interventions	Architectural	$10-30M/yr	SAFETY-LEANING	INCREASE	MEDIUM	TAX	HELPFUL	PARTIAL	WEAK	NO	SOME
Structured Access / API-Only	Architectural	$20-50M/yr	SAFETY-LEANING	MAINTAIN	MEDIUM-HIGH	TAX	HELPFUL	YES	N/A	PARTIAL	WIDESPREAD
Compute Governance	Governance	$5-20M/yr	SAFETY-DOMINANT	PRIORITIZE	MEDIUM-HIGH	NEGATIVE	HELPFUL	YES	N/A	PARTIAL	SOME
Responsible Scaling Policies	Governance	$5-15M/yr	SAFETY-DOMINANT	INCREASE	MEDIUM	NEUTRAL	HELPFUL	UNKNOWN	PARTIAL	UNLIKELY	SOME
Evals-Based Deployment Gates	Governance	$10-30M/yr	SAFETY-DOMINANT	INCREASE	MEDIUM	TAX	HELPFUL	PARTIAL	WEAK	NO	SOME
Model Registries / Licensing	Governance	$5-15M/yr	SAFETY-DOMINANT	INCREASE	LOW-MEDIUM	TAX	HELPFUL	YES	N/A	PARTIAL	EXPERIMENTAL
Pause / Moratorium	Governance	$1-5M/yr	SAFETY-DOMINANT	MAINTAIN	HIGH (if implemented)	NEGATIVE	UNCLEAR	UNKNOWN	N/A	YES (if works)	NONE
International AI Governance	Governance	$10-30M/yr	SAFETY-DOMINANT	PRIORITIZE	MEDIUM-HIGH	TAX	HELPFUL	PARTIAL	N/A	PARTIAL	EXPERIMENTAL
Formal Verification	Theoretical	$5-20M/yr	SAFETY-DOMINANT	INCREASE	HIGH (if achievable)	TAX	HELPFUL	UNKNOWN	STRONG (if works)	MAYBE	NONE
Provably Safe AI (davidad agenda)	Theoretical	$10-50M/yr	SAFETY-DOMINANT	INCREASE	CRITICAL (if works)	TAX	HELPFUL	UNKNOWN	STRONG (by design)	YES (if works)	NONE
Corrigibility Research	Theoretical	$1-5M/yr	SAFETY-DOMINANT	PRIORITIZE	HIGH (if solved)	NEUTRAL	HELPFUL	UNKNOWN	PARTIAL	MAYBE	NONE
Goal Misgeneralization Research	Theoretical	$5-20M/yr	BALANCED	INCREASE	MEDIUM	SOME	HELPFUL	PARTIAL	N/A	UNKNOWN	EXPERIMENTAL
Eliciting Latent Knowledge (ELK)	Theoretical	$5-15M/yr	SAFETY-LEANING	PRIORITIZE	HIGH (if solved)	SOME	HELPFUL	UNKNOWN	STRONG (if solved)	MAYBE	NONE
Capability Unlearning / Removal	Theoretical	$5-20M/yr	SAFETY-DOMINANT	INCREASE	HIGH (if works)	NEGATIVE	HELPFUL	UNKNOWN	WEAK	UNLIKELY	EXPERIMENTAL
AI Control	Theoretical	$10-30M/yr	SAFETY-DOMINANT	PRIORITIZE	HIGH	TAX	HELPFUL	UNKNOWN	PARTIAL	CRITICAL QUESTION	SOME