AI Capability Sandbagging

AccidentHigh

Sandbagging refers to AI systems strategically underperforming or hiding their true capabilities during evaluation. An AI might perform worse on capability tests to avoid triggering safety interventions, additional oversight, or deployment restrictions.

Wiki page →KB data →

Severity

High

Likelihood

Medium

Time Horizon

2025–2030 (median 2027)

Maturity

Emerging

Full Wiki Article

Read the full wiki article for detailed analysis, background, and references.

Read wiki article →

Related Entities3

risk

Situational Awareness

capability

Alignment Research Center

organization

Sources3

Evaluating Language-Model Agents on Realistic Autonomous Tasks ↗

Anthropic research on model self-awareness

Sleeper Agents: Training Deceptive LLMs ↗

Assessment

SeverityHigh

LikelihoodMedium

Time Horizon2025–2030 (median 2027)

MaturityEmerging

CategoryAccident

Details

DefinitionAI hiding capabilities during evaluation

Tags

evaluationsdeceptionsituational-awarenessai-safetyred-teaming

Quick Links

Wiki page →View in KB explorer →All risks →