Toy Models for Interpretability

Interpretabilityactive

Small simplified model proxies that capture key deep learning dynamics for interpretability research.

Organizations

Key Papers

Cluster: Interpretability