Platonische Schattenspiele

Unconscious Bias & Diversity Trainings

Juni 24, 2025

TL;DR: Unconscious-Bias-Trainings funktionieren nicht - trotz Milliarden-Investitionen verschwinden die Effekte nach 3 Wochen und können sogar kontraproduktiv sein. Organisationen buchen sie trotzdem nicht aus Naivität, sondern für Sichtbarkeit, Symbolik und Budgetlogik. Als Trainer sagt der Autor seinen Kunden ehrlich: "Vorurteile abbauen kann ich nicht garantieren" - und wird trotzdem gebucht. Statt individueller Bewusstseinsarbeit braucht es strukturelle Änderungen und langfristige Begleitung. Diversity-Arbeit ist zu wichtig für unwirksame Methoden.

Am 21.05.2025 war ich auf einem Fachtag zum Thema “Alles eine Frage von Trainings” der Universität Freiburg, bei dem unter anderem Frank Dobbin von der Harvard University sprach – einer der weltweit führenden Experten für Diversity-Maßnahmen in Organisationen. Sein Fazit war eindeutig: Unconscious-Bias-Trainings, wie sie in vielen Unternehmen und Hochschulen eingesetzt werden, führen nicht zu nachweisbaren Verhaltensänderungen. Sie zeigen in der Regel keine Wirkung auf das, was Menschen tatsächlich tun. Das wissen wir auch nicht erst seit gestern, sondern seit Jahrzehnten.

Das deckt sich mit meiner eigenen Erfahrung. Ich biete selbst Diversity- und Unconscious-Bias-Trainings an – und werde oft von Hochschulen kontaktiert, die sagen: „Herr Tillmann, Sie haben ja Expertise – könnten Sie bei uns ein Bias-Training machen?“
Meine Gegenfrage lautet dann: „Was genau möchten Sie damit erreichen?“
Die Antwort ist fast immer dieselbe: „Wir möchten Vorurteile abbauen.“

Und an dieser Stelle bin ich ehrlich: Das kann ich nicht liefern. Bias – insbesondere kognitive Verzerrungen – lassen sich nicht einfach „wegtrainieren“. Es gibt derzeit keine Intervention auf Individualebene, die zuverlässig und langfristig kognitive Biases reduziert. Bei anderen Formen, etwa Präferenz-Bias, gibt es punktuelle Ansätze – aber auch diese sind nicht in einem kurzen Light-Touch-Training anwendbar.

Was ich hingegen anbieten kann: Wissen, Reflexionsräume und eine realistische Einordnung. Trainings wie meines können sensibilisieren, Routinen irritieren, Denkprozesse anstoßen. Sie können helfen zu verstehen, dass Vorurteile keine Frage von Moral, sondern Teil menschlicher Kognition sind. Und genau darin liegt eine Chance – nämlich dort, wo es nicht um individuelles Umdenken unter Stress geht, sondern um strukturelle Maßnahmen, die Verzerrungen abfedern.

Dieser Beitrag ist der Versuch, die wissenschaftliche Evidenz zu Diversity- und Unconscious-Bias-Trainings nüchtern zusammenzufassen – und zu erklären, warum sie trotz aller Zweifel so verbreitet sind.

Die Popularität und Verbreitung von Diversity-Trainings

Die Zahlen sind beeindruckend: Allein in den USA wurden 2018 rund acht Milliarden Dollar für organisationale Diversity-Trainings ausgegeben, mit steigender Tendenz nach dem Tod von George Floyd im Jahr 2020. Von den US-Streitkräften bis zu Universitäten und Unternehmen – viele Organisationen setzen auf solche Programme, häufig in Verbindung mit dem "Implicit Association Test" (IAT). Über den IAT habe ich schon in einem früheren Newsletter geschrieben und ein sehr negatives Fazit gezogen.

In Deutschland zeigen Umfragen der Charta der Vielfalt, dass 82 Prozent der Mitgliedsunternehmen Diversity-Maßnahmen umsetzen, während es bei Nicht-Mitgliedern nur 34 Prozent sind. Die Investitionen in diesem Bereich sind also beträchtlich und wachsen weiter.

Was die Wissenschaft über die Wirksamkeit sagt

Die Forschungslage zeichnet ein ernüchterndes Bild über die tatsächliche Wirksamkeit vieler Diversity-Trainings:

Kurzfristige vs. langfristige Effekte: Eine Meta-Analyse von Bezrukova und Kollegen (2016) mit 260 verschiedenen Stichproben zeigt zwar messbare Effekte direkt nach dem Training auf kognitives Lernen (g = 0.57), Verhaltenslernen (g = 0.48) und Einstellungen (g = 0.30). Diese Effekte sind jedoch, mit Ausnahme des reinen Wissenserwerbs, meist temporär und verschwinden nach kurzer Zeit wieder. Studien, die nicht nur direkt nach dem Training, sondern auch einige Wochen später messen, zeigen, dass die meisten Trainingseffekte bereits nach drei Wochen nicht mehr nachweisbar sind (Chang et al., 2019; Hill & Augoustinos, 2001). Besonders deutlich wird das Problem in dem umfassenden Review von Devine und Ash (2021), die über 250 Studien aus drei Bereichen analysierten: Organisationen, Gesundheitswesen und Bildung. Ihr ernüchterndes Fazit: "Die verfügbare Literatur über Diversity Training ist amorph und komplex und erlaubt es uns nicht, eindeutige Schlussfolgerungen über bewährte Praktiken im Diversity Training zu ziehen." Die Autorinnen stellen fest, dass "die Begeisterung für und die monetären Investitionen in Diversity Training die verfügbaren Belege dafür überholt haben, dass solche Programme bei der Erreichung ihrer Ziele wirksam sind.”

Methodenbox: Was bedeutet "g"?
Hedge's g ist ein standardisiertes Maß für die Effektstärke in wissenschaftlichen Studien. Es gibt an, wie groß der Unterschied zwischen zwei Gruppen oder Zeitpunkten ist, unabhängig von der ursprünglichen Maßeinheit. Richtwerte für die Interpretation:

g ≈ 0.2: Kleiner Effekt, g ≈ 0.5: Mittlerer Effekt, g ≈ 0.8: Großer Effekt
Bei den Diversity-Trainings sehen wir demnach mittlere Effekte bei kognitivem und Verhaltenslernen, aber eher kleine Effekte bei Einstellungsänderungen – die zudem nach kurzer Zeit verschwinden.
Zur Veranschaulichung: Der durchschnittliche Größenunterschied zwischen Männern und Frauen beträgt etwa 14 cm und entspricht einem sehr großen Effekt von g ≈ 2. Ein Effekt von g = 0,5 – wie beim kognitiven Lernen nach dem Training – käme dagegen nur etwa 3,5 cm gleich – und das auch nur für sehr kurze Zeit.

Methodische Probleme und Überschätzung: Ältere und methodisch schwächere Studien finden tendenziell größere Effektgrößen als neuere, methodisch robustere Untersuchungen. Thomas Schäfer und Marcus Schwarz (2019) zeigen, dass generell Studien mit strengeren Methoden wie Präregistrierung systematisch niedrigere Effektgrößen aufweisen. Dies deutet darauf hin, dass die Wirksamkeit solcher Trainings überschätzt werden könnte, wenn sie auf älteren Studien basiert. Auch Elizabeth Paluck und Kollegen (2021) fanden, dass Studien mit größeren Stichproben und robusteren Methoden deutlich geringere Effektgrößen berichten.
Publikationsbias: Es gibt konkrete Hinweise auf einen Publikationsbias – Studien mit statistisch signifikanten Ergebnissen werden häufiger veröffentlicht als solche, die keine Zusammenhänge finden (Paluck et al., 2021). Daniele Fanelli (2010) beschreibt dieses Problem als Teil einer "Hierarchie der Wissenschaften", wobei es in den weicheren Wissenschaften wie der Psychologie häufiger vorkommt, dass Hypothesen bestätigt werden. Dies führt zu einem verzerrten Bild in der wissenschaftlichen Literatur.

Mögliche negative Konsequenzen ineffektiver Trainings

Besonders beunruhigend sind vereinzelte Hinweise darauf, dass ineffektive Diversity-Trainings sogar kontraproduktiv sein können.

Verschärfung bestehender Konflikte: Wenn Führungskräfte die verpflichtende Teilnahme an Trainings als Angriff empfinden, kann dies dazu führen, dass sie Minderheiten anschließend schlechter behandeln als zuvor. In einem Experiment mit Managern konnten Sanchez und Medkik (2004) zeigen, dass Diversity-Trainings dazu führen können, dass Angehörige von Minderheiten nach dem Training schlechter behandelt wurden. Besonders interessant an dieser Studie ist, dass es eine Vergleichsgruppe gab, die nicht am Training teilnahm und die keine schlechtere Behandlung ihrer Kollegen aus Minderheiten zeigte.
Reaktanz bei wahrgenommener Autonomieeinschränkung: Werden Diversity-Maßnahmen als externe Kontrollversuche normativer oder zwanghafter Art wahrgenommen, können sie die persönliche Autonomie der Teilnehmenden bedrohen. Ein Experiment von Legault und Kollegen (2011) zeigte, dass Teilnehmende nach einer Intervention mit stark kontrollierendem Charakter eher rassistischen Vorurteilen zustimmten. In einer separaten Studie fanden Sanchez und Medkik (2004) in Interviews, dass Manager die Teilnahme am Training eher als eine Bestrafung für frühere Fehler (z.B. kulturell unsensible Kommentare) wahrnahmen.
Opportunitätskosten: Organisationen, die unwirksame Interventionen durchführen, erleiden Opportunitätskosten – Zeit und Geld hätten für wirksamere Maßnahmen eingesetzt werden können. Dies wird besonders deutlich am Beispiel von Starbucks, dessen eintägiges Training für alle US-Mitarbeiter laut Pontefract (2018) geschätzte 16,7 Millionen US-Dollar an Umsatzverlusten verursachte. Mit diesem Geld hätte man ohne weiteres andere, wirkungsvolle Maßnahmen finanzieren können.

Bei diesen Hinweisen ist jedoch zu beachten, dass die Studienlage hier wesentlich dünner ausgeprägt ist und es zu den “Nebeneffekten” in der Regel nur wenige Einzelstudien gibt. Diese Befunden sollten daher auch nicht überbewertet werden.

Wege zu wirksameren Ansätzen

Angesichts dieser Erkenntnisse stellt sich die Frage: Wie können wir Diversity-Arbeit effektiver gestalten?

Umfassendere, empirisch fundierte Programme: Einfache Lösungen reichen nicht aus, um komplexe organisatorische Probleme wirksam anzugehen. Carter et al. (2020) sowie Dobbin und Kalev argumentieren, dass umfassendere, empirisch fundierte Trainingsprogramme notwendig wären, deren Wirksamkeit systematisch evaluiert wird. Besonders die sogenannten "Light-Touch"-Interventionen, die mit wenig Aufwand und geringen Kosten umgesetzt werden können (Paluck et al., 2021), haben sich als unzureichend erwiesen.
Systemische statt individueller Ansätze: Statt ausschließlich auf individuelles Bewusstsein und Verhaltensänderungen zu setzen, sollten strukturelle und systemische Faktoren stärker in den Blick genommen werden. Musa al-Gharbi (2020) betont, dass Diversity wichtig, entsprechendes Training jedoch oft unzureichend ist, wenn es nicht mit strukturellen Änderungen einhergeht. Das bedeutet konkret, auch Bewerbungs-, Berufungs- und andere Auswahlverfahren so zu gestalten, dass Bias reduziert wird. Dies geht aber in der Regel mit erheblichen Anpassungen einher und steht damit tradierten Verfahren entgegen.
Langfristige Begleitung statt einmaliger Interventionen: Nachhaltige Verhaltensänderungen erfordern regelmäßiges Feedback, enge Betreuung und erhebliche intrinsische Motivation: Elemente, die in den meisten Diversity-Trainings fehlen. Das oben genannte Starbucks-Beispiel, verdeutlicht, wie unrealistisch tiefgreifende Verhaltensänderungen durch zeitlich begrenzte Interventionen sind.

Warum trotzdem? Über pragmatische, symbolische und strategische Gründe

Angesichts der eher ernüchternden und längst bekannten Studienlage stellt sich die Frage, warum Diversity- und Unconscious-Bias-Trainings trotzdem so häufig durchgeführt werden. Die Antwort liegt selten in einer tatsächlichen Erwartung messbarer Verhaltensveränderungen – sondern in einer Vielzahl anderer, oft unausgesprochener Gründe.

Wenn ich mit Organisationen über ein Unconscious-Bias-Training spreche, frage ich meist zu Beginn, was damit konkret erreicht werden soll. Die häufigste Antwort: Man wolle Vorurteile reduzieren. An dieser Stelle bin ich ehrlich – und sage: Das kann ich nicht garantieren. Die Forschungslage ist da sehr klar. Und dennoch beauftragen viele das Training trotzdem. Nicht aus Naivität, sondern aus ganz anderen Motiven.

In vielen Fällen geht es um sichtbare Aktivität. Trainings lassen sich leicht kommunizieren – auf der Website, in Gleichstellungsberichten, in (Re-)Auditierungsprozessen oder bei Rankings. Sie sind anschlussfähig an aktuelle Diskurse und gesellschaftliche Erwartungen, insbesondere nach öffentlichkeitswirksamen Vorfällen oder politischen Verschiebungen.

Ein zweiter Punkt ist struktureller Natur: In vielen Hochschulen und Unternehmen gibt es Förderlinien, Gleichstellungspläne oder Entwicklungsziele, in denen „Sensibilisierung“ oder „Maßnahmen zur Bias-Reduktion“ festgehalten wurden. Diese Ziele müssen dann auch abgebildet werden – unabhängig davon, ob damit eine nachhaltige Wirkung verbunden ist.

Und schließlich gibt es noch den eher pragmatischen Aspekt: Budgets aus Gleichstellungs- oder Diversitätsmitteln sind häufig zweckgebunden und an Jahreszyklen gebunden. Wenn am Jahresende Mittel übrig sind, ist ein Training oft eine der schnellsten Möglichkeiten, diese einzusetzen.

All das muss nicht bedeuten, dass Trainings per se schlecht sind. Aber es erklärt, warum sie in so vielen Organisationen unabhängig von ihrer empirischen Fundierung nachgefragt und durchgeführt werden. Solange diese Funktionen – Sichtbarkeit, Symbolik, Budgetlogik – nicht offen benannt werden, bleibt die Debatte um die Wirksamkeit solcher Maßnahmen seltsam verzerrt.

Fazit: Zwischen Ideal und Realität

Die wissenschaftliche Literatur bietet derzeit keine starken Belege für die Wirksamkeit von Diversity-Trainings zur Reduzierung von Bias, Diskriminierung oder Stereotypen. Dies steht in starkem Kontrast zu den notwendigen personellen und monetären Ressourcen, die in diese Trainings investiert werden. Wie ich 2022 in meinem Kapitel "Diversity in practice: between evidence and actionism" schon anmerkte: "Die praktische Umsetzung ist der wissenschaftlichen Fundierung weit voraus."

Als Anbieter solcher Trainings sehe ich mich in der Verantwortung, evidenzbasierte Ansätze zu entwickeln und ehrlich über deren Grenzen zu sprechen. Dabei stütze ich mich auf die Empfehlungen von Dobbin und Kalev in ihrer Analyse "Why doesn't diversity training work?", die betonen, dass die bloße Signalwirkung solcher Trainings nicht ausreicht, wenn dadurch reale Verhaltensänderungen ausbleiben. Tatsächlich ist es aber so, dass in der Regel Organisationen nicht die Zeit, das Budget oder die Motivation haben einen längeren Restrukturierungsprozess ihrer Entscheidungsfindungen anzustoßen und es daher dann bei symbolischen, meist einmaligen, Trainings belassen.

Diversity-Arbeit ist wichtig – zu wichtig, um sie mit unwirksamen Methoden zu betreiben. Wie die neueste Forschung von Devine und Ash (2021) zeigt, müssen wir die Ziele, Grenzen und Potenziale von Diversity-Trainings realistisch einschätzen und entsprechend handeln.

Quellen

Bezrukova, K., et al. (2016). A meta-analytical integration of over 40 years of research on diversity training evaluation. Psychological Bulletin, 11.
Carter, E. R., et al. (2020). Developing & delivering effective anti-bias training: Challenges & recommendations. Behavioural Science & Policy Association.
Chang, E. H., et al. (2019). The mixed effects of online diversity training. Proceedings of the National Academy of Sciences, 16.
Devine, P. G. & Ash, T. L. (2021). Diversity training goals, limitations, and promise: A review of the multidisciplinary literature. Annual Review of Psychology, 1.
Dobbin, F. & Kalev, A. (2018). Why doesn't diversity training work?
Fanelli, D. (2010). "Positive" results increase down the hierarchy of the sciences. PloS one, 4.
Forscher, P. S., Lai, C. K., Axt, J. R., Ebersole, C. R., Herman, M., Devine, P. G., & Nosek, B. A. (2019). A meta-analysis of procedures to change implicit measures. Journal of personality and social psychology, 117(3), 522–559. https://doi.org/10.1037/pspa0000160
Gabbatt, A. (2018). Starbucks closes more than 8,000 US cafes for racial bias training. The Guardian, 29.05.2018.
Hill, M. E. & Augoustinos, M. (2001). Stereotype change and prejudice reduction: Short- and long-term evaluation of a cross-cultural awareness programme. Journal of Community & Applied Social Psychology, 4.
Legault, L., et al. (2011). Ironic effects of antiprejudice messages: How motivational interventions can reduce (but also increase) prejudice. Psychological Science, 12.
Paluck, E. L., et al. (2021). Prejudice reduction: Progress and challenges. Annual Review of Psychology, 1.
Pontefract, D. (2018, June 1). Did the Starbucks racial bias training plan work? Forbes. https://www.forbes.com/sites/danpontefract/2018/06/01/did-the-starbucks-racial-bias-training-plan-work/
Sanchez, J. I. & Medkik, N. (2004). The effects of diversity awareness training on differential treatment. Group & Organisation Management, 4.
Schäfer, T. & Schwarz, M. (2019). The meaningfulness of effect sizes in psychological research: Differences between sub-disciplines and the impact of potential biases. Frontiers in Psychology, 10.
Tillmann, S. (2022). Diversity in practice: between evidence and actionism. In: Problems of anti-racism - postcolonial studies, Critical Whiteness and Intersectionality Research in Critique. ISBN 978-3-89320-296-6.

Nullhypothese

Diskussion über diese Post