Befund & Revision: Moss-Racusin (2012) und der Gender Bias in STEM
Alte Forschung neu betrachtet.
In der Rubrik Befund & Revision greife ich Studien auf, die in der öffentlichen Debatte eine prägende Rolle gespielt haben, und zeige, wie sie sich im Lichte neuerer Forschung einordnen lassen.
Kaum eine Studie hat die Diskussion um Gleichstellung in der Wissenschaft so stark beeinflusst wie jene von Moss-Racusin et al. aus dem Jahr 2012. Der Befund ist klar: Identische Bewerbungen wurden in STEM (Science, Technology, Engineering and Mathematics) Feldern unterschiedlich bewertet, je nachdem, ob ein männlicher oder weiblicher Name darüberstand. Männer galten als kompetenter, wurden eher eingestellt und häufiger gefördert.
In einem aktuellen Beitrag hat
hier verschiedene Studien vergleichen und die Popularität von Moss-Racusin et al. ist hier auch deutlich sichtbar:Auf zahlreichen Webseiten deutscher Hochschulen, in Broschüren und Schulungsmaterialien zur Geschlechtergerechtigkeit wird sie bis heute zitiert.
Diese Ergebnisse hatten große Wirkung. Die Studie wurde mehr mehr als 650.000 mal angeschaut und mehr als 4.000-mal zitiert, fand Eingang in zahlreiche Trainings und diente vielerorts als Ausgangspunkt für strukturelle Reformen. Dass dadurch ein Bewusstsein für subtile Benachteiligungen geschaffen wurde, war zweifellos ein Fortschritt. Vieles, was heute selbstverständlich erscheint – etwa die Überprüfung von Auswahlverfahren auf versteckte Voreingenommenheit – wurde durch solche Studien angestoßen.
Doch Forschung ist ein fortlaufender Prozess. Und manchmal lohnt es sich, bekannte Ergebnisse noch einmal zu überprüfen.
Die Replikation: größer, differenzierter, zeitlich verschoben
Honeycutt, Careem, Lewis und
(dessen Substack auch lesenswert ist) haben sich genau das vorgenommen. In drei methodisch sorgfältigen Studien haben sie das ursprüngliche Experiment weitgehend übernommen, aber an deutlich größeren und breiter gefächerten Stichproben durchgeführt. Über 1.200 Fakultätsmitglieder aus verschiedenen MINT-Fächern nahmen teil und bewerteten – wie im Original – fiktive Bewerbungen mit männlichem oder weiblichem Namen.Diesmal zeigte sich kein Nachteil für Frauen. Im Gegenteil: In allen drei Erhebungen wurden Bewerberinnen sogar leicht bevorzugt. Die Unterschiede waren zwar klein, aber stabil messbar. Bei der Einschätzung der Eignung lag der Effekt beispielsweise bei d = –0,30 zugunsten der Frau.
Methodischer Hinweis: Der Effektwert d = –0,30 ist ein sogenannter Cohen’s d, ein Maß für die Größe von Unterschieden zwischen Gruppen. Hier beschreibt er, wie stark sich die Einschätzungen der Eignung zwischen männlichen und weiblichen Bewerbenden unterschieden. Ein Wert von –0,30 bedeutet, dass Frauen im Schnitt leicht besser bewertet wurden als Männer – genauer gesagt, um 0,30 Standardabweichungen.
Auffällig war auch das Studiendesign: Die Autorinnen und Autoren arbeiteten in sogenannter adversarial collaboration, also im offenen Austausch zwischen Personen mit unterschiedlichen Erwartungen an das Ergebnis. Zudem war die Studie präregistriert und methodisch deutlich transparenter als die Originalveröffentlichung von 2012.
Was bedeutet das?
Es lassen sich zwei plausible Lesarten nebeneinanderstellen. Erstens: Die Situation hat sich verändert. Die erhöhte Aufmerksamkeit für Gleichstellungsthemen, institutionelle Schutzmechanismen und Sensibilisierung könnten dazu geführt haben, dass Bewerberinnen heute tatsächlich fairer oder sogar bevorzugt behandelt werden. Zweitens: Die Ausgangsstudie könnte ein statistisch unsicheres Ergebnis geliefert haben. Ihre Fallzahl war gering, die Methodik nicht vorregistriert und anfällig für Zufallsschwankungen.
Beide Perspektiven widersprechen sich nicht. Vieles spricht dafür, dass frühere Maßnahmen gewirkt haben – was ein positives Signal für gezielte Förderprogramme ist. Gleichzeitig zeigt sich, wie wichtig es ist, wissenschaftliche Begründungen immer wieder neu zu überprüfen, anstatt auf einzelne Studien dauerhaft zu bauen, zumal es auch eine größere Anzahl weiterer Studien gibt und hier nur eine, besonders einflußreiche, Studie hervorgehoben wird.
Zwischen Bilanz und Neubewertung
Der Fall Moss-Racusin zeigt, wie leicht sich ein starker Befund in der Praxis verankert. Dass dieser Befund nun differenzierter eingeordnet werden muss, bedeutet nicht, dass das Thema erledigt ist, insbesondere lassen sich keine direkten Rückschlüsse daraus auf den deutschen Kontext schließen. Es bedeutet aber auch, dass sich auch die Argumentationslinien weiterentwickeln müssen und zumindest die Studie von Moss-Racusin nicht mehr als Evidenz für einen Geschlechterunterschied in Einstellungsverfahren herangezogen werden sollte.
Quellen
Honeycutt, N., Careem, A., Lewis, N. A., & Jussim, L. (2020). Are STEM Faculty Biased Against Female Applicants? A Robust Replication and Extension of Moss-Racusin and Colleagues (2012). https://doi.org/10.31234/osf.io/ezp6d
Moss-Racusin, C. A., Dovidio, J. F., Brescoll, V. L., Graham, M. J., & Handelsman, J. (2012). Science faculty’s subtle gender biases favor male students. PNAS Proceedings of the National Academy of Sciences of the United States of America, 109(41), 16474–16479. https://doi.org/10.1073/pnas.1211286109
Interessant wäre es auch zu untersuchen, bei welchen Positionen Bias (nicht) auftritt (und in welche Richtung). Man könnte vermuten, dass es bei Top-Positionen andere Effekte gibt als bei doctoral researchers. Ich denke hier an die Bemühungen vieler Departments, die Professuren mit weiblichen Kandidatinnen zu besetzen. Hier würde ich eigentlich einen Vorteil für weibliche Wissenschaftlerinnen vermute angesichts dieser Anstrengungen. Ob das die Empirie hergibt?