Blick in die Forschung: Der Mathematik-Gap, Martinot et al., 2025
Unterschiede in Mathematik, sozial gemacht?
Forschung zu Unterschieden zwischen den Geschlechtern ist wichtig und richtig. Es gibt noch viele Bereiche, in denen es Nachteile für Frauen gibt, die wir als Gesellschaft nicht akzeptieren müssen und aktiv bekämpfen sollten. Allerdings hat sich in den letzten Jahren, so (nicht nur) meine Beobachtung, eine fast dogmatische Einstellung verbreitet, wenn es um Forschung zu kognitiven Unterschieden geht: Unterschiede zwischen den Geschlechtern, die das Gehirn oder kognitive Fähigkeiten betreffen, werden fast immer a priori als soziokulturell verursacht angesehen. Biologische Faktoren als mögliche Erklärung werden oft von vornherein ausgeschlossen (Pinker, 2002).
Vermutlich aus Sorge, biologische Unterschiede könnten als unveränderlich missverstanden oder zur Rechtfertigung von Diskriminierung herangezogen werden, wird ihre potenzielle Existenz lieber komplett verneint. Dabei ist ein biologischer Unterschied weder automatisch unveränderlich noch rechtfertigt er unterschiedliche Behandlung.
Genau in dieses Muster scheint nun eine neue, groß angelegte Studie zu passen, die kürzlich in Nature veröffentlicht wurde (Martinot et al., 2025). Sie liefert exzellente Daten, aber ihre Interpretation scheint durch genau jene Bedenken eingeschränkt zu sein.
Die Studie
Die methodische Stärke der Studie von Martinot et al. (2025) ist beeindruckend. Die Forschenden haben die mathematischen und sprachlichen Leistungen von über 2,6 Millionen französischen Erst- und Zweitklässlern über vier Jahre hinweg begleitet.
Die zentralen Ergebnisse der Studie sind:
Gleiche Startbedingungen: Bei der Einschulung sind die durchschnittlichen Mathematikleistungen von Jungen und Mädchen nahezu identisch.
Schnelle Entstehung der Kluft: Eine signifikante Leistungslücke zugunsten der Jungen entsteht bereits innerhalb der ersten vier Monate nach Schulbeginn.
Verstärkung der Kluft: Diese Lücke vervierfacht sich bis zum Beginn der zweiten Klasse.
Nature News hat diese Divergenz optisch sehr schön dargestellt.

Die Schlussfolgerung der Autor*innen:
Ursache in der Beschulung: Da die Leistungen zu Beginn gleich sind, müsse die Ursache in der Schule oder in soziokulturellen Faktoren liegen.
Internalisierung von Stereotypen: Die Autoren gehen davon aus, dass die Leistungsunterschiede primär eine Internalisierung des soziokulturellen Stereotyps „Mädchen sind schlecht in Mathe“ widerspiegeln. Sie vermuten, dass die plötzliche Etikettierung von Aktivitäten als "Mathematik" in der Grundschule diesen Stereotypen Raum gibt, sich zu entfalten und von den Kindern verinnerlicht zu werden.
Kritik an der Interpretation
Obwohl die empirischen Beobachtungen der Studie robust sind, ist ihre Interpretation nicht zwingend. Sie lässt alternative Erklärungen außer Acht, die bei den vorliegenden Daten möglich sind, und folgt stattdessen einem bekannten narrativen Pfad.
Der Trugschluss des „gleichen Starts“
Die zentrale Annahme der Studie, dass gleiche Startleistungen biologische Faktoren ausschließen, ist ein logischer Fehlschluss. Ein einfacher Vergleich verdeutlicht das Problem:
Stellen Sie sich vor, Forscher stellen fest, dass Jungen und Mädchen mit 11 Jahren im Durchschnitt noch gleich groß sind. Zwei Jahre später, mit 13 Jahren, sind die Jungen aber im Schnitt deutlich größer. Würde man nun wie in der Mathe-Studie argumentieren, müsste die Schlussfolgerung lauten: Da zu Beginn kein Unterschied vorlag, muss die Ursache in der Schule oder im sozialen Umfeld liegen, womöglich ist ein Stereotyp „Männer sind größer als Frauen“ die tatsächliche Ursache.
Dieser Schluss ist offensichtlich falsch. Ein biologisch vorprogrammierter Unterschied, nämlich der pubertäre Wachstumsschub, wird erst mit zeitlicher Verzögerung sichtbar. Übertragen auf die Studie bedeutet das: Nur weil bei einfachen Einstiegstests kein Leistungsunterschied sichtbar ist, können bereits angelegte kognitive Unterschiede nicht ausgeschlossen werden. Diese könnten erst bei den komplexeren mathematischen Anforderungen der höheren Klassenstufen zum Tragen kommen.
Die übersehene Erklärung: Eine alternative Kausalkette
Die Studie liefert selbst einige Daten, die ihre eigene Hauptthese in Frage stellen, diskutiert diese aber kaum.
Die Daten der Studie lassen auch eine andere Interpretation zu – eine, die sich auf biologische Differenzen stützt, ohne soziale Einflüsse auszublenden. Möglicherweise bestehen zwischen Jungen und Mädchen tatsächlich kognitive Unterschiede in Bezug auf Mathematik, die zum Zeitpunkt der Einschulung noch nicht sichtbar sind, weil die Aufgaben zu basal sind. Erst mit wachsender Komplexität der mathematischen Anforderungen (wie ab Messzeitpunkt T2) treten diese Unterschiede im Durchschnitt statistisch messbar zutage.
Hinzu kommt ein zweiter Effekt: Bereits bei der ersten Testung zeigt sich, dass Jungen sowohl unter den stärksten als auch den schwächsten Schülern überrepräsentiert sind (Martinot et al., 2025). Dieses Muster entspricht der sogenannten Greater Male Variability Hypothesis, also der Annahme, dass bei Jungen und Männern viele kognitive und körperliche Merkmale stärker streuen – mit mehr Ausreißern an beiden Enden der Verteilung. Dieses Phänomen ist auch in internationalen Schulleistungsstudien wiederholt dokumentiert worden (Baye & Monseur, 2016).
Beide Mechanismen zusammengenommen – ein möglicher biologisch bedingter Unterschied im Mittelwert und eine größere Streuung – könnten erklären, warum in der schulischen Realität mehr Jungen als „Mathe-Genies“ auffallen. Daraus entsteht ein gesellschaftlich wahrnehmbares Muster, das sich im Stereotyp „Jungen sind besser in Mathe“ niederschlägt. In diesem Szenario wäre das Stereotyp nicht die Ursache, sondern eine Folge realer Beobachtungen. Schulische und soziale Faktoren könnten solche Unterschiede verstärken, wären aber nicht deren Ursprung.
Man könnte hier einwenden, dass Stereotype ihre Wirkung vor allem über den psychologischen Mechanismus des „Stereotype Threat“ entfalten – also der Angst von Mitgliedern einer Gruppe, ein negatives Stereotyp über diese Gruppe zu bestätigen, was ihre Leistung tatsächlich mindert. Doch gerade dieser, einst als robuste Erklärung für Leistungsunterschiede gefeierte Mechanismus, steht heute selbst massiv in der Kritik. Viele der wegweisenden „Stereotype Threat“-Studien konnten in großangelegten Replikationsversuchen nicht oder nur mit deutlich geringeren Effekten bestätigt werden.
Die kausale Kette der Studienautoren stützt sich also auf einen Mechanismus, dessen Wirksamkeit und praktische Relevanz in der Wissenschaft zunehmend in Zweifel gezogen wird. Das macht die alternative Erklärung – Stereotype als Folge, nicht als Ursache – noch plausibler.
Eine weitere plausible Dynamik kommt hinzu: Kinder neigen dazu, sich verstärkt mit dem zu beschäftigen, worin sie bereits gut sind oder zumindest positives Feedback erhalten. Wenn Jungen in Mathematik etwas besser oder schneller sind, kann das dazu führen, dass sie sich vermehrt mit mathematischen Inhalten beschäftigen, während Mädchen sich stärker sprachlich-literarischen Aufgaben zuwenden. Diese Form der Selbstselektion, wie sie etwa von Stewart-Williams (2018) beschrieben wird, kann frühe Leistungsunterschiede verstärken, ohne dass externe Stereotype dafür verantwortlich sein müssen.
Fazit: It’s complicated
Die Studie von Martinot et al. (2025) ist wertvoll. Sie liefert eine hervorragende empirische Basis. Doch bei der Frage nach dem Warum lässt sie alternative Erklärungsansätze gänzlich und, meiner Meinung nach nicht überzeugend, außer Acht. Eine ehrliche Debatte müsste anerkennen, dass komplexe Interaktionen zwischen Anlage und Umwelt systematisch und ergebnisoffen geprüft werden sollten (Tucker-Drob & Bates, 2016). Wirklich wirksame Lösungen setzen voraus, dass wir die Ursachen von Geschlechterunterschieden korrekt analysieren – und das bedeutet, dass wir uns auf multikausale Modelle einlassen müssen. Biologische Dispositionen, soziale Einflüsse, schulische Praktiken und kulturelle Erwartungen wirken nicht alternativ, sondern miteinander. Wer eine dieser Ebenen a priori ausschließt, riskiert, Symptome (in diesem Fall Stereotype) zu behandeln statt Ursachen. Nur eine Analyse, die auch biologische Differenzen als legitime Erklärungsmöglichkeit mitdenkt, kann zu Maßnahmen führen, die tatsächlich tragen – für Mädchen wie für Jungen.
Quellen:
Baye, A., & Monseur, C. (2016). Gender differences in variability and extreme scores in an international context.1 Large-scale Assessments in Education, 4(2). https://doi.org/10.1186/s40536-016-0016-x
Flore, P. C., Mulder, J., & Wicherts, J. M. (2018). The influence of gender stereotype threat on mathematics test scores of Dutch high school students: A registered report. Comprehensive Results in Social Psychology, 3(2), 140–174. https://doi.org/10.1080/23743603.2018.1559647
Martinot, P., Colnet, B., Breda, T., Sultan, J., Touitou, L., Huguet, P., Spelke, E., Dehaene-Lambertz, G., Bressoux, P., & Dehaene, S. (2025). Rapid emergence of a maths gender gap in first grade. Nature. [https://doi.org/10.1038/s41586-025-09126-4](https://doi.org/10.1038/s41586-025-09126-4)
Organisation for Economic Co-operation and Development. (2023). PISA 2022 results2 (Volume I): The state of learning and equity in education. OECD Publishing.
Pinker, S. (2002). The Blank Slate: The Modern Denial of Human Nature. Penguin Books.
Stewart-Williams, S. (2018). The Ape That Understood the Universe. Cambridge University Press.
Tucker-Drob, E. M., & Bates, T. C. (2016). Large cross-national differences in gene × socioeconomic status interaction on intelligence. Psychological Science, 27(10), 1347–1359. https://doi.org/10.1177/0956797616652754