Befund und Revision: Brauchen schwarze Neugeborene schwarze Ärzt*innen?

Greenwood et al., 2020

Juli 01, 2025

Im August 2020, auf dem Höhepunkt der landesweiten Proteste nach George Floyds Tod, machte eine Studie, die in den renommierten Proceedings of the National Academy of Sciences (PNAS) veröffentlicht wurde, internationale Schlagzeilen. Die Forschung von Greenwood et al. schien vernichtende Beweise für Rassismus im amerikanischen Gesundheitswesen zu liefern: Schwarze Neugeborene starben doppelt so häufig, wenn sie von weißen Ärzt*innen betreut wurden, verglichen mit schwarzen Ärzt*innen.

Der Befund war außergewöhnlich. Basierend auf Daten von 1,8 Millionen Krankenhausgeburten in Florida zwischen 1992 und 2015 berichteten die Forscher*innen, dass schwarze Neugeborene eine Sterblichkeitsrate von 0,9% bei weißen Ärzt*innen, aber nur 0,4% bei schwarzen Ärzt*innen hatten. Dieser Konkordanzeffekt, d.h. Übereinstimmung der Ethnie zwischen behandelnder Person und Patient*in, erschien insbesondere für schwarze Kleinkinder von entscheidender Bedeutung.

Eine Studie, die den Zeitgeist einfing

Die Wirkung der Studie war sofort und außergewöhnlich. Große Nachrichtenagenturen wie CNN und die Washington Post brachten die Erkenntnisse prominent auf die Titelseiten, mit Schlagzeilen wie "Black newborns more likely to die when looked after by White doctors". Die Berichterstattung verbreitete sich nach Berichten des Daily Caller über 340 Medienagenturen weltweit und erzeugte mehr öffentliche Diskussion als 99% der wissenschaftlichen Studien, die in den letzten fünf Jahren veröffentlicht wurden. In der wissenschaftlichen Gemeinschaft sammelte die Arbeit schnell über 538 Zitierungen (bis zum 1.7.2025) und etablierte sich als Meilenstein-Studie in der Gesundheitsdisparitätenforschung.

Vielleicht am bedeutsamsten war, dass der Einfluss der Studie bis in die höchsten Ebenen der amerikanischen Rechtsprechung reichte. Als Supreme Court-Richterin Ketanji Brown Jackson ihr Minderheitsvotum im wegweisenden Fall von 2023 Students for Fair Admissions v. Harvard schrieb, zitierte sie die Greenwood-Studie als Beweis dafür, dass Diversität in der Medizin buchstäblich Leben rettet, und schrieb: "Für schwarze Hochrisiko-Neugeborene verdoppelt ein schwarzer Arzt mehr als die Wahrscheinlichkeit, dass das Baby lebt und nicht stirbt" [Meine Übersetzung]. Diese Zitierung verwandelte einen akademischen Befund in ein verfassungsrechtliches Argument für die Notwendigkeit positiver Diskriminierung in der medizinischen Ausbildung.

Die Studie schien konkrete, quantifizierbare Beweise für das zu liefern, was viele über das amerikanische Gesundheitswesen vermuteten. Hier waren Daten, die zeigten, dass implizite Vorurteile und systemischer Rassismus in der Medizin nicht nur theoretische Sorgen waren, sondern buchstäblich Fragen von Leben und Tod für die verletzlichsten Patienten. Die Befunde wurden zu einem Eckpfeiler-Argument für die Diversifizierung von Medizinschulen, die Sicherstellung ethnischer (engl. “racial”) Übereinstimmung zwischen Ärzten und Patienten (Konkordanz) und die Betrachtung von Gesundheitsdisparitäten durch die Linse von Vorurteilen seitens der Behandelnden statt durch Patienteneigenschaften oder strukturelle Faktoren.

Der methodische Fehler, der alles veränderte

Aber Wissenschaft korrigiert sich selbst, in der Regel irgendwann, in diesem Fall ziemlich zügig. Im September 2024 veröffentlichten der Harvard-Ökonom George Borjas und der Manhattan Institute-Forscher Robert VerBruggen eine Replikationsstudie in derselben Zeitschrift, die diese Schlussfolgerungen fundamental in Frage stellen würde.

Mit demselben Florida-Datensatz machten sie eine entscheidende Entdeckung: die ursprüngliche Studie hatte eine kritische Kontrollvariable ausgelassen.

Die Greenwood-Studie kontrollierte für die "65 häufigsten Komorbiditäten" bei Neugeborenen. Dieser Ansatz, obwohl scheinbar umfassend, verpasste einen entscheidenden Faktor: sehr niedriges Geburtsgewicht (unter 1.500 Gramm oder 3,3 Pfund). Diese Auslassung erwies sich als methodisch fatal, obwohl sie verständlich war, angesichts der Art, wie die Variable konstruiert wurde.

Babys mit sehr niedrigem Geburtsgewicht repräsentieren nur einen kleinen Bruchteil aller Geburten und betreffen nur 1,2% der weißen und 3,3% der schwarzen Neugeborenen. Diese winzigen, verletzlichen Säuglinge machen jedoch einen unverhältnismäßigen Anteil der neonatalen Todesfälle aus: 66% der neonatalen Sterblichkeit bei weißen und 81% bei schwarzen Babys. Die Diagnosecodes für sehr niedriges Geburtsgewicht sind über 30 verschiedene Kategorien verteilt, was bedeutet, dass kein einzelner Indikator häufig genug war, um es in die Liste der "Top 65" häufigsten Diagnosen zu schaffen. Dieses technische Detail hatte tiefgreifende Auswirkungen auf die Schlussfolgerungen der Studie, denn es stellte sich heraus, dass schwarze Neugeborene mit sehr niedrigem Geburtsgewicht unverhältnismäßig häufiger von weißen Ärzt*innen als von schwarzen Ärzt*innen betreut wurden, mit Raten von 3,4% gegenüber 1,4%.

Die verblüffende Kehrtwende

Als Borjas und VerBruggen Kontrollen für sehr niedriges Geburtsgewicht einschlossen, verschwand der ethnische Konkordanz-Effekt im Wesentlichen. Der geschätzte Effekt wurde in vollständig spezifizierten Modellen statistisch insignifikant, wobei der Koeffizient auf nahezu null fiel bei -0,033 mit einem Standardfehler von 0,039. Der "Rassismus-Befund", der internationale Aufmerksamkeit erregt und Supreme Court-Überlegungen beeinflusst hatte, verschwand einfach, als diese einzige Variable ordnungsgemäß kontrolliert wurde.

Der Mechanismus hinter dieser Kehrtwende offenbart eine Geschichte, die fundamental anders ist als systemischer Rassismus. Weiße Ärzt*innen leisteten nicht schlechtere Versorgung für schwarze Babys aufgrund von Vorurteilen oder Gleichgültigkeit. Vielmehr zeigten die Daten, dass weiße Ärzt*innen unverhältnismäßig die medizinisch herausforderndsten Fälle behandelten - jene extrem frühgeborenen, winzigen Neugeborenen, deren Überlebensraten von Natur aus viel niedriger sind, unabhängig von der Qualität der Versorgung, die sie erhalten. Dieses Muster spiegelt wahrscheinlich die Struktur der amerikanischen Medizin wider, wo weiße Ärzt*innen in hochspezialisierten Bereichen wie Neonatologie und pädiatrischer Intensivpflege, die die komplexesten Fälle behandeln, häufiger vertreten sind.

Die Mathematik der Fehlinterpretation

Die Autoren demonstrierten dies durch klassische Analyse omitted variable bias. Wenn man versäumt, einen entscheidenden Prädiktor (hier: sehr niedriges Geburtsgewicht) zu kontrollieren, und dieser Prädiktor über Gruppen hinweg unterschiedlich verteilt ist (häufiger bei schwarzen Babys, die von weißen Ärzt*innen gesehen werden), erhält man eine scheinbare Korrelation, die fälschlicherweise für Kausalität gehalten werden kann.

Wie Abbildung 1 in ihrer Arbeit zeigt, ist die Beziehung zwischen Geburtsgewicht und Sterblichkeit nahezu identisch, egal ob die behandelnden Ärzte schwarz oder weiß sind. Der scheinbare "rassistische Konkordanz-Effekt" war tatsächlich ein Fallzuweisungs-Effekt - weiße Ärzt*innen behandelten häufiger die schwierigeren Fälle.

Abbildung 1 (Borjas & VerBruggen, 2024): Sobald das Geburtsgewicht berücksichtigt wird, verschwindet der Unterschied in der Sterblichkeitsrate zwischen schwarzen und weißen Ärzt*innen.

Jenseits akademischer Debatten: Reale Konsequenzen

Dies ist nicht nur eine abstrakte methodische Streitigkeit mit Konsequenzen, die auf akademische Zeitschriften beschränkt sind. Die Schlussfolgerungen der ursprünglichen Studie hatten erhebliche reale Auswirkungen, die weit über die medizinische Literatur hinausreichten. Die Forschung wurde aktiv verwendet, um für ethnische (engl. “racial”) Präferenzen in medizinischen Hochschulzulassungen und Krankenhauspersonalentscheidungen zu werben, wobei Befürworter*innen argumentierten, dass die Sicherstellung ethnischer Übereinstimmung zwischen Ärzt*innen und Patient*innen eine Frage von Leben und Tod sei.

Die rechtlichen Auswirkungen der Studie erwiesen sich als besonders folgenreich. Justice Jacksons Zitierung der Forschung im Harvard-Affirmative-Action-Fall zeigt, wie wissenschaftliche Befunde große rechtliche Entscheidungen, die Millionen von Amerikaner*innen betreffen, direkt beeinflussen können. Ihre Behauptung, dass Diversität in der Medizin "Leben rettet" und dass schwarze Ärzt*innen die Überlebenschancen von schwarzen Hochrisiko-Neugeborenen "mehr als verdoppeln", wurde Teil der verfassungsrechtlichen Debatte über “rassenbewusste” Zulassungspolitiken.

Die guten Nachrichten, versteckt in der Kehrtwende

Paradoxerweise stellt die fehlgeschlagene Replikation dieser einflussreichen Studie gute Nachrichten auf mehreren Fronten dar, obwohl dieser positive Aspekt in Diskussionen über die Replikation weitgehend übersehen wurde. Erstens und am wichtigsten verschwinden die Belege für systematische ethnische Vorurteile bei weißen Ärzt*innen, die schwarze Neugeborene behandeln, weitgehend, wenn ordnungsgemäße statistische Kontrollen eingeschlossen werden. Dies deutet darauf hin, dass das Gesundheitssystem, obwohl sicherlich unvollkommen, möglicherweise nicht so durchdrungen von bewussten oder unbewussten Vorurteilen und Rassismus ist, wie die ursprüngliche Studie nahelegte.

Die korrigierten Befunde weisen auch auf einen klareren und handlungsfähigeren Lösungsweg hin. Anstatt komplexe ethnische Matching-Systeme zu erfordern, die sowohl praktisch schwierig als auch ethisch fragwürdig zu implementieren wären, führt der Weg nach vorn über die Ansprache der sozialen, wirtschaftlichen und medizinischen Faktoren, die zu sehr niedrigem Geburtsgewicht bei schwarzen Müttern, bzw. ihren Kindern beitragen. Dieser Fokus auf Grundursachen bietet mehr Hoffnung auf bedeutsame Verbesserung als der Versuch, medizinische Versorgung entlang ethnischer Linien zu reorganisieren.

Vielleicht am wichtigsten zeigt diese Episode die selbstkorrigierende Natur rigoroser wissenschaftlicher Untersuchung. Die Tatsache, dass Wissenschaft sich selbst korrigieren kann und tut, selbst wenn das bedeutet, hochkarätige Befunde zu überwinden, die populäre Narrative unterstützen, sollte das öffentliche Vertrauen in das Forschungsunternehmen stärken, nicht schwächen. Die korrigierten Befunde deuten auch darauf hin, dass wir keine ethnische Segregation im Gesundheitswesen brauchen, um Ergebnisse zu verbessern, sondern vielmehr bessere pränatale Versorgung, verbesserte soziale Unterstützungssysteme und gezielte Interventionen für Risiko-Mütter - Ansätze, die Patienten aller Hintergründe zugutekommen können.

Warnzeichen, die ignoriert wurden

Rückblickend auf die Entwicklung dieser Forschung entstanden mehrere Warnzeichen, die rigorosere Prüfung hätten veranlassen sollen, bevor die Schlussfolgerungen der Studie weithin akzeptiert und einflussreich wurden. FOIA-Anfragen deckten später auf, dass der Hauptautor Brad Greenwood Randnotizen geschrieben hatte, die andeuteten, er würde sich "lieber nicht fokussieren" auf Befunde über weiße Neugeborene, weil deren Hervorhebung das "Narrativ", das er erzählen wollte, "untergraben" würde. Der nicht berichtete Befund zeigte, dass "weiße Neugeborene 80 Todesfälle pro 100.000 Geburten mehr mit einem schwarzen Arzt als mit einem weißen Arzt erleben, was eine 22%ige Sterblichkeitsreduktion durch ethnische Konkordanz impliziert", aber Greenwood schrieb an den Rand: "Ich würde mich lieber nicht darauf fokussieren. Wenn wir die Geschichte aus der Perspektive der Rettung schwarzer Säuglinge erzählen, untergräbt das das Narrativ." Diese Art von Sprache deutet auf eine vorherbestimmte Schlussfolgerung hin, statt auf die offene Untersuchung, die wissenschaftliche Forschung charakterisieren sollte.

Kommentar von Greenwood im Manuskript, https://dailycaller.com/2025/03/31/exclusive-researchers-axed-data-point-undermining-narrative-that-white-doctors-are-biased-against-black-babies/

Die ursprünglichen Autoren selbst anerkannten methodische Bedenken und bemerkten in ihrer Arbeit, dass "Vorsicht bezüglich der Persistenz von omitted-variable bias angebracht ist." Diese Einschränkung hätte eine rote Flagge für Leser sein sollen, aber sie scheint von denen, die die Studie zitierten und bewarben, weitgehend übersehen worden zu sein. Zusätzlich enthielt Justice Jacksons Interpretation der Studie grundlegende mathematische Fehler, die von ihren Assistenten und den unterstützenden rechtlichen Schriftsätzen unbemerkt blieben, was darauf hindeutet, dass selbst ausgeklügelte institutionelle Überprüfungsprozesse versagen können, wenn Befunde mit vorherrschenden Erwartungen übereinstimmen. Die Anwaltskanzlei Norton Rose Fulbright musste schließlich eine Klarstellung beim Supreme Court einreichen, die bemerkte, dass Jacksons Behauptung, ein schwarzer Arzt "verdopple mehr als die Wahrscheinlichkeit, dass das Baby überlebt", mathematisch falsch war, da die Studie Sterblichkeitsraten statt Überlebensraten untersuchte - ein Unterschied, der erheblich wichtig ist, wenn man mit seltenen Ereignissen umgeht.

Vielleicht am problematischsten stimmten die Schlussfolgerungen der Studie so perfekt mit vorherrschenden Narrativen über Gesundheitsrassismus überein, dass kritische Prüfung möglicherweise unbeabsichtigt entmutigt wurde. In einem Umfeld, wo das Hinterfragen von Forschung, die Anti-Rassismus-Bemühungen unterstützt, als politisch verdächtig angesehen werden kann, könnte die normale wissenschaftliche Skepsis, die jeden überraschenden Befund begrüßen sollte, gedämpft worden sein. Diese Dynamik schafft eine gefährliche Situation, wo methodisch fehlerhafte Forschung übergroßen Einfluss gewinnen kann, einfach weil ihre Schlussfolgerungen politisch schmackhaft sind.

Lehren für Wissenschaft und Gesellschaft

Diese Fallstudie beleuchtet mehrere entscheidende Herausforderungen, denen moderne wissenschaftliche Forschung gegenübersteht, besonders in politisch sensiblen Bereichen. Die Replikationskrise in den Sozialwissenschaften hat gezeigt, dass viele hochkarätige Befunde unter rigoroser Neuprüfung nicht standhalten, aber dieses Problem wird akuter, wenn Forschung sich mit kontroversen sozialen und politischen Themen überschneidet. Studien, die beliebte politische Narrative bestätigen, könnten weniger rigoroser Prüfung unterzogen werden als solche, die unbequeme oder kontroverse Schlussfolgerungen ziehen.

Moderne Medien verstärken diese Probleme erheblich. Sobald eine Studie mit politisch resonanten Befunden veröffentlicht ist, kann sie schnell durch Nachrichtenagenturen, soziale Medien und Advocacy-Organisationen verbreitet werden, bevor die normalen Prozesse wissenschaftlicher Debatte und Replikation stattfinden können. Die Reise der Greenwood-Studie von akademischer Veröffentlichung zu Supreme Court-Zitierung geschah schneller als der typischerweise erforderliche Zeitrahmen für gründliche wissenschaftliche Validierung, dennoch wurde der Befund als etablierte Tatsache behandelt.

Diese Dynamik schafft Anreize für Forscher, die bewusst oder unbewusst ihre Analysen so gestalten könnten, dass sie Schlussfolgerungen unterstützen, die Aufmerksamkeit generieren und mit institutionellen Erwartungen übereinstimmen. Wenn Forscher ungünstige Befunde als "schlechte Nachrichten" beschreiben (wie Greenwood in internen Kommunikationen tat) oder sich Sorgen machen über das "Untergraben des Narrativs", offenbaren sie, dass sie mehr wie Aktivisten als wie Wissenschaftler denken. Die Lösung ist nicht, Forschung zu sensiblen Themen zu vermeiden, sondern vielmehr zusätzliche Prüfung auf Befunde anzuwenden, die zu bequem oder politisch nützlich erscheinen, um wahr zu sein.

Fazit: Wissenschaft, Demut und Fortschritt

Der Aufstieg und Fall der Greenwood-Studie bietet einen Meisterkurs sowohl in der Macht als auch in den Grenzen empirischer Forschung. Eine einzige ausgelassene Variable verwandelte eine Geschichte über “racial” Vorurteile in eine Geschichte über Fallkomplexität und medizinische Spezialisierung.

Diese Kehrtwende verringert nicht die sehr realen Herausforderungen, denen schwarze Mütter und Neugeborene in Amerika gegenüberstehen. Aber sie deutet darauf hin, dass Lösungen auf akkuratem Verständnis von Ursachen basieren sollten, statt auf überzeugenden Narrativen.

In unserer polarisierten Ära gibt es eine Versuchung, wissenschaftliche Befunde durch politische Linsen zu betrachten - jene zu feiern, die unsere Vorannahmen bestätigen, und jene abzulehnen, die sie herausfordern. Der Greenwood-Fall schlägt einen anderen Ansatz vor: rigorose methodische Standards aufrechtzuerhalten, unabhängig davon, ob Befunde populäre Narrative unterstützen.

Wissenschaft funktioniert am besten, wenn wir den Beweisen folgen, wohin sie auch führen mögen, selbst wenn - besonders wenn - sie uns irgendwo Unerwartetes hinführen. In diesem Fall stellt sich dieses unerwartete Ziel als hoffnungsvoller heraus als das ursprüngliche: eine Welt, wo die Lösung für ethnische Gesundheitsdisparitäten keine Segregation in der Medizin erfordert, sondern vielmehr gezielte Interventionen, um allen Babys, unabhängig von der Ethnie, den gesunden Start ins Leben zu helfen, den sie verdienen.

Die Tatsache, dass eine so dramatische wissenschaftliche Kehrtwende mit dem Hinzufügen einer einzigen Kontrollvariable möglich war, sollte sowohl als demütigende Erinnerung an unsere methodischen Grenzen als auch als inspirierende Zeugenaussage für die Wissenschafts Fähigkeit zur Selbstkorrektur dienen. Am Ende könnte das der wichtigste Befund von allen sein.

Die deutsche Medienignoranz: Schutz und Problem zugleich

Ein faszinierender Aspekt dieser wissenschaftlichen Saga ist ihre nahezu vollständige Abwesenheit aus der deutschen Medienlandschaft. Weder die ursprüngliche Greenwood-Studie von 2020 noch ihre spektakuläre Widerlegung durch Borjas und VerBruggen 2024 schafften es in die großen deutschen Medien – weder in FAZ, Spiegel oder Zeit, noch in die öffentlich-rechtlichen Programme von ARD und ZDF. Lediglich spezialisierte Portale wie das Medizinstudenten-Portal Via Medici oder das Jugend-Medium Noizz berichteten über die ursprünglichen Befunde.

Diese Ignoranz ist paradoxerweise sowohl problematisch als auch schützend. Problematisch, weil sie eine strukturelle Schwäche der deutschen Wissenschaftskommunikation offenbart: Komplexe internationale Forschung wird oft übersehen, selbst wenn sie weitreichende gesellschaftliche Implikationen hat. Wenn eine Studie internationale Schlagzeilen macht und sogar vor dem Supreme Court zitiert wird, deutsche Medien aber schweigen, entsteht ein blinder Fleck in der öffentlichen Debatte.

Schützend wirkte die deutsche Zurückhaltung jedoch insofern, als sie verhinderte, dass voreilige gesundheitspolitische Schlussfolgerungen gezogen wurden. Während in den USA die Greenwood-Studie bereits Diskussionen über Affirmative Action in der Medizin anheizte und Justice Jackson sie als verfassungsrechtliches Argument verwendete, blieb Deutschland von dieser Aufregung verschont. Als sich herausstellte, dass die ursprünglichen Befunde methodisch fehlerhaft waren, hatte Deutschland glücklicherweise keine Politik darauf aufgebaut, die nun rückgängig gemacht werden müsste.

Dennoch bleibt die völlige Abwesenheit der Replikationsstudie in deutschen Medien besonders bedenklich. Eine Geschichte über wissenschaftliche Selbstkorrektur, die zeigt, wie eine einzige fehlende Kontrollvariable spektakuläre Befunde zum Verschwinden bringen kann, wäre eigentlich perfekt geeignet gewesen, um das Vertrauen in die Wissenschaft zu stärken. Stattdessen verpassten deutsche Medien die Chance, ihren Lesern eine der wichtigsten Lektionen der modernen Forschung zu vermitteln: dass Wissenschaft funktioniert, gerade weil sie sich selbst korrigiert – aber nur, wenn diese Korrekturen auch kommuniziert werden.

Nullhypothese

Diskussion über diese Post