TL;DR: US-Vizepräsident JD Vance twitterte über die Reproduzierbarkeitskrise – und hatte recht. Nur 36 % psychologischer Studien lassen sich replizieren, in der Medizin teils nur 11 %. Das kostet Milliarden und zerstört Vertrauen in Wissenschaft. Ein kaputtes Anreizsystem belohnt Quantität statt Qualität. p-Hacking wird zur Norm – auch ich habe das erlebt. Das Problem ist real. Die Gefahr: Populisten wie Vance nutzen diese Schwächen als Waffe. Trumps neue Executive Order erklärt Reproduzierbarkeit zum Maßstab – und schießt dabei gezielt gegen DEI, Klima- und Gesundheitspolitik.
Die Wahl ist klar: Reformieren wir uns selbst – oder überlassen wir das Feld denen, die Wissenschaft entkernen wollen?
Anlass zur Sorge
Vergangenen Samstag (24.5.2025) twitterte US-Vizepräsident JD Vance: "Es gibt eine außergewöhnliche 'Reproduzierbarkeitskrise' in den Wissenschaften, besonders in der Biologie, wo die meisten veröffentlichten Studien nicht replizierbar sind."
Diese Nachricht traf mich mit voller Wucht. Nicht weil er unrecht hätte. Sondern weil er verdammt noch mal recht hat.
Vor ziemlich genau einem Jahr saß ich in einem Besprechungsraum und machte gegenüber Kolleg*innen eine unangenehme Vorhersage: Wenn ich als AfD das deutsche Universitätssystem angreifen und deligitimieren wollte, würde ich mich auf die Forschungsreproduzierbarkeit konzentrieren. Das ist unser verwundbarster Punkt. Der Ort, wo auch Kritiker mit schlechten Absichten uns treffen können, ohne wissenschaftsfeindlich zu wirken. Jetzt macht genau das ein amerikanischer Politiker, den die meisten deutschen Akademiker*innen verachten. Und wir haben ihm die Munition höchstpersönlich geliefert.
Am selben Wochenende wurde klar, dass es nicht bei Tweets bleiben wird. Nur einen Tag vor Vances Post, am 23. Mai 2025 - von mir aber erst in der Folgewoche wahrgenommen-, unterzeichnete Präsident Trump die Executive Order „Restoring Gold Standard Science“. Darin verpflichtet er alle Bundesbehörden, neue Standards für Transparenz, Reproduzierbarkeit und Unabhängigkeit wissenschaftlicher Beratung einzuführen. Was nach einem Manifest der Open-Science-Bewegung klingt, entpuppt sich bei genauerem Hinsehen als politische Instrumentalisierung: Die Order kritisiert ausdrücklich Diversitätsmaßnahmen, verweist auf „missbräuchliche“ COVID-Leitlinien der CDC und auf Klimamodelle, die zu pessimistisch seien. In der Summe ergibt sich ein Muster: Reale wissenschaftliche Schwächen werden genutzt, um ganze Forschungsbereiche – Public Health, Umwelt, soziale Gerechtigkeit – zu delegitimieren. Die Replikationskrise wird zur Waffe.
Das Problem ist nicht, dass Populisten wissenschaftliche Institutionen angreifen. Das Problem ist, dass sie dabei echte Schwachstellen treffen. Wenn JD Vance oder hierzulande die AfD - vermutlich bald - über die "Replikationskrise" sprechen, können wir nicht einfach "Wissenschaftsfeindlichkeit!" rufen und hoffen, dass das Problem verschwindet. Denn die Krise ist real.
Ich schreibe das nicht als Außenstehender, der mit dem Finger auf andere zeigt. Ich schreibe es als jemand, der mittendrin war und immer noch mittendrin ist. Als Promovierter, der das System von innen kennt. Als Diversity-Praktiker, der täglich sieht, wie fragwürdige Forschung zu teurer Politik wird. Genau deshalb habe ich diesen Substack gestartet, nämlich um auf die Qualitätsprobleme in der DEI-Forschung hinzuweisen, die mein Arbeitsfeld untergraben.
Dieser Artikel über die Replikationskrise war schon lange geplant, sollte aber erst deutlich später erscheinen. Vances Tweet hat mich dazu gebracht, ihn vorzuziehen. Denn wenn extreme Politiker*innen beginnen, unsere verwundbarsten Punkte zu attackieren, können wir nicht länger warten und hoffen, dass es schon irgendwie gut wird.
"Security through obscurity" funktioniert nicht mehr. Die Strategie, wissenschaftliche Probleme unter Verschluss zu halten und zu hoffen, dass sie niemand außerhalb der Universitäten bemerkt, ist gescheitert. Die Replikationskrise ist längst öffentlich, die Skandale sind dokumentiert, die Schwachstellen sind bekannt. Populisten wie Vance brauchen keine Insider-Informationen - sie können einfach auf PubPeer, Retraction Watch oder Data Colada verweisen. Das Internet hat die Mauern des Elfenbeinturms eingerissen und verteilt unsere schmutzige Wäsche in der Öffentlichkeit.
Wir stehen vor einer Wahl: Reformieren wir uns selbst, oder lassen wir es uns von Politikern aufzwingen, die unsere Institutionen nicht stärken, sondern schwächen wollen?
Wie schlimm ist die Lage?
Aber wie schlimm ist die Lage eigentlich? Über jahrelange Einzelfälle und Anekdoten hinaus: Gibt es harte Zahlen zum Ausmaß der Replikationskrise?
Großangelegte Replikationsprojekte der letzten Jahre zeichnen ein ernüchterndes Bild über verschiedene Forschungsgenerationen hinweg. So zeigten beispielsweise die Many Labs-Projekte (2015-2020), dass viele klassische psychologische Effekte unter vielfältigen Bedingungen nicht immer robust replizierbar sind. Dass dieses Problem aber keineswegs nur die "alten Meister" betrifft, sondern auch die moderne Forschung, offenbarte dann mit voller Wucht das „Reproducibility Project: Psychology“: Diese 2015 veröffentlichte Bestandsaufnahme von Studien, die 2008 publiziert wurden, konnten nur 36 % von 100 Forschungsarbeiten erfolgreich repliziert werden. In der experimentellen Ökonomie ließen sich nur 11 von 18 Studien replizieren.
In der Medizin ist die Lage noch dramatischer. Ein Pharmaunternehmen versuchte, 53 bahnbrechende Krebsstudien zu reproduzieren - erfolgreich war es nur in 6 Fällen, eine Versagensquote von 89%. Noch erschütternder war die Einschätzung von Richard Horton, dem ehemaligen Chefredakteur der renommierten Medizinzeitschrift The Lancet: "Vieles von der wissenschaftlichen Literatur, vielleicht die Hälfte, könnte schlicht unwahr sein. Geplagt von Studien mit kleinen Stichproben, winzigen Effekten, ungültigen explorativen Analysen und eklatanten Interessenskonflikten hat die Wissenschaft eine Wendung zur Dunkelheit genommen" [eigene Übersetzung]. Aktuellere Untersuchungen wie das „Reproducibility Project: Cancer Biology“ (2021) stützen diese Einschätzung mit einer Replikationsrate von nur 46 % für Krebsstudien.
Mit anderen Worten: In weiten Teilen der Wissenschaft scheitert bis zu der Hälfte aller Replikationsversuche. Das bedeutet nicht automatisch, dass die ursprünglichen Studien falsch waren - aber es zeigt, dass unsere Methoden weit weniger robust sind, als wir dachten.
Der Preis der Krise: Milliardenverluste und erodiertes Vertrauen
Die Krise der Reproduzierbarkeit ist kein abstraktes, akademisches Problem. Ihre Konsequenzen sind real, sie sind teuer und sie untergraben die Fundamente unserer Wissensgesellschaft. Die Kosten lassen sich in zwei Währungen bemessen: in Milliarden von Euro und Dollar, die verschwendet werden, und in einer Währung, die ungleich schwerer zurückzugewinnen ist – öffentliches Vertrauen.
Die wirtschaftlichen Kosten: Ein System verbrennt Geld
Die Zahlen sind erschütternd: Konservative Schätzungen gehen davon aus, dass 50-90% der präklinischen Forschung nicht reproduzierbar ist. Pharmaunternehmen erwarten inzwischen routinemäßig, dass nur 10-25% der akademischen Studien in ihren eigenen Laboren replizierbar sind. Das Resultat ist eine gigantische Verschwendung von Ressourcen. Allein in den USA werden jährlich 28-50 Milliarden Dollar für irreproduzierbare biomedizinische Forschung verschwendet. In Europa dürften die Zahlen ähnlich verheerend sein. Bei 129,7 Milliarden Euro jährlichen Ausgaben in Deutschland sprechen wir von zig Milliarden Euro Verschwendung pro Jahr.
Ein besonders erschütterndes Beispiel ist die Alzheimer-Forschung. 2022 deckte ein Vanderbilt-Forscher namens Matthew Schrag auf, dass eine wegweisende Studie von 2006 über Amyloid-beta-Proteine möglicherweise auf gefälschten Bildern basierte, wie das Magazin Science ausführlich berichtete. Diese Studie wurde über 2.300 Mal zitiert und beeinflusste die Richtung der Alzheimer-Forschung für 16 Jahre. Die NIH-Förderung für Amyloid-bezogene Alzheimer-Forschung stieg von praktisch null im Jahr 2006 auf 287 Millionen Dollar in 2021. Darauf basierend wurden Medikamente wie Aduhelm entwickelt, das trotz schwacher und widersprüchlicher Evidenz eine FDA-Zulassung erhielt. Die Folgen waren fatal: Bei einem erheblichen Teil der Patient*innen kam es zu schwerwiegenden Nebenwirkungen wie Hirnschwellungen und Mikroblutungen. Mehrere Todesfälle stehen im Zusammenhang mit der Behandlung, während die erhoffte kognitive Verbesserung ausblieb. Milliarden US-Dollar flossen in eine Forschungsrichtung, die nicht nur therapeutisch versagte, sondern teilweise auf Daten beruhte, deren wissenschaftliche Integrität mittlerweile stark angezweifelt wird.
Aber das ist nur die Spitze des Eisbergs. Die indirekten Kosten sind noch dramatischer: Jahre der Folgeforschung, die auf falschen Grundlagen aufbaut, und eine Medikamentenentwicklung, die teure Sackgassen verfolgt. Die Industrie hat darauf reagiert, indem sie akademische Forschung zunehmend ignoriert und routinemäßig eigene Validierungsstudien durchführt, bevor sie Millionen in die Entwicklung investiert. Das schafft ein "Valley of Death" zwischen akademischer Forschung und praktischer Anwendung – eine Kluft, die durch mangelnde Reproduzierbarkeit entstanden ist.
Diese Kosten gehen weit über die Biomedizin hinaus. Im DEI-Bereich sehe ich täglich, wie deutsche Organisationen Millionen für Diversity-Programme ausgeben, deren wissenschaftliche Grundlage erschreckend dünn ist. Allein in den USA geben Unternehmen, laut Berichten wie sie die britische Regierung zitiert, über 8 Milliarden Dollar jährlich für Diversity-Trainings aus, obwohl die Evidenz für deren Wirksamkeit gemischt bis nicht vorhanden ist. Politische Entscheidungen in Bildung, Wirtschaft und Sozialpolitik basieren auf Studien, die möglicherweise nicht replizierbar sind. Jede falsche Politikempfehlung kostet nicht nur Geld, sondern auch Vertrauen in evidenzbasierte Entscheidungsfindung
Der Vertrauensverlust: Wenn Wissenschaft ihre Glaubwürdigkeit verspielt
Der größte Schaden ist aber möglicherweise der Vertrauensverlust. Die Replikationskrise untergräbt das öffentliche Vertrauen in die Wissenschaft genau zu dem Zeitpunkt, an dem wir es am dringendsten brauchen. Wenn Menschen hören, dass "die Hälfte aller Studien möglicherweise falsch ist", warum sollten sie dann Impfempfehlungen vertrauen? Warum Klimawandel-Forschung ernst nehmen? Die Krise liefert Wissenschaftsskeptikern und Verschwörungstheoretikern die perfekte Munition.
Dies war bereits während der COVID-19-Pandemie zu sehen, als mangelndes Vertrauen in die Wissenschaft ein starker Prädiktor für Impfskepsis war. Impfgegner verwiesen auf die "Krise der Wissenschaft", um ihre Position zu rechtfertigen – und konnten dabei auf echte Beispiele wissenschaftlichen Versagens zurückgreifen. Der Schatten von Andrew Wakefields betrügerischer 1998er Lancet-Studie, deren Rückzug auf Retraction Watch dokumentiert ist, liegt noch immer über der Impfdebatte
Jede Schlagzeile über gefälschte Daten oder zurückgezogene Studien stärkt diejenigen, die behaupten, man könne "den Experten" nicht trauen. Dieser Vertrauensverlust ist messbar und zeigt sich in der wachsenden Politisierung wissenschaftlicher Themen. Und genau hier schließt sich der Kreis zu JD Vances Tweet. Wenn Populisten wissenschaftliche Institutionen angreifen, können wir nicht mehr einfach rufen: "Das ist wissenschaftsfeindlich!", denn sie haben teilweise recht. Sie nutzen reale Probleme der Wissenschaft als Waffe gegen wissenschaftliche Institutionen. Das ist das Perfide an der Situation: Die Kritik ist berechtigt, aber die vorgeschlagenen "Lösungen" würden das Problem verschlimmern, nicht verbessern.
Die kaputte Maschinerie: Warum die Wissenschaft sich selbst sabotiert
Bevor wir verstehen können, warum die Replikationskrise entstanden ist, müssen wir verstehen, wie Wissenschaft eigentlich funktioniert. Nicht die idealistische Version aus Uni-Broschüren, sondern die wirtschaftliche Realität.
Wissenschaft ist ein Milliardengeschäft, das größtenteils mit Steuergeldern finanziert wird. Allein in Deutschland wurden 2023 insgesamt 129,7 Milliarden Euro für Forschung und Entwicklung ausgegeben - das ist mehr als der gesamte Bundeshaushalt für Verteidigung. Das Geld wandert von Steuerzahlern über Ministerien und Förderorganisationen wie die DFG zu Universitäten, die damit Forscher*innen bezahlen, Doktoranden finanzieren, Probanden entlohnen und teure Geräte kaufen. Mit diesen Geldern führen Wissenschaftler*innen dann Studien durch, erheben Daten und analysieren diese, schreiben ein Manuskript und reichen dieses bei einer einschlägigen Fachzeitschrift (engl. Journal) ein.
Und dann kommt das Peer-Review-System ins Spiel – theoretisch die umfassende Qualitätskontrolle der Wissenschaft. In der Praxis jedoch klafft oft eine Lücke zwischen diesem Anspruch und der Realität: Das System kann die hohen Erwartungen an eine fehlerfreie Validierung häufig nicht einlösen und erfüllt stattdessen eher die Funktion einer kritischen, tiefergehenden Plausibilitätsprüfung durch Fachkolleg*innen.
Peer Review kann viele Dinge: Es kann offensichtliche Methodenfehler erkennen, Argumentationslücken aufdecken, und sicherstellen, dass Studien dem aktuellen Stand der Forschung entsprechen. Was es nicht kann: Datenfälschung aufdecken. Wenn Francesca Gino (zu ihr später mehr) behauptet, 13.000 Versicherungspolicen ausgewertet zu haben, obwohl ihr nur 3.700 vorlagen, kann das kein* Gutachter*in erkennen – es sei denn, er verlangt die Rohdaten, was praktisch nie passiert. Und selbst wenn Studien versprechen, dass Daten 'auf Anfrage erhältlich' seien, ist dies oft ein leeres Versprechen. Eine aktuelle (und noch unveröffentlichte) Studie von Ian Hussy zeigte eindrücklich, dass solche Anfragen häufig erfolglos bleiben oder gar nicht erst beantwortet werden. Die postulierte Überprüfbarkeit der Forschung wird so auch nach der Publikation oft unterlaufen.
Selbst in Fällen, in denen die Rohdaten und der Analysecode zur Verfügung gestellt wird, ist es nicht üblich, dass Peer-Reviewer die Analyse der Autor*innen nochmals nachrechnen. Das wäre auch kaum zu machen, denn das Peer-Review-System basiert auf der freiwilligen Arbeit von Wissenschaftler*innen, die dies zumeist unentgeltlich und neben ihren eigentlichen Forschungs- und Lehraufgaben leisten. So wird das System des Peer-Reviews indirekt mit Steuergeldern finanziert, obwohl es primär den Fachzeitschriften zugutekommt, die sich im privaten Besitz weniger, oft hochprofitabler Verlage befinden.
Schlimmer noch: Das System lädt auch zu Missbrauch ein. Reviewer können Autoren dazu zwingen, ihre eigenen Arbeiten zu zitieren - der berüchtigte "bitte zitieren Sie diese fünf Arbeiten von mir"-Kommentar. Peer-Reviewer können konkurrierende Forschung blockieren, innovative Ansätze ablehnen, oder schlicht ihre persönlichen Befindlichkeiten austoben.
Das Resultat: Ein System, das Konformität belohnt und Risiken bestraft. Genau das Gegenteil von dem, was Wissenschaft braucht. Dadurch entsteht ein perverses System aus Anreizen, das Quantität über Qualität belohnt. Forscher müssen "publish or perish" - veröffentlichen oder untergehen. Ihre Karriere hängt nicht davon ab, ob ihre Studien replizierbar sind, sondern davon, wie viele Publikationen sie vorweisen können und in welchen Zeitschriften diese erscheinen.
Aber hier wird es erst richtig absurd: Die Forschung, die mit öffentlichen Geldern finanziert und peer-reviewt wurde, verschwindet hinter den Paywalls gewinnorientierter Verlage. Universitäten zahlen doppelt - erst für die Durchführung der Forschung, dann noch einmal für den Zugang zu den Ergebnissen. Der Steuerzahler finanziert Forschung, die er anschließend nicht lesen kann, ohne erneut zu zahlen. Wissenschaftliche Ergebnisse sind daher in der Regel der breiten Öffentlichkeit nicht zugänglich.
So entsteht eine Maschinerie, die darauf programmiert ist, möglichst viele "signifikante" Ergebnisse zu produzieren - unabhängig davon, ob sie der Wahrheit entsprechen. Das ist der perfekte Nährboden für eine Replikationskrise.
Die Erosion der Autorität: Wenn Superstars fallen
Die abstrakte Replikationskrise bekam in den letzten Jahren Gesichter. Und diese Gesichter gehörten zu den Stars der Verhaltensforschung - Menschen, die TED Talks hielten, Bestseller schrieben und als Experten für Ehrlichkeit und ethisches Verhalten galten. Ihr Fall zeigt: Die Krise hat die Elite der Wissenschaft erreicht.
Francesca Gino war ein Superstar. Harvard Business School, über 100 Publikationen, eine der meistzitierten Forscherinnen ihres Feldes. Sie erforschte Unehrlichkeit - warum Menschen lügen, betrügen und sich unethisch verhalten. 2012 veröffentlichte sie eine bahnbrechende Studie , die zeigte, dass Menschen 10% ehrlicher in Steuerformularen sind, wenn sie die Ehrlichkeitserklärung am Anfang statt am Ende unterschreiben. Die Obama-Regierung wurde aufmerksam, Regierungen weltweit studierten, ob sie mit diesem simplen Trick Milliarden an Steuerausfällen zurückholen könnten.
Die bittere Ironie: Eine Forscherin, die berühmt dafür war, Unehrlichkeit zu studieren, wurde selbst der Datenmanipulation in genau dieser Ehrlichkeitsstudie beschuldigt und mittlerweile wurde die Studie von der Fachzeitschrift zurückgezogen.
Im Mai 2025 vollzog Harvard einen beispiellosen Schritt: Zum ersten Mal seit über 80 Jahren entzog sie einer Professorin die Tenure - die praktisch unkündbare Anstellung auf Lebenszeit. Der Grund: Forschungsmissbrauch in mehreren Studien, aufgedeckt durch den Data Colada Blog von Uri Simonsohn, Leif Nelson und Joe Simmons.
Tatsächlich ist Ginos Fall keine Ausnahme. Er ist nur außergewöhnlich, weil sie ertappt wurde. Fälle wie der niederländische Sozialpsychologe Diederik Stapel, der Dutzende von Studien erfand, oder die zahllosen Rückzüge fragwürdiger Studien zeigen: Die Wissenschaft hat ein systemisches Problem. Die Webseite Retractionwatch.com versucht, diese Fälle zu dokumentieren und führt sogar ein “Leaderboard”, bei dem Fachzeitschriften bei den Top platzierten Kandidat*innen zwischen 48 und 220 ihrer wissenschaftlichen Artikel zurückzogen.
Dabei sind es oft nicht die Institutionen selbst, die diese Probleme aufdecken. Für jemanden mit statistischem Hintergrund ist es bemerkenswert, dass in 80 Jahren an der Universität Harvard mit (Stand allein 2023: 903 “tenured faculty”) Tausenden von Professor*innen jetzt zum ersten mal jemand entlassen wurde. Das deutet entweder auf einer aussergewöhnlich ehrliche Kultur oder auf eine hohe Zahl unentdeckter Fälle hin. Stattdessen sind es Wissenschaftler*innen wie die drei Forscher hinter Data Colada, die in ihrer Freizeit akribisch Studien prüfen und dabei Unregelmäßigkeiten finden oder die Mikrobiologin Elizabeth Bik, die in hunderten Studien Bildmanipulationen aufgedeckt hat. Es sind Plattformen wie Retraction Watch, die zurückgezogene Studien dokumentieren und eine Datenbank zur Erfassung des Status Quo angelegt haben. Es sind Initiativen wie FORRT (Framework for Open and Reproducible Research Training), die versuchen, die nächste Generation von Forschern besser auszubilden. All das passiert größtenteils ehrenamtlich - Menschen, die die Wissenschaft lieben und sie verbessern wollen.
Von mittendrin: Meine eigene Reise von Komplize zu Kritiker
Ich schreibe das nicht als Außenstehender, der mit dem Finger auf andere zeigt. Ich schreibe es als jemand, der selbst Teil des Problems war.
Es war während meiner Promotion, als ein erfahrener Forscher mir einen Rat gab, der mich bis heute verfolgt: "Du musst einen Dialog mit deinen Daten führen." Es klang fast poetisch. Was er meinte, war alles andere als das. Er ermutigte mich, so lange an den Daten herumzuprobieren, bis sie mir erzählten, was ich hören wollte, so lange, bis ich eine Story fand, die ich publizieren konnte.
Er wollte nicht betrügen. Er wollte mir helfen, meine Karriere zu sichern. Denn jahrelang Daten zu erheben und dann nichts Signifikantes zu finden, ist praktisch das Ende für eine frische wissenschaftliche Laufbahn. Je nach System bedeutet keine Publikation in einer Fachzeitschrift keine oder eine schlechter bewertete Promotion, keine Postdoc-Position, keine Professur. Er kannte das System und versuchte, mich durch die Fallstricke zu navigieren.
Das war der Moment, in dem ich verstand, wie normalisiert questionable research practices in der Wissenschaft sind. Nicht als bewusste Böswilligkeit, sondern als "clevere" Forschungstaktik, die von wohlmeinenden Mentoren an verzweifelte Nachwuchswissenschaftler weitergegeben wird um in einem maximal auf Konkurrenzgedanken ausgelegten System erfolgreich zu sein:
"Schau, ob du die Ausreißer entfernen kannst."
"Probier mal eine andere statistische Transformation."
"Vielleicht funktioniert es, wenn du die Gruppen anders aufteiltest."
"Schau doch mal ob sich hier nicht noch ein Interaktionseffekt versteckt"
Jahre später, als ich in den DEI-Bereich wechselte, begegnete mir das Problem erneut - nur diesmal von der anderen Seite. Plötzlich war ich derjenige, der Studien implementieren sollte, die andere mit fragwürdigen Methoden produziert hatten.
Ich sah deutsche Organisationen große Summen für Diversity-Trainings ausgeben, basierend auf Studien zur Effektivität solcher Programme, die sich bei genauerem Hinsehen als erschreckend dünn erwiesen. Ich beobachtete, wie Konzepte wie Mikroaggressionen oder Triggerwarnungen oder Bias-Trainings in Richtlinien übernommen wurden, obwohl die zugrundeliegende Forschung weit weniger robust war, als die Medienberichterstattung suggerierte.
Das Perfide: Im DEI-Bereich ist die Versuchung besonders groß, schwache Evidenz zu akzeptieren, weil die Ziele so ehrenhaft erscheinen. Wer will schon gegen Vielfalt und Inklusion argumentieren? Aber genau diese moralische Klarheit macht die Forschung anfällig für politisch motivierte Interpretation.
Systemische Gründe
Um die wahren Ursachen der Krise zu verstehen, müssen wir zwischen zwei Problemen unterscheiden: dem bewussten Betrug und den systemisch geförderten "fragwürdigen Forschungspraktiken" (Questionable Research Practices, QRPs).
Fälle wie Diederik Stapel, der Datensätze fälschte, oder die Datenmanipulationen im Fall Francesca Gino sind spektakulärer, krimineller Betrug. Sie sind die Spitze des Eisbergs. Das viel größere und für die Stabilität der Wissenschaft gefährlichere Problem liegt jedoch in der Grauzone darunter: den QRPs. Dabei handelt es sich nicht um erfundenen Daten, sondern um die subtile, oft nicht einmal als Betrug wahrgenommene Manipulation von echten Daten durch p-Hacking, selektives Berichten oder das nachträgliche Anpassen von Hypothesen.
Genau hier setzt die eigentliche systemische Analyse an. Denn während man für bewussten Betrug keine komplexe Erklärung außer krimineller Energie braucht, entstehen QRPs direkt aus dem Druck und den Strukturen des Wissenschaftsbetriebs. Warum ist das so? Die Antwort führt uns zu einer der unbequemsten Erkenntnisse der Wissenschaftsforschung: Nicht alle Wissenschaften sind gleich anfällig für diese Probleme aber bei allen Wissenschaften stecken die selben Incentives dahinter.
Der italienische Forscher Daniele Fanelli stellte dazu eine einfache, aber brutale Frage: Wie oft finden verschiedene wissenschaftliche Disziplinen positive Ergebnisse? Er analysierte über 2.000 Studien aus verschiedenen Feldern und entdeckte ein erschütterndes Muster.
Die Weltraumforschung hatte die niedrigste Rate positiver Ergebnisse (70,2%), während Psychologie und Psychiatrie die höchste aufwiesen (91,5%). Die Wahrscheinlichkeit, dass eine Studie ihre Hypothese(n) bestätigt, war in den Psychologie und Psychiatrie 5-mal höher als in der Weltraumforschung, in den Sozialwissenschaften insgesamt 2,3-mal höher als in den Naturwissenschaften.
Fanellis "Hierarchie-Hypothese" ist so elegant wie vernichtend: Je "weicher" eine Wissenschaft, desto weniger Beschränkungen gibt es für bewusste und unbewusste Verzerrungen der Forscher. Physiker können nicht einfach entscheiden, dass die Lichtgeschwindigkeit doch anders ist. Psychologen haben deutlich mehr Spielraum bei der Interpretation ihrer Daten.
Das bringt uns zu dem Konzept, das im Zentrum der Replikationskrise steht: die "researcher degrees of freedom" - die Freiheitsgrade der Forscher. Ein Team um Simmons, Nelson und Simonsohn identifizierte 6 verschiedene Entscheidungspunkte, an denen Forscher ihre Daten beeinflussen können: Welche Teilnehmer werden ausgeschlossen? Welche statistischen Tests werden verwendet? Wie werden Variablen definiert und kombiniert?
Jeder dieser Entscheidungspunkte ist für sich genommen völlig legitim. Das Problem entsteht, wenn Forscher diese Entscheidungen treffen, wenn sie wissen oder ahnen, wie sich diese auf das Ergebnis auswirken. Es ist der Unterschied zwischen einem Münzwurf und dem Anschauen der Münze, bevor man "Kopf" oder "Zahl" ruft.
In der Teilchenphysik zum Beispiel sind diese Freiheitsgrade extrem eng gefasst. Wenn Forscher am CERN nach einem neuen Teilchen suchen, wird die Analysemethode oft "blind" entwickelt. Das heisst, sie wird an simulierten Daten getestet und finalisiert, bevor die Wissenschaftler die echten Messergebnisse zu Gesicht bekommen. Dies verhindert, dass sie – selbst unbewusst – ihre Analyse so anpassen, dass ein erhofftes Signal erscheint. In der Psychologie hingegen ist fast alles interpretierbar: Was zählt als "Ausreißer"? Wie lange sollte eine Reaktionszeit sein, um noch als "normal" zu gelten? Welche demografischen Variablen sollte man mit einbeziehen?
Diese Flexibilität verwandelt ehrliche Wissenschaftler in unfreiwillige p-Hacker. Sie testen eine Hypothese, finden p = 0,07 - "nicht signifikant". Also entfernen sie ein paar extreme Werte: p = 0,053. Immer noch nicht unter 0,05. Vielleicht eine andere statistische Transformation? p = 0,048. Bingo! Publikation gesichert.
Der Forscher denkt nicht, dass er betrügt. Er denkt, er optimiert seine Analyse. Aber statistisch gesehen hat er seine α-Fehler-Rate von 5% auf möglicherweise 30% oder höher erhöht, ohne es zu merken.
Das bringt uns zu einem der fundamentalsten Probleme der modernen Wissenschaft: der Vermischung von explorativer und konfirmatorischer Forschung.
Confirmatory vs. Exploratory Research
Es gibt zwei grundlegend verschiedene Arten, Wissenschaft zu betreiben. Die eine ist Exploration - das Durchforsten von Daten auf der Suche nach interessanten Mustern. Die andere ist Konfirmation - das gezielte Testen vorab formulierter Hypothesen. Beide sind legitim und notwendig. Das Problem entsteht, wenn man sie vermischt und so tut, als wäre Exploration Konfirmation.
Stellen Sie sich vor, Sie gehen in ein Casino und setzen auf Rot beim Roulette. Die Kugel fällt auf Schwarz. Jetzt sagen Sie: "Eigentlich hatte ich auf Schwarz gesetzt." Das ist genau das, was in der Wissenschaft ständig passiert - nur subtiler und unbewusster.
Explorative Forschung ist wie eine Expedition in unbekanntes Terrain. Sie sammeln Daten und schauen, was Sie finden. Vielleicht entdecken Sie interessante Korrelationen, unerwartete Muster, neue Hypothesen. Das Problem: Bei genügend Variablen finden Sie immer irgendetwas. Die Website Spurious Correlations illustriert das perfekt - dort korreliert der Käsekonsum pro Kopf mit der Anzahl der Menschen, die sich in Betttüchern verheddern und sterben (r = 0,95). Rein zufällig.
Konfirmatorische Forschung funktioniert umgekehrt. Sie haben eine spezifische Hypothese, legen vorab fest, wie Sie sie testen werden, sammeln neue Daten und schauen, ob Ihre Vorhersage stimmt. Nur so können Sie wirklich "bestätigen", dass Sie etwas entdeckt haben und auch das nur mit starken Einschränkungen.
Das Problem wird noch schlimmer durch die theoretische Schwäche vieler Bereiche. In Feldern wie Organizational Behavior oder weiten Teilen der Psychologie sind die Theorien so vage und widersprüchlich, dass man praktisch jedes Ergebnis nachträglich "begründen" kann.
Ein klassisches Szenario: Sie erheben Daten und finden, dass Führungskräfte mit höherer emotionaler Intelligenz schlechtere Teamleistung erzielen. Das passt nicht zu Ihrer ursprünglichen Hypothese? Kein Problem. Sie wechseln einfach die theoretische Begründung: "Wie die Theorie der optimalen Herausforderung zeigt, könnten übermäßig empathische Führungskräfte ihre Teams unterfordern..."
Noch absurder wird es, wenn Peer-Reviewer sagen: "Die Theorie überzeugt mich nicht, nehmen Sie eine andere" - obwohl die Datenerhebung längst abgeschlossen ist. Also tauscht man einfach die Begründung aus, ohne ein einziges Datum zu ändern. Dasselbe Ergebnis wird nun durch eine völlig andere "Theorie" erklärt.
Das ist kein Einzelfall, sondern Alltag in vielen Bereichen der Wissenschaft. Die theoretische Beliebigkeit, insbesondere der Sozialwissenschaften, macht es unmöglich, echte Vorhersagen zu treffen oder Theorien zu falsifizieren. Alles kann erklärt werden, nichts kann widerlegt werden.
Das bringt uns zu einem fundamentalen Problem: Selbst wenn Einzelforscher ehrlich sein wollen, schafft das System Anreize, die sie in die Grauzone fragwürdiger Praktiken drängen können.
Die Tragödie der Allmende: Warum individuelle Tugend nicht reicht
Die Replikationskrise ist ein klassisches Beispiel für eine Tragödie der Allmende. Jeder Einzelne hat einen Anreiz, sich schlecht zu verhalten, auch wenn das kollektive Ergebnis für alle schädlich ist.
Stellen Sie sich vor, Sie sind ein ehrlicher Nachwuchsforscher. Sie führen eine saubere, gut gepowerte Studie durch, präregistrieren Ihre Hypothesen, und finden... nichts: p = 0,23. Kein signifikantes Ergebnis. Ihr Kollege am Nachbarlabor macht dasselbe, aber probiert so lange verschiedene Analysen aus, bis er p = 0,047 erreicht. Er publiziert in einer guten Zeitschrift, Sie nicht.
Wer bekommt den Postdoc? Wer die Professur? Wer die Forschungsgelder?
Das System wird noch perverser durch den "publication bias": Journals akzeptieren fast ausschließlich "positive" Ergebnisse. Nullbefunde - egal wie sauber durchgeführt, egal wie wichtig für das Forschungsfeld - landen in der Schublade. Ein gescheiterter Replikationsversuch ist für Editor*innen "uninteressant", auch wenn er zeigt, dass ein weitverbreiteter Befund falsch ist.
Zwar gibt es inzwischen wichtige Open-Access-Journale wie PLOS ONE, die Forschung auf Basis methodischer Solidität und unabhängig vom Ergebnis publizieren (was Nullbefunde und Replikationen einschließt), oder spezialisiertere Zeitschriften wie das Journal of Null Results, die explizit auch negative Ergebnisse fördern, und Formate wie 'Registered Reports', bei denen Studien vor der Datenerhebung zur Publikation akzeptiert werden, rein basiert auf der Qualität des Vorhabens. Aber das ist eine verschwindende Minderheit im Wissenschaftsbetrieb.
Das System belohnt systematisch diejenigen, die questionable research practices anwenden, und bestraft diejenigen, die ehrlich sind. Rigoros zu sein bedeutet weniger Publikationen, langsamere Karrieren, weniger Anerkennung.
In Deutschland ist dieser Druck besonders extrem. Hier gibt es praktisch nur eine einzige unbefristete Stelle im Wissenschaftsbetrieb: die Professur. Alles andere - vom Postdoc bis zur Juniorprofessur - ist befristet. Das Wissenschaftszeitgesetz sorgt dafür, dass Forscher nach maximal 12 Jahren (6 Jahre vor, 6 Jahre nach der Promotion) entweder eine Professur bekommen oder das System verlassen müssen.
Die Zahlen sind brutal: Nur etwa 7% aller Promovierten werden jemals Professor*in. Das bedeutet, 93% aller Nachwuchswissenschaftler kämpfen jahrelang in einem System, das sie am Ende ausspucken wird. Unter diesem existenziellen Druck wird jede Publikation zur Überlebensfrage.
Wenn Sie wissen, dass Sie nur wenige Jahre haben, um genügend hochkarätige Publikationen zu sammeln, um vielleicht eine der raren Professuren zu ergattern - was machen Sie dann mit einem ehrlich durchgeführten Experiment, das null Ergebnisse zeigt? Sie können sich keine leeren Jahre leisten.
Das Perfide: Jeder weiß, dass es so ist. Aber jeder denkt: "Wenn ich als Einziger ehrlich bin, während alle anderen tricksen, zerstöre ich nur meine eigene Karriere, ohne das System zu ändern." Also macht jeder mit, in der Hoffnung, dass irgendwann alle anderen damit aufhören.
Aber es wäre zu einfach, nur die individuellen Forscher zu beschuldigen. Die wahren Schuldigen sitzen in den Universitätsleitungen, Berufungskommissionen und Forschungsförderungsorganisationen und Verlagen, die diese perversen Anreize geschaffen haben und aufrechterhalten.
Universitäten predigen Exzellenz und Integrität, aber ihre Entscheidungen sprechen eine andere Sprache. Wen stellen sie ein? Den Kandidaten mit 50 Publikationen oder den mit 10 sauberen, replizierten Studien voller Nullbefunde? Wen fördern sie? Den Professor, der mediale Aufmerksamkeit generiert, oder den, der methodisch solide, aber "langweilige" Grundlagenforschung betreibt?
Die Antwort kennt jeder, der jemals in einer Berufungskommission gesessen hat. Es zählt Quantität, nicht Qualität. Und wenn von Qualität gesprochen wird, wird dieser oft über den Impact Factor oder das Ranking der Fachzeitschrift abgeleitet, nicht über die Qualität des einzelnen Aufsatzes.
Universitäten lieben "Rockstar"-Wissenschaftler wie Francesca Gino - bis die Blase platzt. Sie profitieren von den TED Talks, den Medienauftritten, den Beratungsverträgen mit Fortune-500-Unternehmen. Die methodischen Zweifel ignorieren sie, solange die Publicity stimmt. Harvard hat Ginos fragwürdige Arbeitsweise jahrelang übersehen, weil sie der Universität Prestige und Aufmerksamkeit brachte.
Freiwillige Selbstverpflichtung zur Rettung?
Die stärkste Gegenbewegung zu den beschriebenen Systemfehlern läuft unter dem Banner der "Open Science"-Bewegung. Ihr Ziel ist es, die Wissenschaft durch Prinzipien wie radikale Transparenz (Open Data, Open Code), freien Zugang zu Wissen (Open Access) und Überprüfbarkeit (Präregistrierung) zu ihren Grundwerten zurückzuführen.
Ein entscheidender Hebel, den diese Bewegung identifiziert hat, ist die Reform der veralteten Forschungsbewertung. Genau hier setzen die ambitioniertesten Initiativen an: Die Coalition for Advancing Research Assessment (COARA) ist die ambitionierteste davon. Über 700 Organisationen haben sich verpflichtet, ihre Bewertungskriterien zu reformieren - weg von reinen Publikationsmetriken, hin zu qualitativer Beurteilung und Anerkennung diverser Forschungsbeiträge.
Die 10 Kernverpflichtungen von COARA klingen vielversprechend: Anerkennung der Vielfalt von Forschungsbeiträgen, primär qualitative Bewertung durch Peer Review, Abschaffung unangemessener Journal-Metriken wie des Impact Factors. Ähnlich versucht die Declaration on Research Assessment (DORA), Universitäten von der Fixierung auf Journal-Impact-Faktoren wegzubringen.
Das Problem: Die Implementierungslücke ist gewaltig. COARA respektiert explizit die "Autonomie der Organisationen" - was in der Praxis bedeutet, dass jede Universität selbst entscheiden kann, wie ernst sie die Reformen nimmt.
Aber das eigentliche Problem liegt tiefer: Die Entscheidungsprozesse in Universitäten liegen fest in den Händen derjenigen, die im alten System erfolgreich waren und sind. Professoren dominieren Berufungskommissionen, Fakultätsräte und Senate. Das sind Menschen, die ihre Karriere genau in dem System gemacht haben, das nun reformiert werden sollen. Sie haben ihre Publikationen gesammelt, Impact-Faktoren gejagt, und quantitative Metriken gespielt - und damit Erfolg gehabt.
Warum sollten sie ein System ändern, das sie an die Spitze gebracht hat? Wenn sie zugeben, dass publikationsbasierte Bewertung problematisch ist, stellen sie implizit ihre eigene Karriere in Frage.
Als rhetorisches Schutzschild für diese Beharrungskräfte dient dabei oft das hohe Gut der 'Freiheit von Forschung und Lehre' aus dem Grundgesetz. Jeglicher Versuch, verbindliche Qualitätsstandards oder transparentere Berufungsverfahren einzuführen, wird als Angriff auf die Autonomie der Wissenschaft abgewehrt. Dabei wird der ursprüngliche Sinn dieses Grundrechts pervertiert: Es wurde geschaffen, um die Forschung vor politischer Zensur zu schützen, nicht um sie von wissenschaftlicher Sorgfaltspflicht zu befreien. Die Freiheit der Forschung ist nicht gleichbedeutend mit der Freiheit von jeder Rechenschaftspflicht. Denn wer im Auftrag und auf Kosten der Gesellschaft forscht, ausgestattet mit dieser Freiheit und den damit verbundenen Privilegien, schuldet ihr im Gegenzug auch die Einhaltung angemessener Forschungsstandards.
Die meisten Universitäten behandeln solche Initiativen allerdings als PR-Übung. Sie unterzeichnen die Erklärungen, halten ein paar Symposien ab, und machen dann weiter wie bisher. Wenn der nächste "Rockstar"-Kandidat mit 100 Publikationen zur Berufung ansteht, sind die schönen Worte über "qualitative Bewertung" schnell vergessen und niemand fragt danach, ob die Befunde replizierbar sind.
Das ist der Grund, warum freiwillige Reformen scheitern. Organisationen ändern sich nur unter Druck - externem Druck. Pharmaunternehmen haben ihre Forschungspraktiken nicht aus Einsicht verbessert, sondern weil Regulatoren sie dazu zwangen. Banken haben ihre Risikomanagement-Systeme nicht freiwillig verschärft, sondern nach der Finanzkrise.
Universitäten brauchen ähnlichen Druck. Forschungsförderorganisationen müssen ihre Kriterien ändern. Journals müssen Studien ohne Präregistrierung ablehnen, bzw. wesentlich kritischer bewerten. Akkreditierungsagenturen sollten zukünftig die Qualität der Forschungspraktiken bewerten, nicht nur die Anzahl der Publikationen. Aber dieser Druck kommt zu langsam und zu schwach. Während Wissenschaftler noch darüber diskutieren, ob und wie sie sich reformieren sollen, nutzen Politiker wie JD Vance die Schwachstellen des Systems bereits für ihre Zwecke.
Lösungen, die tatsächlich funktionieren
Die gute Nachricht: Die Lösungen für die Replikationskrise sind bekannt und es gibt sehr viele motivierte, exzellente Akteur*innen, die diese voran bringen. Die schlechte Nachricht: Sie erfordern systematische Veränderungen, die viele in der Wissenschaft nicht wollen.
Methodische Ansätze
Präregistrierung von Studien ist der wichtigste Hebel. Forscher müssen ihre Hypothesen, Methoden und Analysepläne öffentlich registrieren, bevor sie Daten sammeln. Das macht p-hacking unmöglich - man kann nicht nachträglich die Zielscheibe um den Pfeil malen, wenn das Ziel schon feststeht. Plattformen wie OSF (Open Science Framework) machen das heute einfacher als je zuvor.
Registered Reports gehen noch weiter: Journals bewerten und akzeptieren Studien bereits vor der Datensammlung, basierend auf Fragestellung und Methoden. Das Ergebnis ist egal - positive wie negative Befunde werden publiziert. Das beseitigt den publication bias auf einen Schlag. Wie die Studie von Scheel et al. (2021) zeigt, reduziert sich die Anzahl der bestätigten Hypothesen deutlich, wenn Studien registriert sind, schlichtweg, weil die Publikation vom Ergebnis der Studie unabhängig ist.
Open Data und Open Code bedeuten, dass andere Forscher die Analysen überprüfen können. Die aufwendige Aufdeckung der Datenmanipulationen in Francesca Ginos Studien durch Data Colada war nur möglich, weil die Forscher Zugang zu einigen Datensätzen erlangten. Wären ihre Rohdaten jedoch im Sinne umfassender Open-Data-Praktiken von Beginn an standardmäßig und transparent für alle zugänglich gewesen, wären die Manipulationen potenziell deutlich früher oder durch eine breitere wissenschaftliche Gemeinschaft entdeckt worden. Transparency ist der natürliche Feind des Betrugs.
Aber methodische Überlegungen alleine reichen nicht. Das Anreizsystem muss sich ändern - und das bedeutet, dass Universitäten, Journals und Forschungsförderung umdenken müssen.
Strukturelle Ansätze
Universitäten müssen ihre Berufungskriterien reformieren. Anstatt lange Publikationslisten als primäres Maß zu verwenden, sollten sie sich auf die tiefgehende inhaltliche Bewertung weniger, beispielsweise der 3-5 wichtigsten und aussagekräftigsten Forschungsleistungen der Kandidat*innen, konzentrieren. Dieser 'Best-of'-Ansatz sollte explizit die Möglichkeit einschließen, auch qualitativ herausragende, aber vielleicht noch unveröffentlichte Manuskripte, Preprints, wichtige Datensätze oder entwickelte Software als zentrale Leistungsnachweise zu werten. Die Bewertung muss primär qualitativ und auf den Inhalt bezogen erfolgen, nicht quantitativ.
Journals müssen Replikationen und Nullbefunde priorisieren. Das Journal of Null Results und Initiativen wie PLOS ONE's Fokus auf methodische Qualität zeigen, wie es geht. Jede große Zeitschrift sollte verpflichtet werden, einen bestimmten Prozentsatz ihrer Ausgaben für Replikationsstudien zu reservieren.
Forschungsförderung muss Replikationen finanzieren. Obwohl die Deutsche Forschungsgemeinschaft (DFG) sich dem Thema langsam öffnet, gibt es noch immer keine etablierten, breit angelegten Förderlinien, die es unkompliziert ermöglichen, reine Replikationsstudien zu finanzieren. Systematische Replikationen bleiben damit im Fördersystem die Ausnahme, nicht die Regel.
COARA-Commitments müssen bindend werden. Die schönen Erklärungen über qualitative Bewertung müssen in konkrete Personalentscheidungen übersetzt werden. Universitäten, die COARA unterzeichnet haben, aber weiterhin nur publikationsbasiert befördern, gehören öffentlich bloßgestellt. Da es sich hier um ein Problem der Allmende handelt, ist hier ggf. auch der Gesetzgeber gefragt die notwendigen Rahmenbedingungen zu setzen.
Das deutsche Wissenschaftszeitgesetz muss reformiert werden. Solange nur 7% aller Promovierten eine Professur erhalten und alle anderen nach maximal 12 Jahren das System verlassen müssen, bleibt der Druck zur Publikationsjagd existenziell. Deutschland braucht mehr permanente Mittelbau-Stellen für Forscher, die nicht Professor werden wollen oder können. Andere Länder zeigen, dass es geht: In den USA, UK oder Frankreich gibt es deutlich mehr unbefristete Forschungsstellen unterhalb der Professur.
Berufungsverfahren müssen transparent werden. Deutsche Universitäten müssen offenlegen, nach welchen Kriterien sie tatsächlich berufen - nicht was sie in Stellenausschreibungen behaupten. Wenn Qualität vor Quantität stehen soll, muss das in den Protokollen der Berufungskommissionen nachvollziehbar sein. Im Sinne einer Professionalisierung muss die Freiheit der Fakultäten, diese Verfahren nach Belieben zu gestalten, eingeschränkt werden.
Training der nächsten Generation ist entscheidend: Alle Doktoranden sollten verpflichtende Kurse in Forschungsethik, statistischen Methoden und Open Science absolvieren. Initiativen wie FORRT zeigen, wie solche Programme aussehen können. Zusätzlich sollten Replikationen Teil jeder Dissertationsarbeit sein.
Internationale Koordination ist unverzichtbar. Die Wissenschaft ist global, aber die Reformen sind fragmentiert. Die EU sollte COARA-Prinzipien zur Bedingung für Horizon Europe-Förderung machen. Universitäten, die Lippenbekenntnisse zur Reform abgeben, aber nichts ändern, sollten von EU-Geldern ausgeschlossen werden.
Verlage müssen in die Pflicht genommen werden. Elsevier, Springer Nature und andere Wissenschaftsverlage verdienen Milliarden mit öffentlich finanzierter Forschung. Sie könnten morgen beschließen, nur noch präregistrierte Studien zu publizieren oder alle Artikel mit Open Data zu verknüpfen. Hier braucht es regulatorischen Druck.
Whistleblower müssen geschützt werden. Menschen wie Matthew Schrag, der Betrug in der Alzheimer-Forschung aufdeckte und dabei sogar Probleme in den Arbeiten seines eigenen Mentors fand, riskieren ihre Karriere. Es braucht institutionelle Schutzräume und finanzielle Absicherung für Forscher, die wissenschaftliches Fehlverhalten melden.
Die Replikationskrise ist also nicht nur ein internes Problem der Wissenschaft – sie ist zur politischen Angriffsfläche geworden. Mit der Executive Order vom 23. Mai macht die US-Regierung ernst: Wissenschaftliche Standards werden nun per Dekret neu definiert. Und obwohl viele Forderungen oberflächlich begrüßenswert sind, etwa mehr Datenzugänglichkeit oder methodische Transparenz, zeigt der Kontext eine klare Schlagrichtung. Es geht nicht um bessere Wissenschaft, sondern um eine andere Wissenschaft. Eine, die politische Intervention kaschiert, indem sie sich in das Gewand "neutraler Standards" kleidet.
Am Wendepunkt: Reform als Gebot der Selbsterhaltung
Die Liste der notwendigen Reformen ist lang und ihre Umsetzung braucht Zeit – Zeit, die wir möglicherweise nicht haben. Denn während die Wissenschaft noch über das "Wie" der Reformen debattiert, ist die Krise längst zur politischen Waffe geworden. Populisten wie JD Vance in den USA oder die AfD in Deutschland warten nicht auf unsere Selbstheilung. Sie nutzen die realen, gut dokumentierten Schwachstellen des Systems bereits heute als Hebel, um die Glaubwürdigkeit der Wissenschaft an sich zu untergraben.
Dabei ist es entscheidend, zwischen zwei Arten von Kritik zu unterscheiden: der konstruktiven und der destruktiven. Konstruktive Kritiker wie die Forscher hinter Data Colada lieben die Wissenschaft und wollen sie durch Transparenz und rigorose Methoden retten. Destruktive Kritiker nutzen dieselben Beispiele – einen Fall wie Francesca Gino –, um ein anderes Ziel zu erreichen: die Delegitimierung von Expertise und evidenzbasierter Politik. Ihre Botschaft lautet nicht: "Macht die Wissenschaft besser!", sondern: "Traut den Expert*innen nicht!".
Genau deshalb ist ein defensives Leugnen der Probleme die schlechteste aller Strategien. Die erste und unbequemste Wahrheit lautet: Die Kritiker haben in der Sache recht. Die Krise ist real. Wenn Superstars wie Gino fallen, sind die Institutionen wie Harvard mitschuldig, die sie jahrelang wegen ihres Prestiges gefeiert haben. Die Probleme sind, wie meine eigene Reise vom Mitwisser zum Kritiker zeigt, keine bedauerlichen Einzelfälle, sondern die logische Folge eines Systems, das in einer "Tragödie der Allmende" systematisch Quantität über Qualität belohnt.
Aus dieser Einsicht folgt zwingend: Appelle an die individuelle Tugend reichen nicht. Es braucht kollektive, systemische Lösungen. Die Anreize in Berufungsverfahren, bei Forschungsförderorganisationen und im Publikationswesen müssen konsequent geändert werden. Die schönen Worte von Initiativen wie COARA müssen in die Tat umgesetzt und das deutsche Wissenschaftszeitgesetz muss reformiert werden, um den existenziellen Druck zu mindern.
Diese Reformen sind nicht länger nur wissenschaftlich notwendig, sie sind politisch überlebenswichtig. Denn am Ende steht eine einfache, brutale Wahl: Reformieren wir uns selbst, oder lassen wir es uns von Politikern aufzwingen, die unsere Institutionen nicht stärken, sondern schwächen wollen?
Die Krise, so gefährlich sie ist, bietet auch eine historische Chance: die Wissenschaft so zu reformieren, wie sie immer hätte sein sollen. Transparenter, robuster, ehrlicher. Eine Wissenschaft, die der Wahrheit verpflichtet ist, nicht dem Karrieredruck. Eine Wissenschaft, die Qualität über Quantität stellt. Eine Wissenschaft, die stark genug ist, um politische Instrumentalisierung zu überstehen. Die USA haben diese Wahl in Teilen bereits getroffen – und sie zeigt, wie dünn die Linie ist zwischen wissenschaftlicher Qualitätsverbesserung und ideologischer Säuberung. Die Replikationskrise ist real. Aber die Antwort auf sie entscheidet, ob die Wissenschaft gestärkt oder ausgehöhlt daraus hervorgeht.
Die Frage ist nur: Haben wir den Mut, diesen Kampf zu führen, bevor andere ihn für uns entscheiden?