Mann liest politische Nachrichten auf dem Handy

FiveThirtyEight — Das berühmteste Umfrage-Modell der Welt

Key-Facts: FiveThirtyEight

  • Gründer: Nate Silver (Statistiker und Autor)
  • Gründung: 2008 als Blog, später bei New York Times, ESPN, ABC News
  • Einstellung: März 2023 (durch ABC News)
  • Nachfolge: Silver Bulletin (Nate Silvers eigene Plattform, seit 2024)
  • Methode: Qualitätsgewichtete Umfrage-Aggregation + Monte-Carlo-Simulation
  • Namensbedeutung: 538 = Anzahl der Wahlmänner im US Electoral College

Die Entstehung: Von Baseball zu Wahlen

Nate Silver war ursprünglich Baseballstatistiker. Als Mitentwickler des PECOTA-Systems (ein Prognosemodell für Spielerleistungen) hatte er sich einen Namen in der Sabermetrics-Szene gemacht – der datengetriebenen Analyse von Baseball. 2008 übertrug er seine statistischen Methoden auf die US-Präsidentschaftswahl und gründete den Blog FiveThirtyEight.com.

Der Name bezieht sich auf die 538 Wahlmänner im Electoral College – die magische Zahl, die über die US-Präsidentschaft entscheidet. Silvers Ansatz war revolutionär: Statt sich auf einzelne Umfragen zu verlassen, aggregierte er systematisch alle verfügbaren Erhebungen und gewichtete sie nach Qualität, Aktualität und Stichprobengröße.

Bei der Wahl 2008 sagte Silver den Ausgang in 49 von 50 Bundesstaaten korrekt voraus. 2012 traf er alle 50 Staaten. Dieser Erfolg machte FiveThirtyEight zum berühmtesten Umfrage-Aggregator der Welt und Silver zum bekanntesten Statistiker außerhalb der Wissenschaft.

Das Modell: Wie FiveThirtyEight funktionierte

Das FiveThirtyEight-Modell basierte auf mehreren Schritten, die in der Umfrage-Aggregation als Goldstandard galten:

1. Umfragen sammeln: Das Modell erfasste alle öffentlich verfügbaren Umfragen – sowohl nationale als auch bundesstaatliche. Bei einer Präsidentschaftswahl kamen so mehrere tausend Einzelumfragen zusammen.

2. Pollster-Rating: Jedes Umfrageinstitut erhielt eine Note von A+ bis F, basierend auf historischer Genauigkeit, Transparenz und Methodik. Umfragen von A-rated Pollstern (z.B. Monmouth, Marist, NYT/Siena) wurden stärker gewichtet als D-rated Online-Panels.

3. House-Effect-Korrektur: Das Modell identifizierte systematische Verzerrungen einzelner Institute. Wenn ein Pollster die Republikaner historisch um 2 Punkte überschätzte, wurden dessen Umfragen entsprechend korrigiert – ein Konzept, das als House Effect bekannt ist.

4. Trend-Linie: Statt einen einfachen Durchschnitt zu bilden, berechnete das Modell eine gewichtete Trendlinie. Neuere Umfragen wurden stärker gewichtet als ältere, größere Stichproben stärker als kleinere.

5. Monte-Carlo-Simulation: Das Herzstück des Modells. FiveThirtyEight simulierte die Wahl zehntausende Male unter Berücksichtigung der Unsicherheit. Das Ergebnis war keine einzelne Vorhersage, sondern eine Wahrscheinlichkeitsverteilung – z.B. „Biden gewinnt mit 89 Prozent Wahrscheinlichkeit".

Mann liest Wahlumfrage-News auf dem Handy
FiveThirtyEight machte Umfrage-Aggregation populär – und veränderte die Art, wie Menschen Wahlumfragen konsumieren.

Erfolge und Grenzen des Modells

Wahl FiveThirtyEight-Prognose Ergebnis Bewertung
2008 (Obama)49/50 Staaten korrektObama gewinntHervorragend
2012 (Obama)50/50 Staaten korrektObama gewinntPerfekt
2016 (Trump)Clinton 71 %, Trump 29 %Trump gewinntUmstritten (s.u.)
2020 (Biden)Biden 89 %, Trump 10 %Biden gewinnt (knapper als erwartet)Richtig, aber zu sicher

2016 – Die grosse Debatte: Die Wahl 2016 wurde häufig als Versagen von FiveThirtyEight dargestellt. Das ist ungenau: Das Modell gab Trump eine 29-prozentige Gewinnchance – deutlich höher als andere Aggregatoren (Huffington Post: 2 %, Princeton Election Consortium: 1 %). Eine 29-Prozent-Wahrscheinlichkeit ist keine Unmöglichkeit – sie entspricht etwa der Wahrscheinlichkeit, bei einem Würfelwurf eine 1 oder 2 zu werfen.

Silvers zentrale Einsicht war, dass die Umfragefehler in verschiedenen Swing States korreliert sein könnten: Wenn die Umfragen in Pennsylvania daneben lagen, war es wahrscheinlich, dass sie auch in Michigan und Wisconsin daneben lagen. Genau das trat 2016 ein. FiveThirtyEight hatte diese Korrelation im Modell berücksichtigt – deshalb die vergleichsweise hohe Trump-Wahrscheinlichkeit.

Das Pollster-Rating: Qualitätskontrolle für Umfragen

Eines der einflussreichsten Werkzeuge von FiveThirtyEight war das Pollster-Rating. Jedes Institut wurde anhand von drei Kriterien bewertet:

Historische Genauigkeit: Wie nah lagen die Umfragen des Instituts an vergangenen Wahlergebnissen? Dies war das wichtigste Kriterium.

Methodische Transparenz: Veröffentlicht das Institut seine Methodik, Stichprobengröße und Gewichtung? Transparente Institute wurden besser bewertet.

Parteinahe Finanzierung: Institute, die von Parteien oder Kampagnen finanziert wurden, erhielten Abzüge, weil ihre Umfragen potenziell verzerrt sind.

Dieses Rating-System existiert in Deutschland nicht in vergleichbarer Form. Die deutschen Institute arbeiten zwar nach hohen Standards, aber eine systematische, öffentliche Bewertung ihrer historischen Genauigkeit fehlt.

Nach FiveThirtyEight: Die Nachfolger

Als ABC News FiveThirtyEight im März 2023 einstellte, hinterließ es eine Lücke in der politischen Analyselandschaft. Mehrere Nachfolgeprojekte traten an:

Silver Bulletin: Nate Silver gründete seine eigene Plattform (zunächst auf Substack) und baute ein neues Modell für die Wahl 2024. Das Modell ähnelte dem alten FiveThirtyEight, wurde aber um neue Features erweitert.

538 (ABC News): ABC News behielt die Marke und den Datensatz und betrieb die Seite mit einem neuen Team weiter – allerdings in deutlich reduziertem Umfang.

The Economist: Das britische Magazin baute sein eigenes Prognosemodell aus und füllte die Nische, die FiveThirtyEight hinterlassen hatte.

Relevanz für Deutschland

In Deutschland gibt es kein Pendant zu FiveThirtyEight. Die Sonntagsfrage wird zwar von mehreren Instituten erhoben, aber eine systematische, qualitätsgewichtete Aggregation fehlt weitgehend. Portale wie Bundestagwahlumfrage.de und wahlrecht.de zeigen Umfragen im Überblick, berechnen aber keine Wahrscheinlichkeiten im FiveThirtyEight-Stil.

Das liegt auch am unterschiedlichen Wahlsystem: In Deutschland mit seinem Verhältniswahlrecht ist die Umrechnung von Umfragen in Sitze deutlich einfacher als in den USA. Die Notwendigkeit komplexer Modelle ist daher geringer – aber nicht null, insbesondere bei Fragen zu Überhangmandaten und Koalitionswahrscheinlichkeiten.

Mann blickt nachdenklich über die Elbe
Auch in Deutschland wächst das Interesse an datengetriebener Wahlanalyse – FiveThirtyEight hat dafür den Standard gesetzt.

2022: FiveThirtyEight sagt Senat-Ergebnis voraus – trotz rotem Warnband

Bei den US-Midterm-Wahlen am 8. November 2022 prognostizierte FiveThirtyEight: Demokraten 52 Senatssitze, Republikaner 48. Viele Beobachter erwarteten eine rote Welle. Das tatsächliche Ergebnis: Demokraten 48 Sitze, Republikaner 49, Unabhaengige 3 – de facto Demokraten 51 (mit Koalitionspartnern). FiveThirtyEight hatte den Senat korrekt vorhergesagt, während alle grossen konventionellen Institute eine republikanische Mehrheit prognostizierten. Gruender Nate Silver verliess das Projekt kurz danach, weil er Druck zur redaktionellen Weichzeichnung seiner Prognosen beklagte. Das Modell selbst hatte funktioniert.

Der FiveThirtyEight-Ansatz in Deutschland: dawum.de und Wahlrecht.de im Vergleich

Das Grundprinzip von FiveThirtyEight – alle verfügbaren Umfragen gewichtet nach Methodik, Stichprobengröße und historischem Track-Record zu aggregieren – hat deutsche Nachahmer gefunden. Dawum.de und Wahlrecht.de zeigen gewichtete Durchschnitte aller Institute, verzichten aber auf die ML-Komponente (Monte-Carlo-Simulation), die FiveThirtyEight einzigartig machte. Der wichtigste Unterschied: Nate Silvers Modell bewertete systematisch Institute nach historischer Genauigkeit (A+ bis F) und korrigierte bekannte Hauseffekte. Deutsche Aggregatoren tun das nur rudimentär. 2012 sagte FiveThirtyEight alle 50 US-Bundesstaaten korrekt voraus; 2016 gab es Trump 29 % – nicht als unmöglich, nur als Underdog. Das zentrale Risiko jedes Aggregationsmodells: Wenn alle Institute systematisch gleich falsch liegen (z.B. AfD-Unterschätzung in Ostdeutschland), gibt der Durchschnitt falsche Sicherheit. Umfrage-Aggregation erklärt →

Lehren für die deutsche Demoskopie

Was kann Deutschland von FiveThirtyEight lernen? Die wichtigste Lektion ist methodische Transparenz: Jedes Institut sollte seine Gewichtungsverfahren, Stichprobenzusammensetzung und historische Genauigkeit öffentlich dokumentieren. In Deutschland ist das nur teilweise der Fall.

Die zweite Lektion: Wahrscheinlichkeiten statt Prozentzahlen. Eine Umfrage, die der SPD 24 Prozent gibt, sagt wenig ohne die Fehlertoleranz. FiveThirtyEight kommunizierte immer in Bandbreiten und Wahrscheinlichkeiten — ein Ansatz, der zu mehr Ehrlichkeit über Unsicherheit führt.

Externe Informationen: Wikipedia: FiveThirtyEight · Bundestag: Glossar Wahlen

Häufige Fragen

Was war FiveThirtyEight?

Eine von Nate Silver 2008 gegründete Plattform für datengetriebene Wahlanalyse. Das Modell aggregierte Umfragen, gewichtete sie nach Qualität und berechnete Wahlwahrscheinlichkeiten per Monte-Carlo-Simulation.

Warum heißt es FiveThirtyEight?

538 ist die Anzahl der Wahlmänner im US Electoral College. 270 davon sind für einen Sieg bei der Präsidentschaftswahl nötig.

Warum wurde FiveThirtyEight eingestellt?

ABC News stellte die Plattform im März 2023 ein. Nate Silver gründete daraufhin das Silver Bulletin als unabhängige Nachfolge.

Hat FiveThirtyEight 2016 versagt?

Nein – das Modell gab Trump eine 29-Prozent-Chance, deutlich höher als andere Aggregatoren. Das wurde zwar als Fehler dargestellt, war aber eine realistische Einschätzung der Unsicherheit.

Mehr dazu: 299 Wahlkreise · CDU/CSU Umfragen · 5%-Hürde
Mehr dazu: Aktuelle Sonntagsfrage · Alle Umfragen-Artikel · Umfrage-Institute

Wahlumfrage-Benachrichtigungen

Sofort informiert bei neuen Umfragen — direkt im Browser, kein Spam.

Mehr erfahren →