Frau liest Wahlumfrage-News auf dem Handy in der U-Bahn

Wie Institute Umfragen gewichten

Key-Facts

  • Ziel: Rohdaten an die tatsächliche Bevölkerungsstruktur anpassen
  • Merkmale: Alter, Geschlecht, Region, Bildung, früheres Wahlverhalten
  • Effekt: Kann Ergebnisse um 1–3 Prozentpunkte verschieben
  • Transparenz: Genaue Modelle werden von Instituten nicht veröffentlicht

Wenn ein Institut veröffentlicht, die CDU/CSU liege bei 30%, ist das nicht der reine Anteil der Befragten, die CDU/CSU gesagt haben. Zwischen den Rohdaten und dem veröffentlichten Ergebnis liegt ein komplexer statistischer Prozess: die Gewichtung. Sie ist der wichtigste und gleichzeitig intransparenteste Schritt bei der Erstellung von Wahlumfragen.

Warum wird gewichtet?

Keine Stichprobe bildet die Bevölkerung perfekt ab. Bestimmte Gruppen sind fast immer über- oder unterrepräsentiert:

  • Ältere Menschen nehmen häufiger an Telefonumfragen teil als Jüngere.
  • Höher Gebildete sind in Umfragen überrepräsentiert.
  • Männer nehmen an Online-Panels häufiger teil als Frauen.
  • Großstädter sind in vielen Stichproben überrepräsentiert.

Ohne Gewichtung würden die Ergebnisse die Meinung der Umfrageteilnehmer widerspiegeln — nicht die der Gesamtbevölkerung. Die Gewichtung korrigiert diese Verzerrungen.

Die wichtigsten Gewichtungsmerkmale

Merkmal Quelle der Sollwerte Typische Verzerrung Korrekturrichtung
AlterStatistisches BundesamtJüngere unterrepräsentiertAntworten Jüngerer zählen stärker
GeschlechtStatistisches BundesamtVariiert nach MethodeAnpassung an 50/50-Verteilung
RegionBundeswahlleiterOst oft unterrepräsentiertOst-Antworten zählen stärker
BildungMikrozensusHöher Gebildete überrepräsentiertAntworten Geringqualifizierter stärker
Recall (Wahlverhalten)Letztes WahlergebnisGewinner überrepräsentiertUmstritten — Institute handhaben unterschiedlich

Wie funktioniert die Gewichtung praktisch?

Vereinfacht dargestellt: Jede Antwort erhält einen Gewichtungsfaktor. Ist eine Gruppe in der Stichprobe unterrepräsentiert, erhält jede Antwort aus dieser Gruppe einen Faktor größer als 1. Ist eine Gruppe überrepräsentiert, liegt der Faktor unter 1.

Wahlumfrage-Auswertung am Laptop — Meinungsforschung und Sonntagsfrage Deutschland
Politische Analyse: Wie Institute Umfragen gewichten — Methoden & Erklärung — Fakten und Einordnung.

Rechenbeispiel

In der Stichprobe sind 15% der Befragten 18–29 Jahre alt. In der Bevölkerung sind es 18%.

Gewichtungsfaktor: 18% / 15% = 1,2

Jede Antwort eines 18–29-Jährigen wird mit dem Faktor 1,2 multipliziert.

In der Praxis werden mehrere Merkmale gleichzeitig gewichtet (sogenannte iterative oder Raking-Gewichtung). Das ist mathematisch anspruchsvoll, weil sich die Merkmale gegenseitig beeinflussen — etwa wenn junge Männer aus dem Osten in mehrfacher Hinsicht unterrepräsentiert sind.

Rentner informiert sich am Computer über Wahlumfragen
Ohne Gewichtung wären ältere, höher gebildete Teilnehmer in Umfragen deutlich überrepräsentiert.

Die Recall-Frage: Der umstrittenste Punkt

Der Recall — die Frage, welche Partei man bei der letzten Bundestagswahl gewählt hat — ist das umstrittenste Gewichtungsmerkmal. Das Problem: Befragte erinnern sich oft falsch. Gewinner-Parteien werden häufiger als tatsächliches Wahlverhalten angegeben (Winner-Bias), Verlierer-Parteien seltener.

Manche Institute gewichten den Recall stark, andere kaum. Forsa nutzt ein besonders starkes Recall-Modell, was zu seinen spezifischen House Effects beiträgt.

Wie stark verändert die Gewichtung das Ergebnis?

Die Gewichtung kann einzelne Parteienwerte um 1 bis 3 Prozentpunkte verschieben. Bei kleinen Parteien nahe der Fünf-Prozent-Hürde kann das den Unterschied zwischen drin und draußen ausmachen. Bei großen Parteien verändert sich die Rangfolge durch die Gewichtung selten.

MrP: Die neue Methode, die Gewichtung revolutioniert

Seit etwa 2017 setzt sich in der angloamerikanischen Wahlforschung eine neue Gewichtungsmethode durch: Multilevel Regression and Poststratification (MrP). Statt einzelne Gewichtungsfaktoren zu berechnen, wird ein statistisches Modell trainiert, das die Wahlabsicht für jede denkbare demografische Kombination schätzt (z.B. „Ostdeutsche Frau, 35–44 Jahre, Hochschulabschluss"). Diese Schätzungen werden dann mit der tatsächlichen Bevölkerungsverteilung gewichtet.

MrP hat bei der Brexit-Umfrage und den US-Wahlen 2018/2020 beeindruckende Ergebnisse gezeigt — vor allem bei regionalen Untergruppen, wo klassische Gewichtung an ihre Grenzen stößt.

In Deutschland nutzt YouGov MrP bereits für bestimmte Analysen. INSA und die klassischen Institute setzen weiterhin auf die traditionelle Raking-Gewichtung. Der Unterschied erklärt teils, warum House Effects zwischen YouGov und INSA auch bei gleicher Online-Methode auftreten.

Raking vs. MrP im Vergleich

  • Raking (klassisch): Iterative Anpassung marginaler Verteilungen. Einfach, transparent, schnell. Schwach bei kleinen Untergruppen.
  • MrP (modern): Bayesianisches Regressionsmodell. Besser bei dünn besetzten Subgruppen. Benötigt größere Stichproben und Referenzdaten.
  • Gemeinsam: Beide benötigen genaue Bevölkerungsdaten (Statistisches Bundesamt, Mikrozensus, Bundeswahlleiter) als Referenz.

1950: Repräsentativität – wie 1.000 Menschen für 60 Millionen sprechen

Eine repräsentative Umfrage mit 1.000 Befragten hat einen statistischen Fehler von ±3 Prozentpunkten. Das bedeutet: Eine Partei bei 35 Prozent könnte wirklich zwischen 32 und 38 Prozent sein. Das reicht oft nicht, um knappe Rennen zu prognostizieren. In Deutschland nutzen Institute 1.500-2.000 Befragte für Sonntagsfragen. Allensbach nutzt 1.500 mündliche Interviews – teuer, aber hochwertig. INSA nutzt bis zu 10.000 Befragte pro Woche – Online, günstig. Qualität hangt nicht nur von der Größe ab, sondern von der Zusammensetzung der Stichprobe.

Weiterführende Informationen: Bundeswahlleiter: Pressemitteilungen · Wikipedia: Meinungsumfrage

Häufige Fragen

Was bedeutet Gewichtung bei Umfragen?

Gewichtung ist ein statistisches Verfahren, bei dem unterrepräsentierte Gruppen stärker und überrepräsentierte Gruppen schwächer gezählt werden, damit die Stichprobe die Bevölkerung korrekt abbildet.

Welche Merkmale werden bei der Gewichtung verwendet?

Die wichtigsten Merkmale sind Alter, Geschlecht, Region (Bundesland oder Ost/West), Bildung und teilweise das frühere Wahlverhalten (Recall). Die genauen Modelle sind institutsspezifisch.

Warum gewichten Institute unterschiedlich?

Jedes Institut hat ein eigenes statistisches Modell. Unterschiede bei der Recall-Gewichtung, dem Umgang mit Unentschlossenen und der Berücksichtigung von Nichtwählern führen zu verschiedenen Ergebnissen.

Kann Gewichtung Umfragen manipulieren?

Theoretisch ja — unfaire Gewichtung könnte Ergebnisse in eine bestimmte Richtung verzerren. Seriöse Institute legen ihre Methodik aber offen. Wer die Gewichtungskriterien kennt, kann das Ergebnis besser einschätzen und im Vergleich mit anderen Instituten prüfen.

Was ist Recall-Gewichtung?

Recall-Gewichtung korrigiert die Stichprobe anhand der tatsächlichen Wahlergebnisse der letzten Wahl: Wenn zu viele CDU-Wähler von 2021 in der Stichprobe sind, werden ihre Antworten etwas geringer gewichtet. Das macht aktuelle Umfragen stabiler und weniger anfällig für Zufalls-Schwänkungen.

Mehr dazu: SPD Umfragen · Briefwahl
Mehr dazu: Aktuelle Sonntagsfrage · Alle Umfragen-Artikel · Umfrage-Institute

Wahlumfrage-Benachrichtigungen

Sofort informiert bei neuen Umfragen — direkt im Browser, kein Spam.

Mehr erfahren →