Stichprobengröße bei Umfragen
Key-Facts
- Typische Stichprobe: 1.000–2.500 Befragte pro Umfrage
- Fehlertoleranz (n=1.000): ±1,4 bis ±3,1 Prozentpunkte (je nach Wert)
- Grundgesamtheit: Rund 61 Millionen Wahlberechtigte in Deutschland
- Regel: Qualität der Auswahl ist wichtiger als reine Größe
Eine der häufigsten Fragen zu Wahlumfragen lautet: Wie können 1.000 Befragte für 61 Millionen Wahlberechtigte sprechen? Die Antwort liegt in den mathematischen Grundlagen der Stichprobentheorie — und sie ist überraschend einleuchtend, wenn man die richtigen Vergleiche kennt.
Dieser Ratgeber erklärt, warum verhältnismäßig kleine Stichproben zuverlässige Ergebnisse liefern, wie die Fehlertoleranz mit der Stichprobengröße zusammenhängt und wann größere Stichproben tatsächlich nötig sind.
Das Suppentopf-Prinzip
Ein klassisches Bild hilft beim Verständnis: Um zu wissen, ob eine Suppe gewürzt ist, müssen Sie nicht den ganzen Topf austrinken — ein Löffel reicht, solange die Suppe gut umgerührt wurde. Genau so funktioniert eine repräsentative Stichprobe: Entscheidend ist nicht, wie viel Sie probieren, sondern ob die Probe die Gesamtheit widerspiegelt.
In der Statistik bedeutet „gut umgerührt“ eine echte Zufallsauswahl. Wenn jeder Wahlberechtigte die gleiche Chance hat, in die Stichprobe zu gelangen, bildet bereits eine vergleichsweise kleine Gruppe die Grundgesamtheit erstaunlich genau ab.
Fehlertoleranz und Stichprobengröße
Die statistische Fehlertoleranz (auch Schwankungsbreite oder Margin of Error) beschreibt, wie weit ein Umfrageergebnis vom wahren Wert abweichen kann. Bei einem 95%-Konfidenzintervall gilt:
| Stichprobengröße | Max. Fehlertoleranz (±) | Fehler bei 30% | Fehler bei 5% | Typische Institute |
|---|---|---|---|---|
| 500 | ±4,4% | ±4,0% | ±1,9% | — |
| 1.000 | ±3,1% | ±2,8% | ±1,4% | Allensbach |
| 1.500 | ±2,5% | ±2,3% | ±1,1% | Infratest dimap, GMS |
| 2.000 | ±2,2% | ±2,0% | ±1,0% | INSA, YouGov |
| 2.500 | ±2,0% | ±1,8% | ±0,9% | Forsa |
| 5.000 | ±1,4% | ±1,3% | ±0,6% | — |
| 10.000 | ±1,0% | ±0,9% | ±0,4% | — |
Die Tabelle zeigt ein wichtiges Muster: Die Fehlertoleranz sinkt mit steigender Stichprobe, aber der Zugewinn nimmt ab. Die Verdopplung von 1.000 auf 2.000 Befragte reduziert den maximalen Fehler nur um 0,9 Prozentpunkte. Um den Fehler zu halbieren, müsste man die Stichprobe vervierfachen.
Die mathematische Formel
Für mathematisch Interessierte: Die Fehlertoleranz berechnet sich aus der Formel für das Konfidenzintervall eines Anteils:
Fehlertoleranz = z × √(p × (1−p) / n)
z = 1,96 (bei 95% Konfidenz) | p = gemessener Anteil | n = Stichprobengröße
Der entscheidende Punkt: Die Größe der Grundgesamtheit spielt fast keine Rolle. Ob 61 Millionen Wahlberechtigte oder 600 Millionen — die Fehlertoleranz bleibt bei gleicher Stichprobe nahezu identisch. Erst bei sehr kleinen Grundgesamtheiten (unter 10.000) wird eine Korrektur nötig.
Qualität vor Quantität
Die berühmteste Warnung der Umfragegeschichte stammt aus den USA: 1936 befragte das Literary Digest Magazine 2,4 Millionen Personen und sagte einen Sieg des Republikaners Alf Landon voraus. George Gallup befragte nur 50.000 Personen und prognostizierte korrekt den Sieg von Franklin Roosevelt.
Der Unterschied: Das Literary Digest hatte seine Stichprobe aus Telefon- und Automobilbesitzern gezogen — in der Weltwirtschaftskrise eine stark verzerrte Gruppe. Gallup verwendete eine systematische Quotenstichprobe. Die Repräsentativität der Auswahl war wichtiger als deren Größe.
Wann sind größere Stichproben nötig?
- Subgruppenanalysen: Wenn Ergebnisse nach Bundesländern, Altersgruppen oder Bildung aufgeschlüsselt werden, schrumpft die Stichprobe pro Gruppe erheblich.
- Kleine Parteien: Für Parteien nahe der Fünf-Prozent-Hürde ist die relative Fehlertoleranz besonders hoch.
- Knappe Ergebnisse: Wenn zwei Parteien nah beieinander liegen, sind größere Stichproben nötig, um den Unterschied sicher nachzuweisen.
Stichprobengrößen deutscher Institute
Forsa nutzt mit rund 2.500 Befragten die größte wöchentliche Stichprobe. Allensbach kommt mit rund 1.000 aus, weil die aufwändige Face-to-Face-Methode höhere Datenqualität pro Interview liefert. YouGov und INSA können dank Online-Panels günstig größere Stichproben realisieren.
1936: Die größte Umfrage aller Zeiten — und der größte Irrtum
Im US-Präsidentschaftswahlkampf 1936 befragte das Literary Digest 10 Millionen Amerikaner per Post – mit Abstand die größte Stichprobe der Geschichte. Ihr Ergebnis: Alf Landon gewinnt mit 57 Prozent. George Gallup befragte nur 50.000 Menschen – repräsentativ ausgewählt – und sagte Franklin Roosevelt voraus. Am Wahltag gewann Roosevelt mit 61 Prozent, Landon verlor fast alle Bundesstaaten. Der Literary Digest ging ein Jahr später bankrott. Das Ergebnis begründete das Prinzip, das bis heute gilt: Eine repräsentative Stichprobe von 1.000 ist zuverlässiger als 10 Millionen Selbstselektion.
Das Wurzelgesetz: Warum n=10.000 nicht zehnmal besser ist als n=1.000
Der Fehler sinkt mit der Wurzel der Stichprobengröße – nicht linear. n=1.000 liefert ±3,1 Prozentpunkte, n=10.000 liefert ±1,0 Prozentpunkte. Das ist dreimal präziser, kostet aber zehnmal so viel. Hinzu kommen sogenannte Klumpeneffekte (Cluster): Wenn Befragte nicht vollständig zufällig ausgewählt werden – sondern etwa nur in bestimmten Stadtteilen – sinkt die effektive Stichprobengröße. Ein Cluster-Sample mit 2.000 Personen kann effektiv schlechter sein als ein echtes Zufallssample mit 1.000. Besonders problematisch: Subgruppen-Analysen. Wenn n=1.000 auf Ostdeutsche (ca. 20 % der Bevölkerung) aufgeteilt wird, bleiben nur rund 200 Befragte – mit einer Fehlertoleranz von ±7 Prozentpunkten. Für Jungwähler (18–24 Jahre, ca. 8 %) sind es nur noch rund 80 Personen: Aussagen über Subgruppen aus Standard-Stichproben sind statistisch kaum belastbar. Repräsentativität erklärt →
Häufige Fragen
Warum reichen 1.000 Befragte für eine Wahlumfrage?
Durch echte Zufallsauswahl bildet bereits eine Stichprobe von 1.000 Personen die Grundgesamtheit mit einer Fehlertoleranz von maximal ±3,1 Prozentpunkten ab. Die Größe der Grundgesamtheit spielt dabei mathematisch fast keine Rolle.
Wie groß ist die Fehlertoleranz bei 1.000 Befragten?
Bei einem 95%-Konfidenzintervall beträgt die maximale Fehlertoleranz ±3,1 Prozentpunkte. Für einen Umfragewert von 30% sind es ±2,8 Prozentpunkte, für 5% nur ±1,4 Prozentpunkte.
Haben größere Stichproben immer bessere Ergebnisse?
Größere Stichproben reduzieren die statistische Fehlertoleranz, aber der Effekt nimmt ab. Von 1.000 auf 2.000 sinkt der Fehler nur um etwa 0,9 Prozentpunkte. Wichtiger als die reine Größe ist die Qualität der Auswahl.
Warum befragen Institute nicht einfach mehr Personen?
Größere Stichproben sind teurer und zeitaufwendiger, bringen aber abnehmende Genauigkeitsgewinne. Institute wägen Kosten und Nutzen ab — 1.000 bis 2.500 Befragte sind ein bewährter Kompromiss.
Weiterlesen
AfD gleichauf mit der Union
Was aktuelle Umfragen über die Parteienstärke sagen.
Fehlertoleranz erklärt
Was die Schwankungsbreite konkret bedeutet.
Konfidenzintervall
Die statistische Grundlage einfach erklärt.
Repräsentativität
Wann eine Stichprobe wirklich repräsentativ ist.
Alle Ratgeber
450+ Artikel zu Wahlen und Politik in Deutschland.
Bundestagswahl 2029
Nächste Bundestagswahl: Termin, Kandidaten und Koalitionsszenarien.