📊
📈
Ohne Mathe-Angst: Verständlich erklärt

Statistik für Anfänger

Von Mittelwert bis p-Wert: Die wichtigsten Konzepte für Data-Literacy im Alltag.

Deskriptive Statistik: Daten beschreiben

Ziel: Daten zusammenfassen & visualisieren - KEINE Schlussfolgerungen über größere Population. Nur das, was wir gemessen haben.

Zentrale Tendenz (Center)

1. Mittelwert (Mean, μ oder x̄)
Formel: Σx / n
Beispiel:
Noten: [2, 3, 1, 4, 5]
Mean = (2+3+1+4+5) / 5 = 3.0
✓ Vorteil:
Alle Werte berücksichtigt
✗ Nachteil:
Empfindlich gegen Ausreißer!
2. Median (Md)
Mittlerer Wert (50. Perzentil)
Beispiel (mit Ausreißer):
Gehälter: [30k, 35k, 40k, 45k, 500k]
Mean = 130k (irreführend!)
Median = 40k (realistisch)
✓ Vorteil:
Robust gegen Ausreißer
💡 Wann nutzen:
Bei schiefen Verteilungen (Einkommen, Immobilienpreise)
3. Modus (Mode)
Häufigster Wert
Beispiel:
Schuhgrößen: [38, 39, 40, 40, 40, 42, 43]
Modus = 40 (3× vorkommend)
✓ Gut für:
Kategoriale Daten (Lieblingsfarbe, Schuhgröße)
✗ Problem:
Kann mehrere Modi geben (bimodal)

Streuung (Spread/Variability)

1. Range (Spannweite)
Range = Max - Min
Dataset A: [10, 12, 15, 18, 20]
Range = 10
Dataset B: [2, 13, 15, 17, 28]
Range = 26 (variabler!)
2. Standardabweichung (SD, σ oder s)
Intuition: Durchschnittliche Entfernung vom Mittelwert. Kleine SD = Daten nah beieinander. Große SD = weit verstreut.
1. Berechne Mean: μ
2. Differenzen: (x - μ)² für jeden Wert
3. Durchschnitt der Differenzen: Σ(x-μ)² / n
4. Wurzel ziehen: √[Σ(x-μ)² / n]
Beispiel: Konsistent
Testergebnisse: [85, 87, 88, 89, 91]
Mean = 88, SD = 2.2
→ Alle nah am Durchschnitt
Beispiel: Variabel
Testergebnisse: [50, 70, 88, 95, 100]
Mean = 80.6, SD = 20.1
→ Große Unterschiede!
3. Quartile & IQR (Interquartile Range)
Q1: 25. Perzentil (untere 25%)
Q2: 50. Perzentil = Median
Q3: 75. Perzentil (obere 25%)
IQR = Q3 - Q1 (mittlere 50% der Daten)
💡 Nutzen: Boxplots, Ausreißer-Detektion (Werte außerhalb 1.5×IQR von Q1/Q3)

Normalverteilung: Die Glocke

📈 Was ist Normalverteilung?

Symmetrische, glockenförmige Verteilung. Die meisten Werte nahe am Mittelwert, wenige extrem. Wichtigste Verteilung in der Statistik!
Eigenschaften:
• Mean = Median = Modus (alle in der Mitte)
• Symmetrisch um den Mittelwert
• Definiert durch 2 Parameter: μ (mean) und σ (SD)
• Tails gehen unendlich (berühren nie x-Achse)

📊 Die 68-95-99.7 Regel (Empirical Rule)

68% der Daten: ±1 SD vom Mean
Beispiel IQ (Mean=100, SD=15): 68% haben IQ zwischen 85-115
95% der Daten: ±2 SD vom Mean
IQ: 95% zwischen 70-130 (nur 5% außerhalb)
99.7% der Daten: ±3 SD vom Mean
IQ: 99.7% zwischen 55-145 (nur 0.3% Ausreißer)

🔬 Reale Beispiele für Normalverteilung

Körpergröße
μ: 175cm
σ: ±7cm
IQ-Scores
μ: 100
σ: ±15
Messfehler
μ: 0
σ: variiert
Blutdruck
μ: 120/80
σ: ±10

Inferenzstatistik: Schlussfolgerungen ziehen

Ziel: Von Stichprobe auf Population schließen. "Wir haben 100 Leute gefragt - was sagt das über ALLE Leute?"

🎯 Hypothesentests & p-Werte

Was ist ein p-Wert?
p-Wert = Wahrscheinlichkeit, dass das Ergebnis durch Zufall entstand (wenn Null-Hypothese wahr ist).
Konvention: p < 0.05 = "signifikant"
p = 0.03 → "Nur 3% Chance, dass Zufall" → Wahrscheinlich echter Effekt!
p = 0.12 → "12% Chance Zufall" → Nicht signifikant (könnte Zufall sein)
⚠️ Häufige p-Wert-Missverständnisse:
FALSCH: "p=0.05 → 95% sicher, dass Hypothese wahr"
RICHTIG: "p=0.05 → Bei 5% der Fälle würde Zufall so ein Ergebnis erzeugen"
FALSCH: "p=0.049 ist VIEL besser als p=0.051"
RICHTIG: "Beides ist nahe an Grenze - praktisch gleich"
FALSCH: "Signifikant = wichtig"
RICHTIG: "Signifikant = wahrscheinlich nicht Zufall (aber Effekt kann tiny sein!)"

📏 Konfidenzintervalle (CI)

95% Konfidenzintervall: Bereich, in dem der wahre Wert mit 95% Wahrscheinlichkeit liegt (bei unendlich vielen Wiederholungen).
Beispiel:
"Conversion Rate: 12% (95% CI: 10-14%)"
Interpretation: Wir sind 95% sicher, dass die wahre Conversion-Rate zwischen 10-14% liegt. Gemessener Wert (12%) ist Punktschätzung.
Breites CI (8-16%)
→ Unsicher (kleine Stichprobe)
Schmales CI (11.5-12.5%)
→ Sehr sicher (große Stichprobe)

🔍 Stichprobengröße (Sample Size)

Faustregeln:
  • t-Test: Min. 30 pro Gruppe (Central Limit Theorem)
  • Umfragen (große Pop.): ~385 für 95% CI, ±5% margin
  • A/B-Tests: Depends on conversion rate (1% = größere N nötig)
  • Kleine Effekte: Brauchen VIEL größere Samples
Warum wichtig?
Zu klein:Underpowered → echte Effekte nicht erkannt (Type II Error)
Zu groß:Verschwendung von Ressourcen, winzige Effekte werden signifikant (aber irrelevant)
Tool: G*Power (kostenlos) für Power-Analysen

Korrelation ≠ Kausalität (Der größte Fehler!)

🔗 Was ist Korrelation?

Zwei Variablen ändern sich zusammen. Bedeutet NICHT, dass eine die andere verursacht!
Korrelationskoeffizient (r): -1 bis +1
r = +1: Perfekte positive Korrelation (A steigt → B steigt)
r = 0: Keine Korrelation
r = -1: Perfekte negative Korrelation (A steigt → B fällt)

🚨 Klassische Fehler-Beispiele:

1. Eisverkauf & Ertrinken
📊 Korrelation: Beide steigen zusammen (r ≈ 0.8)
✗ Falsch: Eis essen führt zu Ertrinken!
✓ Richtig: 3. Variable: Sommer/Temperatur (mehr Schwimmen UND mehr Eis)
2. Störche & Geburten
📊 Korrelation: Mehr Störche → mehr Geburten (Europa, 1950-1980)
✗ Falsch: Störche bringen Babys!
✓ Richtig: 3. Variable: Urbanisierung (mehr Land = mehr Störche UND mehr Menschen)
3. Schuhgröße & Lesefähigkeit
📊 Korrelation: Größere Schuhe → besseres Lesen (Kinder-Studie)
✗ Falsch: Große Füße machen schlau!
✓ Richtig: 3. Variable: Alter (ältere Kinder haben größere Füße UND lesen besser)
4. Schlafdauer & Lebenserwartung
📊 Korrelation: Wenig Schlaf (< 6h) → kürzeres Leben
✗ Falsch: Wenig Schlaf tötet direkt!
✓ Richtig: Könnte auch sein: Krankheiten → weniger Schlaf UND früher Tod (umgekehrte Kausalität)

✅ Wie Kausalität beweisen?

1. Randomisierte Kontrollstudien (RCT)
Zufällige Zuteilung → Treatment vs. Control → Gold-Standard! (Medizin, A/B-Tests)
2. Zeitliche Reihenfolge
A passiert VOR B. Aber: Könnte trotzdem 3. Variable geben!
3. Mechanismus erklären
Plausible Erklärung WIE A zu B führt (Biologie, Physik, etc.)
4. Dosis-Respons-Beziehung
Mehr A → mehr B (z.B. mehr Rauchen → mehr Lungenkrebs)

Häufige Fehlerquellen (Biases)

Sampling Bias
Problem: Stichprobe repräsentiert Population nicht
Beispiel: Telefonumfrage zu Smartphone-Nutzung (nur Festnetz → ältere Menschen)
✓ Lösung: Random Sampling, diverse Rekrutierung
Survivor Bias
Problem: Nur erfolgreiche/überlebende Fälle studiert
Beispiel: WWII Flugzeuge: Schusslöcher an Rückkehrern → falsche Panzerung (tödliche Treffer an anderer Stelle!)
✓ Lösung: Auch "gescheiterte" Fälle einbeziehen
Confirmation Bias
Problem: Nur Beweise für eigene Meinung suchen
Beispiel: Impfgegner: Finden nur Studien, die Impfung kritisieren (ignorieren 99% positive Studien)
✓ Lösung: Preregistration, Peer Review, Devil's Advocate
Publication Bias
Problem: Nur signifikante Ergebnisse publiziert
Beispiel: 20 Studien zu Medikament → nur 3 mit p<0.05 publiziert → scheint wirksam (aber 17 fanden nichts!)
✓ Lösung: Preregistered Reports, Negative Results publizieren

Wahrscheinlichkeiten selbst berechnen

Nutze unsere Tools für praktische Statistik-Anwendungen:

📚 Verwandte Artikel

Häufig gestellte Fragen (FAQ)