Statistische Tests von Hypothesen
- Statistischer Test:
- beginnt mit einer Hypothese (Nullhypothese H0)
= Aussage, die anhand von Daten geprüft werden soll
- gegenteilige Aussage heißt Alternative H1
- Test liefert Kriterium anhand der Stichprobenwerte,
ob Hypothese verworfen wird oder nicht
- Testergebnis
- "Hypothese ist mit Daten verträglich (oder
nicht)"
- nicht "Hypothese ist wahr (oder falsch)"!
- auch äußerst unwahrscheinliches Ergebnis
ist möglich → Testergebnis kann falsch sein
- Typische Hypothesen:
- Der Anteil der Ausschussteile einer Produktion liegt
unterhalb von 1 %.
- Die produzierten Schrauben sind im Schnitt 5 mm dick.
- Die Streuung der Widerstandswerte beträgt 10 %.
- Der Würfel ist echt, d.h. alle Augenzahlen haben
gleiche Wahrscheinlichkeit.
- Zwei mit verschiedenen Methoden gewonnene Messreihen
haben die gleiche Verteilung.
- Das Medikament Lernofil ist wirksam gegen die
Krankheit Nixocapitose.
- Testergebnisse:
- H0 ist wahr und Test akzeptiert H0
(ok)
- H0 ist falsch und Test verwirft H0
(ok)
- H0 ist wahr und Test verwirft H0
- Fehler 1. Art
("paranoid")
- H0 ist falsch und Test akzeptiert H0
- Fehler 2. Art
("leichtgläubig")
- Signifikanzniveau α kontrolliert Fehler 1. Art
- in medizinischen, sozial- oder
geisteswissenschaftlichen Untersuchungen heißt die
Ablehnung bei α = 0.05 "signifikant"
- umgekehrt heißt das: Statistische
"Ergebnisse" etwa jeder 20. Veröffentlichung sind falsch!
- zum Vergleich: Eine "Entdeckung" in der
Elementarteilchenphysik verlangt 5σ, d.h. α =
5.7330e-07
- kleines α erfordert natürlich sehr
große Datenmengen
- Kontrolle des Fehlers 2. Art oft schwierig bis
unmöglich
- beim Münzwurf: Wahrscheinlichkeiten im Fall
p ≠ 0.5 nicht zu berechnen
- Erkenntnistheorie (Popper): allgemein gültige
Hypothese kann durch empirisch gewonnenes Wissen nicht bewiesen
("verifiziert") werden, aber widerlegt ("falsifiziert")
- Beispiel Münzwurf:
- Hypothesen
- H0: Münze ist fair, d.h.
Wahrscheinlichkeit für Kopf ist p = 0.5
- H1: Münze ist nicht fair, p ≠
0.5
- Münze werde n = 200 mal geworfen
- interessierende Zufallsgröße S =
"Anzahl Kopf"
- Erwartungswert von S unter der Annahme H0:
S = 100
- Experiment ergibt: s = 90 mal wurde Kopf erzielt.
- Ist das unter der Annahme H0 ok oder
ist die Abweichung zu groß?
- Teststatistik T =
Stichprobenfunktion, deren Wert über Ablehnung von H0
entscheidet
- benutze hier: T = |S - 100|
- T "zu groß" → H0 wird
abgelehnt
- Wert hier: T = 10
- Konkretisierung von "zu groß"
- wähle Signifikanzniveau
α = Wahrscheinlichkeit, dass H0 abgelehnt wird,
obwohl es wahr ist
- typische Werte: α = 0.05, α = 0.01,
wählen hier: 0.05
- gesucht ist kritischer Wert c mit
- P(T > c | H0) ≤ α
- c sehr groß → Fehler 1. Art sehr
klein, aber Fehler 2. Art groß
- wähle kleinst mögliches c, also
- P(T > c | H0) = α
- falls H0 gilt, ist S ~ B(n,p) mit
bekannter Verteilungsfunktion FBn,p(k) und p =
1/2
- also
- mit Matlab rechnet man leicht aus
- P(T > 13 | H0) = 0.0560
- P(T > 14 | H0) = 0.0400
- optimal also c = 14
- bei T = 10 wird H0 also akzeptiert
- Achtung: H0 ist nicht "bewiesen", sondern
es gibt keinen Grund, H0 abzulehnen.
- Mathematische Präzisierung:
- gegeben sei ein statistisches Modell (𝓧, 𝓐, (Pθ)θ
∈ Θ)
- Parameterraum Θ sei in zwei disjunkte
Teilmengen Θ0 und Θ1 zerlegt
- Nullhypothese H0: θ ∈
Θ0
- Alternativhypothese H1: θ ∈
Θ1
- ein Test ist eine messbare Funktion φ : 𝓧 →
{0, 1}
- φ(X) = 0 → H0 wird
akzeptiert
- φ(X) = 1 → H0 wird
verworfen
- Ablehnungsbereich K =
{x∈𝓧 | φ(x) = 1}
- Gütefunktion eines
Tests G : Θ → [0, 1] mit G(θ) = Pθ(φ(X)
= 1)
- θ ∈ Θ0 →
G(θ) = Wahrscheinlichkeit für Fehler 1. Art
- θ ∈ Θ1 → 1 -
G(θ) = Wahrscheinlichkeit für Fehler 2. Art
- Test φ hat Signifikanzniveau
α ∈ (0,1) :⇔ G(θ) ≤ α für alle
θ ∈ Θ0
- Teststatistik T:
- Stichprobenfunktion T: 𝓧 → ℝ bzw. über Pθ
entsprechende Zufallsvariable
- Verteilungsfunktion von T unter der Annnahme H0
muss berechenbar sein
- Problem für Mathematiker, in der Anwendung
werden nur solche T verwendet
- typischerweise so gewählt, dass große
Werte von T gegen H0 sprechen, d.h.
- K = {x∈𝓧 | T(x) > c}
- mit einem kritischen Wert c, der von α
abhängt
- p-Wert einer Beobachtung x
∈ 𝓧
- Wahrscheinlichkeit, dass der Wert T(x) oder ein
noch extremerer Wert auftritt, falls H0 gilt:
- p-Wert(x) = P(T(X) ≥ T(x) | H0)
- beim Münzwurf-Beispiel
- P(T ≥ 10| H0) = 0.1374
- Bedeutung: Falls H0 wahr ist, tritt
ein T-Wert von 10 oder mehr in 13.74 % der Fälle ein
- Vorgehensweise bei Tests:
- Nullhypothese H0 und Alternative H1
formulieren
- geeignete Teststatistik T auswählen
- Signifikanzniveau α festlegen und kritischen
Wert c bestimmen
- Stichprobenwerte x in die Statistik T einsetzen
- Entscheiden: x ∈ K (meistens also T(x) >
c) → H0 verwerfen, sonst H0 akzeptieren
- Bemerkungen:
- Soll Fehler 2. Art kontrolliert werden:
H0 und H1 vertauschen
- sehr viele Testverfahren mit unterschiedlichen
Statistiken vorhanden
- einige wichtige i. F. vorgestellt
- immer Voraussetzungen prüfen!
- statt c alternativ p-Wert berechnen
- p-Wert zu klein → verwerfen
- schlechte Idee: im Nachhinein Signifikanzniveau
auf > p-Wert heraufsetzen, um Alternative zu retten
- Probleme bei Tests:
- haben meistens Voraussetzungen, z.B.
- Messgröße ist normalverteilt
- σ der Verteilung ist bekannt
- zwei Stichproben haben gleiche Verteilung
- zwei Stichproben sind unabhängig
- nicht erfüllt → Test unzuverlässig
- im Zweifelsfall Voraussetzung vorher durch
entsprechenden Test prüfen
- weitere typische Probleme
- Ausreißer = Werte weit weg vom erwarteten
Bereich
- Multimodalität = Verteilung hat mehrere
Maxima
- Parametrische Tests:
- Aussagen über Größe eines oder
mehrerer Parameter einer (angenommenen) Verteilung, z. B.
- Wahrscheinlichkeit eines Ereignisses
- Erwartungswert einer Zufallsvariablen
- Varianz einer Zufallsvariablen
- zweiseitig = konkreter Wert wird angegeben
- einseitig = entweder obere oder untere Grenze wird
angegeben
- Präzisierung: Parametrische Tests haben
endlichdimensionale Parametermenge Θ ⊂ ℝn
- Nicht-parametrische Tests:
- allgemeine Aussagen über die Verteilung einer
oder mehrerer Zufallsgrößen, z. B.
- Verteilung einer Zufallsgröße
- gleiche Verteilung zweier
Zufallsgrößen
- Unabhängigkeit mehrerer
Zufallsgrößen
- Präzisierung: Nicht-parametrische Tests haben
unendlichdimensionale Parametermenge Θ
- Vorteil: anwendbar bei Daten ohne Kenntnis der
Verteilung
- Nachteil: bei bekannter Verteilung ist ein
parametrischer Test aussagekräftiger
- häufiges Vorgehen
- zunächst mit nicht-parametrischem Test auf
Verteilung prüfen
- falls ok: mit parametrischem Test Werte der
Parameter testen