Stochastik für Ingenieure

Statistischer Test:

beginnt mit einer Hypothese (Nullhypothese H₀) = Aussage, die anhand von Daten geprüft werden soll
gegenteilige Aussage heißt Alternative H₁
Test liefert Kriterium anhand der Stichprobenwerte, ob Hypothese verworfen wird oder nicht
Testergebnis
- "Hypothese ist mit Daten verträglich (oder nicht)"
- nicht "Hypothese ist wahr (oder falsch)"!
auch äußerst unwahrscheinliches Ergebnis ist möglich → Testergebnis kann falsch sein

Typische Hypothesen:

Der Anteil der Ausschussteile einer Produktion liegt unterhalb von 1 %.
Die produzierten Schrauben sind im Schnitt 5 mm dick.
Die Streuung der Widerstandswerte beträgt 10 %.
Der Würfel ist echt, d.h. alle Augenzahlen haben gleiche Wahrscheinlichkeit.
Zwei mit verschiedenen Methoden gewonnene Messreihen haben die gleiche Verteilung.
Das Medikament Lernofil ist wirksam gegen die Krankheit Nixocapitose.

Testergebnisse:

H₀ist wahr und Test akzeptiert H₀ (ok)
H₀ ist falsch und Test verwirft H₀ (ok)
H₀ ist wahr und Test verwirft H₀
- Fehler 1. Art ("paranoid")
H₀ ist falsch und Test akzeptiert H₀
- Fehler 2. Art ("leichtgläubig")
Signifikanzniveau α kontrolliert Fehler 1. Art
- in medizinischen, sozial- oder geisteswissenschaftlichen Untersuchungen heißt die Ablehnung bei α = 0.05 "signifikant"
- umgekehrt heißt das: Statistische "Ergebnisse" etwa jeder 20. Veröffentlichung sind falsch!
- zum Vergleich: Eine "Entdeckung" in der Elementarteilchenphysik verlangt 5σ, d.h. α = 5.7330e-07
- kleines α erfordert natürlich sehr große Datenmengen
Kontrolle des Fehlers 2. Art oft schwierig bis unmöglich
- beim Münzwurf: Wahrscheinlichkeiten im Fall p ≠ 0.5 nicht zu berechnen
Erkenntnistheorie (Popper): allgemein gültige Hypothese kann durch empirisch gewonnenes Wissen nicht bewiesen ("verifiziert") werden, aber widerlegt ("falsifiziert")

Beispiel Münzwurf:

Hypothesen
- H₀: Münze ist fair, d.h. Wahrscheinlichkeit für Kopf ist p = 0.5
- H₁: Münze ist nicht fair, p ≠ 0.5
Münze werde n = 200 mal geworfen
- interessierende Zufallsgröße S = "Anzahl Kopf"
- Erwartungswert von S unter der Annahme H₀: S = 100
Experiment ergibt: s = 90 mal wurde Kopf erzielt.
- Ist das unter der Annahme H₀ ok oder ist die Abweichung zu groß?
Teststatistik T = Stichprobenfunktion, deren Wert über Ablehnung von H₀ entscheidet
- benutze hier: T = |S - 100|
- T "zu groß" → H₀ wird abgelehnt
- Wert hier: T = 10
Konkretisierung von "zu groß"
- wähle Signifikanzniveau α = Wahrscheinlichkeit, dass H₀ abgelehnt wird, obwohl es wahr ist
- typische Werte: α = 0.05, α = 0.01, wählen hier: 0.05
gesucht ist kritischer Wert c mit
- P(T > c | H₀) ≤ α
- c sehr groß → Fehler 1. Art sehr klein, aber Fehler 2. Art groß
- wähle kleinst mögliches c, also
- P(T > c | H₀) = α
falls H₀ gilt, ist S ~ B(n,p) mit bekannter Verteilungsfunktion FB_n,p(k) und p = 1/2
- also
mit Matlab rechnet man leicht aus
- P(T > 13 | H₀) = 0.0560
- P(T > 14 | H₀) = 0.0400
- optimal also c = 14
bei T = 10 wird H₀ also akzeptiert
Achtung: H₀ ist nicht "bewiesen", sondern es gibt keinen Grund, H₀ abzulehnen.

Mathematische Präzisierung:

gegeben sei ein statistisches Modell (𝓧, 𝓐, (P_θ)_{θ
∈ Θ})
Parameterraum Θ sei in zwei disjunkte Teilmengen Θ₀ und Θ₁ zerlegt
- Nullhypothese H₀: θ ∈ Θ₀
- Alternativhypothese H₁: θ ∈ Θ₁
ein Test ist eine messbare Funktion φ : 𝓧 → {0, 1}
- φ(X) = 0 → H₀ wird akzeptiert
- φ(X) = 1 → H₀ wird verworfen
- Ablehnungsbereich K = {x∈𝓧 | φ(x) = 1}
Gütefunktion eines Tests G : Θ → [0, 1] mit G(θ) = P_θ(φ(X) = 1)
- θ ∈ Θ₀ → G(θ) = Wahrscheinlichkeit für Fehler 1. Art
- θ ∈ Θ₁ → 1 - G(θ) = Wahrscheinlichkeit für Fehler 2. Art
Test φ hat Signifikanzniveau α ∈ (0,1) :⇔ G(θ) ≤ α für alle θ ∈ Θ₀

Teststatistik T:

Stichprobenfunktion T: 𝓧 → ℝ bzw. über P_θ entsprechende Zufallsvariable
Verteilungsfunktion von T unter der Annnahme H₀ muss berechenbar sein
- Problem für Mathematiker, in der Anwendung werden nur solche T verwendet
typischerweise so gewählt, dass große Werte von T gegen H₀ sprechen, d.h.
- K = {x∈𝓧 | T(x) > c}
- mit einem kritischen Wert c, der von α abhängt
p-Wert einer Beobachtung x ∈ 𝓧
- Wahrscheinlichkeit, dass der Wert T(x) oder ein noch extremerer Wert auftritt, falls H₀ gilt:
- p-Wert(x) = P(T(X) ≥ T(x) | H₀)
beim Münzwurf-Beispiel
- P(T ≥ 10| H₀) = 0.1374
- Bedeutung: Falls H₀ wahr ist, tritt ein T-Wert von 10 oder mehr in 13.74 % der Fälle ein

Vorgehensweise bei Tests:

Bemerkungen:

Soll Fehler 2. Art kontrolliert werden: H₀ und H₁ vertauschen
sehr viele Testverfahren mit unterschiedlichen Statistiken vorhanden
- einige wichtige i. F. vorgestellt
- immer Voraussetzungen prüfen!
statt c alternativ p-Wert berechnen
- p-Wert zu klein → verwerfen
- schlechte Idee: im Nachhinein Signifikanzniveau auf > p-Wert heraufsetzen, um Alternative zu retten

Probleme bei Tests:

haben meistens Voraussetzungen, z.B.
- Messgröße ist normalverteilt
- σ der Verteilung ist bekannt
- zwei Stichproben haben gleiche Verteilung
- zwei Stichproben sind unabhängig
nicht erfüllt → Test unzuverlässig
im Zweifelsfall Voraussetzung vorher durch entsprechenden Test prüfen
weitere typische Probleme
- Ausreißer = Werte weit weg vom erwarteten Bereich
- Multimodalität = Verteilung hat mehrere Maxima

Parametrische Tests:

Aussagen über Größe eines oder mehrerer Parameter einer (angenommenen) Verteilung, z. B.
- Wahrscheinlichkeit eines Ereignisses
- Erwartungswert einer Zufallsvariablen
- Varianz einer Zufallsvariablen
zweiseitig = konkreter Wert wird angegeben
einseitig = entweder obere oder untere Grenze wird angegeben
Präzisierung: Parametrische Tests haben endlichdimensionale Parametermenge Θ ⊂ ℝⁿ

Nicht-parametrische Tests:

allgemeine Aussagen über die Verteilung einer oder mehrerer Zufallsgrößen, z. B.
- Verteilung einer Zufallsgröße
- gleiche Verteilung zweier Zufallsgrößen
- Unabhängigkeit mehrerer Zufallsgrößen
Präzisierung: Nicht-parametrische Tests haben unendlichdimensionale Parametermenge Θ
Vorteil: anwendbar bei Daten ohne Kenntnis der Verteilung
Nachteil: bei bekannter Verteilung ist ein parametrischer Test aussagekräftiger
häufiges Vorgehen
- zunächst mit nicht-parametrischem Test auf Verteilung prüfen
- falls ok: mit parametrischem Test Werte der Parameter testen

Statistische Tests von Hypothesen