Tests mit mehr als zwei Stichproben
- Vergleiche mehrerer Stichproben:
- betrachten n Stichproben desselben Merkmals, mit
jeweils ni Werten
- Frage: haben alle denselben Mittelwert?
- Idee: mache insgesamt n(n-1)/2 paarweise Tests (z. B.
Zweistichproben-t-Tests)
- Problem: Signifikanzniveau des Gesamttests ist riesig
- etwa bei n = 7 und α = 0.05 hat man 21
Tests
- man erwartet im Schnitt (etwas mehr als) einen
Vergleich, der ablehnt, obwohl H0 zutrifft
- einfache Abhilfe (Verfahren von
Bonferroni):
- bei m Tests mit Gesamt-Signifikanzniveau α
führe jeden Test mit α/m aus
- → Fehler 1. Art des Gesamttests dann ≤
α
- Verbesserung (Verfahren von
Bonferroni-Holm)
- ist ein Test bei α/m verworfen worden, wird
er gestrichen
- es bleiben m-1 Tests, also Niveau für diese
α/(m-1)
- usw.
- Beispiel Bruchfestigkeit von Querlenkern:
- eine Firma stellt Querlenker in vier Werken her
- Frage: Ist ihre Biegefestigkeit bei allen vier Werken
gleich groß?
- Stichproben (in N/mm2)
- Werk 1: 469.24 497.34 499.52 486.75 460.08 469.54
454.05 498.35 483.53 495.10 468.17 516.89
- Werk 2: 506.34 467.52 447.79 456.38 470.28 468.81
456.78 476.12 461.82 444.36
- Werk 3: 500.01 463.97 481.84 485.48 437.33 488.08
460.83 473.47
- Werk 4: 472.85 497.97 485.50 463.71 489.56 472.40
512.17 480.72 503.29
- Boxplot
- Annahme: Werte sind normalverteilt mit gleichem
σ (testen!)
- paarweise t-Tests liefern folgende p-Werte
-
(1,2) |
0.0366 |
(1,3) |
0.3018
|
(1,4) |
0.6829
|
(2,3) |
0.3592
|
(2,4) |
0.0149
|
(3,4) |
0.1643
|
- bei einem einzigen Test mit α = 0.05
würde μ1 = μ2 (oder
μ2 = μ4) verworfen
- 6 Tests, also ersten Test mit α/6 = 0.0083
→ keiner wird verworfen
- → Nullhypothese (alle μi
gleich) wird bei α = 0.05 akzeptiert
- Varianzanalyse (ANOVA =
"ANalysis Of VAriance"):
- n Stichproben Xij wie oben
- gesucht: ein Test, der direkt auf Gleichheit aller
μi prüft
- Voraussetzung: alle Stichproben Xij ~
N(μi, σ2) für i = 1...n
- H0: μ1 = μ2 =
... = μn
- Idee: vergleiche die Streuungen innerhalb der
Stichproben mit Streuung zwischen den Stichproben
- man definiert die Mittelwerte der einzelnen
Stichproben
- und den Mittelwert der Gesamtdaten
- Für die quadratische Gesamtabweichung gilt
- Beweis im Anhang
- 1. Term ≙ Abweichung innerhalb der Stichproben
- 2. Term ≙ Abweichung der Mittelwerte zwischen den
Stichproben
- H0 gilt → Terme sollten gleich
groß sein
- sonst: 2. Term wird größer sein als
erster
- man definiert
- und hat als Teststatistik
- H0 wird verworfen ↔ T > Fn-1,N-n;1-α
- Verfahren heißt einfaktorielle ANOVA, da ein
Faktor verschiedene Stichproben erzeugt (≙ verschiedene Werte von i)
- wenn H0 verworfen wird
- Frage: Welche Reihen sind die unterschiedlichen?
- herausfinden z. B. mit Bonferroni-Holm
- Zweifaktorielle Varianzanalyse:
- zwei Faktoren für unterschiedliche Stichproben,
z. B
- Studienerfolg in Abhängigkeit von Motivation
und Familiensituation
- Fehlerhäufigkeit bei KfZ über Modell
und Produktionsstandort
- aus Xij wird Xijk
- i,j durchlaufen die beiden Faktoren
- k durchläuft die Stichproben unter festem i
und j
- braucht viele Daten!
- funktioniert i. W. wie einfaktoriell, aber mehr
Indizes
- neues Phänomen: Interaktion zwischen den
Einflussfaktoren
- auch (beliebig) mehrfaktoriell
- Beispiel Bruchfestigkeit mit Varianzanalyse:
- Berechnen der Mittelwerte
- i
= (483.21, 465.62, 473.88, 486.46)
- =
477.5367
- und der Teststatistik
- Y1 = 28.5907
- Y2 = 6.5773
- T(x) = 2.6839
- F-Verteilung liefert bei α = 0.05
- Fn-1,N-n;1-α = 2.8742
- pWert = 1 - F(T(x), n-1, N-n) = 0.0616
- H0 wird also akzeptiert, die Unterschiede
sind nicht signifikant
- kompletter Test in Matlab mit anova1
- Trick: xij als 2d-Matrix, kürzere
Datensätze mit NaN füllen
- Kruskal-Wallis-Test:
- Alternative zu ANOVA bei nicht normalverteilten
Datensätzen
- Idee: Erweiterung von Wilcoxon-Rangsummen-Test
- H0: alle Stichproben haben die gleiche
Verteilung Fi
- zunächst sortiere alle xij der
Größe nach
- jedem Wert xij wird so sein Rang rij
zugeordnet
- bei Bindungen mittleren Rang verwenden
- berechne mittleren Rang pro Stichprobe
- Idee: Abweichung vom mittleren Rang (N+1)/2 der
Gesamtheit sollte nicht zu groß sein
- Teststatistik im Fall ohne Bindungen
- bei Bindungen Korrekturfaktor
- es gebe B Bindungsgruppen, in jeder bk
Werte mit gleichem Rang, dann
- asymptotisch für große Stichproben
- T ~ χ2n−1
- Faustregel: Verteilung ok für ni
> 6
- H0 wird verworfen ↔ T > χ2n−1,1-α
- genauere Berechnung der Verteilung von T
- grundsätzlich möglich, reine
Kombinatorik (vgl. wrn,m)
- im Detail schwierig und sehr rechenintensiv
- Tabellen und bessere asymptotische Formeln in [9]
- Beispiel Bruchfestigkeit mit Kruskal-Wallis-Test:
- keine Bindungen (klar: reelle Zahlen)
- Ränge der Werte (Stichproben als Spalten)
-
15 |
37 |
35 |
19 |
31 |
12 |
11 |
32 |
34 |
3 |
23 |
26 |
27 |
5 |
25 |
10 |
7 |
17 |
1 |
29 |
16 |
14 |
28 |
18 |
4 |
6 |
8 |
38 |
33 |
21 |
20 |
22 |
24 |
9 |
|
36 |
30 |
2 |
|
|
13 |
|
|
|
39 |
|
|
|
- Rang-Mittelwerte
- i
= (22.75, 12.60, 18.87, 25.56)
- Teststatistik
- χ2-Verteilung liefert bei α =
0.05
- χ2n−1,1-α =
7.8147
- pWert = 0.0680
- H0 wird akzeptiert
- pWert etwas größer als bei ANOVA
- dort wird mehr Information vorausgesetzt
- Aufgaben: