Konfidenzintervalle
- Wie gut ist ein Schätzwert?
- Anhaltspunkt: Varianz des Schätzers
- anderer Ansatz: Intervall, in dem der wahre Wert
θ mit hoher Wahrscheinlichkeit liegt
- genauer
- gib Irrtums-Wahrscheinlichkeit α vor (oft
5%)
- suche Intervall [gu, go],
in dem θ mit Wahrscheinlichkeit (1-α) liegt ((1-α)-Konfidenzintervall)
- gesucht sind Schätzer Gu, Go
für die Intervallgrenzen
- meistens wird Intervall symmetrisch um den
Schätzwert von θ konstruiert
- manchmal stattdessen einseitiges Intervall,
etwa (0, go) für Toleranz
- in der Regel zusätzliche Annahmen über
Verteilung der Xi nötig
- Konfidenzintervall für μ einer Normalverteilung
bei bekannter Varianz:
- Annahme: Xi ~ N(μ, σ2),
σ bekannt, μ gesucht
- verwende Schätzer
für μ, suche z mit
- Verteilung von
bekannt
- einfache Umformung liefert Bedingung für
Standard-Normalverteilung
- im Bild
- gesucht sind also Werte xα/2, x1-α/2
mit
- d.h., die α/2- und
1-α/2-Quantile der Standard-Normalverteilung
- p-Quantil der Standard-Normalverteilung häufig
mit zp bezeichnet
- Antisymmetrie von Φ → zα/2
= -z1-α/2
- Werte tabelliert bzw. mit norminv(1-alpha/2)
in Matlab
-
α [%] |
10 |
5 |
2 |
1 |
0.5 |
0.1 |
z1-α/2 |
1.6449 |
1.9600 |
2.3263 |
2.5758 |
2.8070 |
3.2905 |
- damit Schätzer für die Grenzen des
Konfidenzintervalls aus
- Beispiel Füllmengen:
- in einer Abfüllanlage wurden folgende
Füllmengen gemessen
- 0.7361 0.7750 0.6522 0.7459 0.7296 0.6808 0.7070
0.7303 0.8274 0.8031
0.6795 0.8110 0.7418 0.7181 0.7414 0.7139 0.7163 0.7647 0.7623
0.7625
- Standardabweichung sei aufgrund langjähriger
Erfahrung bekannt: σ = 0.03
- als Mittelwert erhält man
- =
0.7399
- für α = 5% ist z0.975 = 1.9600,
also erhält man als Konfidenzintervall
- graphisch
- Bedeutung des Konfidenzintervalls:
- gegeben sei X ~ N(0.75, 0.032)
- man nehme 50 Stichproben mit jeweils 40 Werten und
berechne dazu die Konfidenzintervalle zu 1-α = 95%
- man erwartet durchschnittlich "2.5" Intervalle, die
den wahren Mittelwert μ = 0.75 nicht enthalten
- mit Matlab simuliert
- hier drei nicht passende Konfidenzintervalle
- Konfidenzintervall für μ einer Normalverteilung
bei unbekannter Varianz:
- Idee: benutze S2 als Schätzer
für σ2
- Vermutung: Intervall muss breiter werden, da weniger
bekannt ist
- T ist nicht normalverteilt, sondern hat eine tn-1-Verteilung
- Quantile tn,p tabelliert bzw. mit tinv(p,n)
- sind antisymmetrisch tn-1,α/2
= -tn-1,1-α/2
- damit Schätzer für die Grenzen des
Konfidenzintervalls
- Eigenschaften der t-Verteilung
mit n Freiheitsgraden tn:
- von William Gosset eingeführt in
Veröffentlichungen als "Student"
- heißt daher auch Student- oder Student-t-Verteilung
- Dichtefunktion
- graphisch
- Eigenschaften
- Satz
- Seien X, Y unabhängige
Zufallsgrößen mit
- X ~ N(0,1)
- Y ~ χn2
- dann gilt
- erklärt Verteilung von T
- tn geht mit steigendem n gegen N(0,1)
- Näherung wird oft ab n = 30 verwendet
- Beispiel Füllmengen mit geschätzter Varianz:
- Als Schätzwert für die Standardabweichung
erhält man s = 0.0444
- Für α = 5% und n = 20 ist t19,0.975
= 2.0930, also erhält man als Konfidenzintervall
- [0.7192, 0.7607]
- etwas größer als bei bekanntem σ
- Konfidenzintervall für σ einer
Normalverteilung:
- Schätzwert selbst natürlich mit S2
- es war ja
- mit den Quantilen χ2n,p
erhält man daher für den symmetrischen Fall
- man braucht zwei Quantile, da χ2-Verteilung
unsymmetrisch
- daraus
- damit Schätzer für die Grenzen des
Konfidenzintervalls von σ2
- Schätzer für die Grenzen des
Konfidenzintervalls von σ natürlich die Quadratwurzeln
- Beispiel Füllmengen, Konfidenzintervall für
Standardabweichung:
- Schätzwert für die Standardabweichung war s
= 0.0444
- Quantile aus Tabellen oder mit chi2inv(p,
n)
- damit Konfidenzintervall für σ2
- [0.001140, 0.004204]
- und für σ
- [0.0338, 0.0648]
- nur nebenbei
- Werte wurden erzeugt mit normrnd(0.72,
0.03) und rng('default')
- Intervalle passen nicht - Pech gehabt!
- mehrere Wiederholungen mit neuen Zufallszahlen
klappen (5% Fehlerquote!)
- Konfidenzintervall für den Mittelwert bei beliebiger
Verteilung:
- zentraler Grenzwertsatz →
nähert sich einer Normalverteilung an
- für n ≥ 30 wählt man daher das
Konfidenzintervall wie oben beschrieben
- Varianz unbekannt → t-Verteilung nehmen
- aber bei n ≥ 30: tn ≈ N(0,1)
- Konfidenzintervall für eine unbekannte
Wahrscheinlichkeit p:
- Xi Bernoulli-Experiment mit gesuchter
Wahrscheinlichkeit p
- Y sei Zahl der Treffer, dann Y ~ B(n,p)
- Schätzer für p natürlich = Y/n
- Konfidenzintervall durch Standardisierung und
Grenzwertsatz
- berechne standardisierte Verteilung
- und gehe von Normalverteilung aus
- mit
- löse wie üblich nach dem gesuchten
Parameter (hier p) auf
- dazu zunächst Varianz-Term als bekannt
annehmen →
- Varianz-Term los werden:
- brutal: p durch Y/n abschätzen (ok im Grenzwert
n → ∞)
- wird häufig als Standardmethode
vorgeschlagen
- liefert oft viel zu kleine Intervalle,
auch noch für n > 1000
- genaue Analyse in [3]
→ nicht verwenden!
- besser: in quadratische Gleichung umformen →
- Auflösen der quadratischen Gleichung liefert
Schätzer für die Grenzen des Konfidenzintervalls (Wilson-Intervall)
- liegt nicht symmetrisch um den Schätzwert!
- Beispiel Würfel:
- 30-maliges Würfeln ergab im Experiment
- 6 4 6 5 5 2 6 1 2 3 5 2 6 6 1 4 1 3 1 6 3 6 5 6
2 1 4 2 5 3
- das sind 8 Sechsen, also Schätzwert für die
Wahrscheinlichkeit einer Sechs
-
= y/n = 0.2667
- Quantil bei α = 5 %
- mit der Wilson-Methode lautet das Konfidenzintervall
- [0.1418, 0.4445]
- der tatsächliche Wert p = 0.1667 liegt also
im Intervall
- Aufgaben: