Stochastik für Ingenieure

Wie gut ist ein Schätzwert?

Anhaltspunkt: Varianz des Schätzers
anderer Ansatz: Intervall, in dem der wahre Wert θ mit hoher Wahrscheinlichkeit liegt
genauer
- gib Irrtums-Wahrscheinlichkeit α vor (oft 5%)
- suche Intervall [g_u, g_o], in dem θ mit Wahrscheinlichkeit (1-α) liegt ((1-α)-Konfidenzintervall)
gesucht sind Schätzer G_u, G_o für die Intervallgrenzen
meistens wird Intervall symmetrisch um den Schätzwert von θ konstruiert
- manchmal stattdessen einseitiges Intervall, etwa (0, g_o) für Toleranz
in der Regel zusätzliche Annahmen über Verteilung der X_i nötig

Konfidenzintervall für μ einer Normalverteilung bei bekannter Varianz:

Annahme: X_i ~ N(μ, σ²), σ bekannt, μ gesucht
verwende Schätzer für μ, suche z mit
Verteilung von bekannt
einfache Umformung liefert Bedingung für Standard-Normalverteilung
- im Bild
gesucht sind also Werte x_α/2, x_1-α/2 mit
- d.h., die α/2- und 1-α/2-Quantile der Standard-Normalverteilung

p-Quantil der Standard-Normalverteilung häufig mit z_p bezeichnet

α [%]	10	5	2	1	0.5	0.1
z_1-α/2	1.6449	1.9600	2.3263	2.5758	2.8070	3.2905

Beispiel Füllmengen:

in einer Abfüllanlage wurden folgende Füllmengen gemessen
- 0.7361 0.7750 0.6522 0.7459 0.7296 0.6808 0.7070 0.7303 0.8274 0.8031
  0.6795 0.8110 0.7418 0.7181 0.7414 0.7139 0.7163 0.7647 0.7623 0.7625
Standardabweichung sei aufgrund langjähriger Erfahrung bekannt: σ = 0.03
als Mittelwert erhält man
- = 0.7399
für α = 5% ist z_0.975 = 1.9600, also erhält man als Konfidenzintervall
- [0.7268, 0.7531]
graphisch

Bedeutung des Konfidenzintervalls:

gegeben sei X ~ N(0.75, 0.03²)
man nehme 50 Stichproben mit jeweils 40 Werten und berechne dazu die Konfidenzintervalle zu 1-α = 95%
man erwartet durchschnittlich "2.5" Intervalle, die den wahren Mittelwert μ = 0.75 nicht enthalten
mit Matlab simuliert
hier drei nicht passende Konfidenzintervalle

Konfidenzintervall für μ einer Normalverteilung bei unbekannter Varianz:

Idee: benutze S² als Schätzer für σ²
Vermutung: Intervall muss breiter werden, da weniger bekannt ist
T ist nicht normalverteilt, sondern hat eine t_n-1-Verteilung
Quantile t_n,p tabelliert bzw. mit tinv(p,n)
- sind antisymmetrisch t_n-1,α/2 = -t_n-1,1-α/2
damit Schätzer für die Grenzen des Konfidenzintervalls

Eigenschaften der t-Verteilung mit n Freiheitsgraden t_n:

von William Gosset eingeführt in Veröffentlichungen als "Student"
- heißt daher auch Student- oder Student-t-Verteilung
Dichtefunktion
- graphisch
Eigenschaften
Satz
- Seien X, Y unabhängige Zufallsgrößen mit
- X ~ N(0,1)
- Y ~ χ_n²
- dann gilt
erklärt Verteilung von T
t_n geht mit steigendem n gegen N(0,1)
- Näherung wird oft ab n = 30 verwendet

Beispiel Füllmengen mit geschätzter Varianz:

Als Schätzwert für die Standardabweichung erhält man s = 0.0444
Für α = 5% und n = 20 ist t_19,0.975 = 2.0930, also erhält man als Konfidenzintervall
- [0.7192, 0.7607]
- etwas größer als bei bekanntem σ

Konfidenzintervall für σ einer Normalverteilung:

Schätzwert selbst natürlich mit S²
es war ja
- mit den Quantilen χ²_n,p erhält man daher für den symmetrischen Fall
- man braucht zwei Quantile, da χ²-Verteilung unsymmetrisch
daraus
damit Schätzer für die Grenzen des Konfidenzintervalls von σ²
Schätzer für die Grenzen des Konfidenzintervalls von σ natürlich die Quadratwurzeln

Beispiel Füllmengen, Konfidenzintervall für Standardabweichung:

Schätzwert für die Standardabweichung war s = 0.0444
Quantile aus Tabellen oder mit chi2inv(p, n)
damit Konfidenzintervall für σ²
- [0.001140, 0.004204]
- und für σ
- [0.0338, 0.0648]
nur nebenbei
- Werte wurden erzeugt mit normrnd(0.72, 0.03) und rng('default')
- Intervalle passen nicht - Pech gehabt!
- mehrere Wiederholungen mit neuen Zufallszahlen klappen (5% Fehlerquote!)

Konfidenzintervall für den Mittelwert bei beliebiger Verteilung:

Konfidenzintervall für eine unbekannte Wahrscheinlichkeit p:

X_i Bernoulli-Experiment mit gesuchter Wahrscheinlichkeit p
Y sei Zahl der Treffer, dann Y ~ B(n,p)
Schätzer für p natürlich = Y/n
Konfidenzintervall durch Standardisierung und Grenzwertsatz
- berechne standardisierte Verteilung
- und gehe von Normalverteilung aus
- mit
löse wie üblich nach dem gesuchten Parameter (hier p) auf
- dazu zunächst Varianz-Term als bekannt annehmen →

Varianz-Term los werden:

brutal: p durch Y/n abschätzen (ok im Grenzwert n → ∞)
- wird häufig als Standardmethode vorgeschlagen
- liefert oft viel zu kleine Intervalle, auch noch für n > 1000
- genaue Analyse in [3] → nicht verwenden!
besser: in quadratische Gleichung umformen →
Auflösen der quadratischen Gleichung liefert Schätzer für die Grenzen des Konfidenzintervalls (Wilson-Intervall)
- liegt nicht symmetrisch um den Schätzwert!

Beispiel Würfel:

30-maliges Würfeln ergab im Experiment
- 6 4 6 5 5 2 6 1 2 3 5 2 6 6 1 4 1 3 1 6 3 6 5 6 2 1 4 2 5 3
das sind 8 Sechsen, also Schätzwert für die Wahrscheinlichkeit einer Sechs
- = y/n = 0.2667
Quantil bei α = 5 %
- z = 1.9600
mit der Wilson-Methode lautet das Konfidenzintervall
- [0.1418, 0.4445]
- der tatsächliche Wert p = 0.1667 liegt also im Intervall

Aufgaben:

Konfidenzintervalle