Stochastik für Ingenieure

Häufigkeitstabelle:

Bezeichnungen
- n statistische Einheiten, durchnummeriert von 1 bis n
- m verschiedene Merkmalsausprägungen a_j, j = 1 .. m (m ≤ n)
- x_i = Ausprägung von X bei Einheit i
- a_j = j-te Ausprägung des Merkmals
absolute Häufigkeit von Merkmalsausprägung j
- h_j = Anzahl der x_i mit x_i = a_j
relative Häufigkeit von Merkmalsausprägung j
- f_j = h_j / n
graphische Darstellung z. B. als Stab-, Balken- oder Tortendiagramm

Klassenbildung:

bei großem m mehrere Ausprägungen zu einer Klasse zusammenfassen
bei qualitativen Merkmalen häufig Klasse für die seltenen Ausprägungen
bei stetigen Merkmalen üblicherweise durch Vorgabe von Intervallen
- h_j = Anzahl der x_i mit Ausprägung in [c_j-1, c_j), j = 1, .., m
- auch bei diskreten Merkmalen mit großem m
Darstellung als Balkendiagramm (Histogramm)
- Balkenfläche ~ h_j (nicht Balkenhöhe)
Tipps
- möglichst keine unbeschränkten Klassen an den Enden
- Zahl der Klassen ≤ n

Beispiel C, Bundestagswahl 2013:

Daten über Wahlbezirke zusammengefasst (wahl2013.xlsx)
- Tabelle enthält direkt die h_j
- gültige Stimmen für 30 Parteien → m = 30
Klassenbildung
- Klasse "CDU/CSU"
- Klasse "Sonstige" für f_i < 1%
- alle übrigen eine Klasse

relative Häufigkeiten der Parteien in %

CDU/CSU	SPD	DIE LINKE	GRÜNE	FDP	AfD	PIRATEN	NPD	Sonstige
41.54	25.73	8.59	8.45	4.76	4.70	2.19	1.28	2.74

Kennzahlen zur Beschreibung der Lage:

bei quantitativen Merkmalen Kennzahlen analog zu denen von Wahrscheinlichkeitsverteilungen
Mittelwert
p-Quantil x_p (p ∈ [0,1]) teilt die nach Größe sortierten Daten so, dass Anteil p der Werte links liegt, 1-p rechts; genauer
- Anzahl(x_i ≤ x_p) ≥ n p
- Anzahl(x_i ≥ x_p) ≥ n (1-p)
x_p ist eindeutig ⇔ n p nicht ganzzahlig
- anschaulich sofort klar für p = 0.5
- bei mehrdeutigem x_p wird meist der Mittelwert der beiden umliegenden Werte benutzt
wichtige Spezialfälle
- 1. Quartil x_1/4 = Q₁
- Median x_1/2 = x_med
- 3. Quartil x_3/4 = Q₃
Modus oder Modalwert
- Merkmalsausprägung mit der größten Häufigkeit
- auch für qualitative Merkmale definiert

Kennzahlen zur Beschreibung der Streuung:

empirische Varianz
- ähnlich zur Varianz, aber mit Nenner (n-1) statt n
- gute mathematische Gründe für diese Definition (s.u.)
- anschaulich: ein Wert wird zur Berechnung des Mittelwerts "verbraucht"
- entsprechend empirische Standardabweichung s
Interquartilsabstand (IQR)
- d_Q := Q₃ - Q₁
Spannbreite
- R = x_max - x_min
- mit kleinster/größter Ausprägung x_min/x_max
Faustregel für Ausreißer-Kandidaten
- unterer Zaun z_u = Q₁ - 1.5 d_Q
- oberer Zaun z_o = Q₃ + 1.5 d_Q
- Ausreißer: kleiner als z_u oder größer als z_o

Beispiel B, Klausuren der Jahrgänge 2013-2015:

Ergebnisse

Kennzahl	2013	2014	2015	gesamt
mean	80.56	74.36	59.89	71.82
Q₁	74.00	65.00	50.50	57.00
median	83.00	72.00	57.00	72.00
Q₃	93.00	88.00	70.00	89.00
IQR	19.00	23.00	19.50	32.00
s	16.70	17.65	17.15	19.19

Grafische Darstellungen:

Box-Plot visualisiert x_min, Q₁, x_med, Q₃, x_max
- Box von Q₁ bis Q₃
- x_med als rote Querlinie oder Punkt in der Box
- Linien (Whisker) bis x_min, x_max
modifizierter Box-Plot
- Whisker nur bis zum kleinsten/größten Wert innerhalb [z_u, z_o]
- Ausreißer als Sterne o.ä. markiert
empirische Verteilungsfunktion
- F(x) = Anteil der Beobachtungen ≤ x
- ganz analog zur kumulativen Verteilungsfunktion
- daraus Quantile leicht ablesbar wegen F(x_p) = p
empirische Dichtefunktion
- Histogramm mit gleich breiten (aber kleinen) Intervallen
- sinnvoll bei stetigem Merkmal und vielen Daten
Beispiel Klausuren
- Box-Plot der Gesamtprozent-Ergebnisse
- empirische Dichte- und Verteilungsfunktion

Aufgaben:

Eindimensionale Daten