Grundbegriffe
- Statistik:
- "die Kunst, aus Daten zu lernen" [Ross, Kap. 1.1]
- untergliedert in deskriptive, explorative und
induktive Statistik
- deskriptive Statistik
- Beschreiben, Aufbereiten und Zusammenfassen von
Daten
- Verdichten zu Tabellen, graphischen Darstellungen
und Kennzahlen
- explorative Statistik ("Data-mining")
- Suche nach Strukturen und Auffälligkeiten in
den Daten
- formuliert Fragestellungen und Hypothesen
- bei großen Datenmengen sehr
rechner-intensiv
- induktive (auch: schließende, mathematische)
Statistik
- leitet aus Daten Eigenschaften einer
umfassenderen Grundgesamtheit ab
- basiert auf Wahrscheinlichkeitstheorie
- Beispiel A - Lebensdauern:
- Messwerte: Lebensdauern von je 100 internen
Festplatten zweier gegebenen Typen
- Datei lebensdauer.dat
- Fragestellungen z.B.
- mittlere Lebenszeit einer Festplatte
- Nach welcher Zeit sind 90% noch
funktionstüchtig?
- Welcher Typ ist "besser"?
- Beispiel B - Klausur-Ergebnisse:
- Ergebnisse von Thermodynamik-Klausuren über
sechs Jahre
- jeweils drei Aufgaben, immer gleiche Zuordnung zu
Teilthemen
- erfasste Daten
- pro Klausur: Punktzahlen der Aufgaben 1, 2, 3,
Gesamtprozentzahl
- pro Jahr: Maximalpunktzahlen der Aufgaben
- Datei klausuren.xlsx
- Fragestellungen z.B.
- Abschneiden der Jahrgänge im Vergleich
- Vergleich der Aufgaben pro Jahr und insgesamt
- Sind die einzelnen Klausuren gleich schwer?
- Wie stark beeinflusst die Gewichtung der Aufgaben
das Klausurergebnis?
- Beispiel C - Wahlergebnisse und Arbeitslosenzahlen:
- Wahlergebnisse aller Parteien für die Wahlen zum
Deutschen Bundestag seit 1949
- Ergebnisse nach Wahlkreisen vom Bundeswahlleiter
- Arbeitslosenquote in Deutschland seit 1950 (vor 1991:
nur West)
- saisonal bereinigte Daten vom Statistischen
Bundesamt
- Dateien bundestagswahlen.xlsx,
arbeitslose.xlsx
- wichtig: genaue Definition von "arbeitslos" und
"erwerbstätig"
- Fragestellungen z.B.
- Abschneiden der Parteien über die Jahre
- Entwicklung der Arbeitslosenzahlen
- Korrelationen der Arbeitslosenzahlen und der
Wahlergebnisse
- Definitionen:
- Statistische Einheit:
Objekt, an dem interessierende Daten erfaßt werden, z.B.
- Personen (Kunden, Wähler, Studierende)
- Dinge (Maschinen, Produkte)
- Ereignisse (Maschinenausfälle, Geburten)
- Grundgesamtheit: Menge aller
relevanten statistischen Einheiten, z.B.
- alle Wahlberechtigten zur Bundestagswahl 2017
- alle im Jahr 2016 verkauften Diesel-PKWs der
Marke Mercedes-Benz
- alle Geburten in den Landkreisen Vechta und
Diepholz im Jahr 2016
- Stichprobe: tatsächlich
untersuchte Teilmenge der Grundgesamtheit
- zufällige Auswahl (alle statistischen
Einheiten gleich wahrscheinlich)
- repräsentative Auswahl (benutzt Quoten von
Teilgruppen, basiert auf Vorwissen)
- Merkmal: interessierende
Größe
- qualitativ (nominal, ordinal)
- quantitativ (diskret, stetig)
- Merkmalsausprägung:
Wert des Merkmals bei einer statistischen Einheit
- Gewinnen sinnvoller Daten nicht trivial,
benötigt Versuchsplanung
- Urliste = ursprüngliche Aufzeichnung
der Beobachtungs- oder Messwerte
- Anwendung auf die Beispiele:
- Statistische Einheit
- A: Festplatte eines Typs
- B: einzelne Klausur
- C: ursprünglich: Wahlberechtigte,
Arbeitnehmer, hier schon pro Wahlkreis bzw. Jahrgang
zusammengefasst
- Grundgesamtheit
- A: alle verkauften Festplatten eines bestimmten
Typs
- B: alle Thermodynamik-Klausuren der betrachteten
Jahre
- C: alle im jeweiligen Jahr Wahlberechtigten/alle
Erwerbspersonen
- Stichprobe
- A: zufällig (wie bestimmt?)
- B: komplette Grundgesamtheit
- C: komplett, repräsentativ (Mikrozensus)
- Merkmal
- A: Zeit von Inbetriebnahme bis zum Versagen
(quantitativ, stetig)
- B: erreichte Punktzahlen bei den drei Aufgaben
(quantitativ, diskret)
- C: gewählte Partei (qualitativ, nominal),
Beschäftigungsverhältnis (qualitativ, nominal)