Übersicht von statistischen Parametern zur Beurteilung der Datenqualität

1 Maßzahlen empirischer Verteilungen

1.1 Maße der Zentraltendenz

1.1.1 Modus

alternative Bezeichnungen: Modalwert, Dichtemittel, Gipfelwert

Der Modus ist der Wert einer Messreihe, der am häufigsten vorkommt. Bei metrischen Daten ist i.d.R. nur eine Berechnung auf Basis einer Klasseneinteilung möglich

Aussagekraft:

  • Der Modus ist das informationsärmste Maß der Zentraltendenz, da die Verteilung der Werte so gut wie gar nicht berücksichtigt wird.
  • Der Modus wird stark von der gewählten Klasseneinteilung beeinflusst.

1.1.2 Median

alternative Bezeichnungen: 50%-Quantil, Zentralwert

Der Median teilt eine Menge geordneter Elemente in zwei gleich große Gruppen. Er hat die Eigenschaft, die Fläche unter einer Häufigkeitsverteilungskurve zu halbieren. Man kann somit angeben, ob ein gegebenes Element zur unteren oder oberen Hälfte der Häufigkeitsverteilung gehört. Der Median ist der Wert, um den die absoluten Abweichungen minimal sind.

Aussagekraft:

  • Quantile bieten mehr Informationen über eine Verteilung als der Modus, da sie die Größer/Kleiner-Beziehungen zwischen den Variablenwerten berücksichtigen.
  • Quantile sind unempfindlich gegenüber Verschiebungen der Extremwerte einer Variablen und eignen sich deshalb sehr gut zur Erfassung der zentralen Tendenz einer Verteilung

1.1.3 Arithmetisches Mittel

alternative Bezeichnungen: Mittelwert

Das arithmetische Mittel ist gegeben als die Summe einer Reihe von Zahlen, dividiert durch die Anzahl der Beobachtungen dieser Reihe. Das Mittel ist der Wert, um den herum die Quadrate der Abweichungen minimal sind.

Aussagekraft:

  • Da alle Variablenwerte gleichgewichtig in die Berechnung eingehen, gibt der arithmetische Mittelwert mehr Informationen als Modus und Median. Insbesondere reagiert der arithmetische Mittelwert empfindlicher auf Extremwerte.
  • Da der arithmetische Mittelwert sehr stark von Extremwerten beeinflusst wird, wenn diese nur in einer Richtung, d.h. an einer Seite des Werteintervalls auftreten, ist für Verteilungen mit solch einseitigen Extremwerten der Median dem arithmetischen Mittel vorzuziehen.

1.2 Streuungsmaße

1.2.1 Spannweite

alternative Bezeichnungen: Variationsbreite

Die Spannweite einer Menge von Beobachtungen ist die Differenz zwischem größtem und kleinstem Wert. Sie ist also ein Streuungsmaß, das dem Modus entspricht. Die Spannweite ist ein sehr grobes Streuungsmaß. Es wird daher relativ selten angewandt.

Aussagekraft:

  • Das Maß wird sehr stark von Extremwerten beeinflusst.
  • Die Spannweite misst nur die maximale Differenz zwischen den zugrundeliegenden Daten und gibt keinerlei Auskunft über die Verteilung der Daten innerhalb des Werteintervalls.

1.2.2 Interquartile Spannweite

alternative Bezeichnungen: (Inter-)Quartilabstand

Dieses gebräuchliche Maß der Streuung entspricht dem Median. Die Quartile markieren in einer vom kleinsten zum größten geordneten Reihe die Viertelpositionen. Die interquartile Spannweite ist die Differenz zwischen oberem und unterem Quartil.

1.2.3 Mittlere Abweichung

alternative Bezeichnung: Durchschnittliche Abweichung

Die mittlere Abweichung ist das arithmetische Mittel der absoluten Abweichungen einer Menge von Beobachtungen um ihr Mittel. Man benutzt die durchschnittliche Abweichung als Maß der Streuung selten.

Aussagekraft:

  • Die mittlere Abweichung hat gegenüber der Varianz den Vorteil, das sie die Streuung der Variablenwerte in der ursprünglichen Einheit misst und somit leichter interpretierbar ist.
  • Die mittlere Abweichung bezieht sich immer auf das arithmetische Mittel. Ihre Aussagekraft ist daher umso größer, je besser das arithmetische Mittel zur Charakterisierung der Zentraltendenz geeignet ist.
  • Sie eignet sich besonders zur Charakterisierung unimodaler, symmetrischer Verteilungen. Je schiefer eine Verteilung ist, desto notwendiger ist die Benutzung von Häufigkeitstabellen und -diagrammen.

1.2.4 Standardabweichung, Varianz

alternative Bezeichnung: Standardfehler, Mittlerer Fehler

Die Varianz ist ein ganz wichtiges Maß in der parametrischen Statistik. Sie ist die mittlere quadratische Abweichung der einzelnen Datenwerte vom arithmetischen Mittelwert. Das meistgebrauchte Maß der Streuung ist jedoch die Quadratwurzel der Varianz, die Standardabweichung.

Aussagekraft:

  • Die Standardabweichung hat gegenüber der Varianz den Vorteil, das sie die Streuung der Variablenwerte in der ursprünglichen Einheit misst und somit leichter interpretierbar ist.
  • Die Standardabweichung sich im Gegensatz zur mittleren Abweichung auch als Maß für die mittlere Abweichung der Werte voneinander auffassen. Allerdings werden durch "das Quadrieren" extreme Werte bei der Standardabweichung stärker berücksichtigt als bei der mittleren Abweichung.
  • Sowohl Standardabweichung als auch Varianz eignen sich besonders zur Charakterisierung unimodaler, symmetrischer Verteilungen. Je schiefer eine Verteilung ist, desto notwendiger ist die Benutzung von Häufigkeitstabellen und -diagrammen.
  • Varianz und Standardabweichung haben in der Statistik insgesamt eine größere Bedeutung als die mittlere Abweichung, weil sie sich leicht für theoretische Verteilungen berechnen lassen.

2 Ausreißertests

2.1 Ausreißertest nach DIXON

Der Ausreißertest nach DIXON wird von der DIN 53804 für Stichprobengrößen von weniger als 30 Messwerten empfohlen. Für Stichproben mit mehr Messwerten wird der Ausreißertest nach GRUBBS empfohlen.

Beim Q-Test von DIXON (DEAN & DIXON 1951) wird ein Prüfwert berechnet und mit einem kritischen Wert für einen bestimmten Vertrauensbereich verglichen. Der Prüfwert wird durch folgende Formeln berechnet (vgl. RORABACHER 1991):

(a) für einen Stichprobenumfang von 3-7 Messwerten

\mbox{unterer Prüfwert/Minimalwert:} \qquad PW = \frac{x_{2} - x_{1}}{x_{N} - x_{1}}
\mbox{oberer Prüfwert/Maximalwert:} \qquad PW = \frac{x_{N} - x_{N - 1}}{x_{N} - x_{1}}

(b) für einen Stichprobenumfang von 8-10 Messwerten

\mbox{unterer Prüfwert/Minimalwert:} \qquad PW = \frac{x_{2} - x_{1}}{x_{N-1} - x_{1}}
\mbox{oberer Prüfwert/Maximalwert:} \qquad PW = \frac{x_{N} - x_{N - 1}}{x_{N} - x_{2}}

(c) für einen Stichprobenumfang von 11-13 Messwerten

\mbox{unterer Prüfwert/Minimalwert:} \qquad PW = \frac{x_{3} - x_{1}}{x_{N-1} - x_{1}}
\mbox{oberer Prüfwert/Maximalwert:} \qquad PW = \frac{x_{N} - x_{N - 2}}{x_{N} - x_{2}}

(d) für einen Stichprobenumfang von 14-29 Messwerten

\mbox{unterer Prüfwert/Minimalwert:} \qquad PW = \frac{x_{3} - x_{1}}{x_{N-2} - x_{1}}
\mbox{oberer Prüfwert/Maximalwert:} \qquad PW = \frac{x_{N} - x_{N - 2}}{x_{N} - x_{3}}
 x_{1}     kleinster Wert der Stichprobe
 x_{2}     zweitkleinster Wert der Stichprobe
 x_{3}     drittkleinster Wert der Stichprobe
 x_{N}     größter Wert der Stichprobe
 x_{N-1}   zweitgrößter Wert der Stichprobe
 x_{N-2}   drittgrößter Wert der Stichprobe

Beispiel für die kritischen Werte eines 95-%-Vertrauensbereichs:

Anzahl N Messwerte345678910
P=95%0,9700,8290,7100,6250,5680,5260,4930,466

Weitere kritische Werte für höhere Stichprobenumfänge bzw. ander Vertrauensbereiche sind in RORABACHER (1991) aufgeführt.

Würde z.B. bei einer Stichprobengröße von 8 Messwerten der Prüfwert 0,746 betragen, dann ist dieser größer als der kritische Wert von 0,526. Es ist folglich mit 95-prozentiger Wahrscheinlichkeit davon auszugehen, dass der kleinste bzw. größte Messwert der Stichprobe (je nach verwendeter Formel) ein Ausreißer ist. Wäre der Prüfwert kleiner als der kritische Wert, dann ist davon auszugehen, dass es sich nicht um einen Ausreißer handelt.

Zur Beachtung:

  • der Q-Test nach DIXON kann nur bei Stichproben angewendet werden, von denen angenommen werden kann, dass sie normalverteilt sind bzw. sein sollten
  • der Q-Test kann nur einmal angewendet werden, d.h. wurde ein Ausreißer eliminiert, kann auf die verbleibende Stichprobe nicht erneut auf Ausreißer geprüft werden, da dies falsche Ergebnisse liefert

3 Quellen

  • BAHRENBERG ET AL. (1999)
  • DEAN & DIXON (1951)
  • NORCLIFFE (1981)
  • RORABACHER (1991)
Kategorien: Methodik

Letzte Änderung dieses Artikels: May 31, 2011, at 01:24 PM