Zweistichproben-t-Test

Der Zweistichproben-t-Test ist ein Signifikanztest aus der mathematischen Statistik. In der üblichen Form prüft er anhand der Mittelwerte zweier Stichproben, ob die Mittelwerte zweier normalverteilter Grundgesamtheiten gleich oder verschieden voneinander sind.

Es gibt zwei Varianten des Zweistichproben-t-Tests:

  • den für zwei unabhängige Stichproben mit gleichen Standardabweichungen σ {\displaystyle \sigma } in beiden Grundgesamtheiten und
  • den für zwei abhängige Stichproben.

Liegen zwei unabhängige Stichproben mit ungleichen Standardabweichungen in beiden Grundgesamtheiten vor, so muss der Welch-Test (s. u.) eingesetzt werden.

Grundidee

Der Zweistichproben-t-Test prüft (im einfachsten Fall) mit Hilfe der Mittelwerte x ¯ 1 {\displaystyle {\overline {x}}_{1}} und x ¯ 2 {\displaystyle {\overline {x}}_{2}} zweier Stichproben, ob die Erwartungswerte μ 1 {\displaystyle \mu _{1}} und μ 2 {\displaystyle \mu _{2}} der zugehörigen Grundgesamtheiten verschieden sind.

Die untenstehende Grafik zeigt zwei Grundgesamtheiten (schwarze Punkte) und zwei Stichproben (blaue und rote Punkte), die zufällig aus den Grundgesamtheiten gezogen wurden. Die Mittelwerte der Stichproben x ¯ 1 {\displaystyle {\overline {x}}_{1}} und x ¯ 2 {\displaystyle {\overline {x}}_{2}} können aus den Stichproben berechnet werden, die Erwartungswerte der Grundgesamtheiten μ 1 {\displaystyle \mu _{1}} und μ 2 {\displaystyle \mu _{2}} sind jedoch unbekannt. In der Grafik sind die Grundgesamtheiten so konstruiert, dass die beiden Erwartungswerte gleich sind, also μ 1 = μ 2 {\displaystyle \mu _{1}=\mu _{2}} .

Wir vermuten nun, z. B. aufgrund historischer Ergebnisse oder theoretischer Überlegungen, dass die Erwartungswerte μ 1 {\displaystyle \mu _{1}} und μ 2 {\displaystyle \mu _{2}} der Grundgesamtheiten verschieden sind, und möchten dies prüfen.

Im einfachsten Fall prüft der Zweistichproben-t-Test

  • die Nullhypothese, dass die Erwartungswerte der Grundgesamtheiten gleich sind ( H 0 : μ 1 = μ 2 {\displaystyle H_{0}:\,\mu _{1}=\mu _{2}} )
  • gegen die Alternativhypothese, dass die Erwartungswerte der Grundgesamtheiten ungleich sind ( H 1 : μ 1 μ 2 {\displaystyle H_{1}:\,\mu _{1}\neq \mu _{2}} ).

Wenn die Stichproben geeignet gezogen wurden, zum Beispiel als einfache Zufallsstichproben, wird der Mittelwert x ¯ 1 {\displaystyle {\overline {x}}_{1}} der Stichprobe 1 mit hoher Wahrscheinlichkeit nahe dem Erwartungswert μ 1 {\displaystyle \mu _{1}} der Grundgesamtheit 1 liegen und der Mittelwert x ¯ 2 {\displaystyle {\overline {x}}_{2}} der Stichprobe 2 mit hoher Wahrscheinlichkeit nahe dem Erwartungswert μ 2 {\displaystyle \mu _{2}} der Grundgesamtheit 2 liegen. Das heißt, der Abstand zwischen der gestrichelten roten und schwarzen Linie bzw. der gestrichelten blauen und schwarzen Linie wird mit hoher Wahrscheinlichkeit klein sein.

  • Wenn der Abstand zwischen x ¯ 1 {\displaystyle {\overline {x}}_{1}} und x ¯ 2 {\displaystyle {\overline {x}}_{2}} (gestrichelte blaue bzw. rote Linie) klein ist, dann liegen auch die Erwartungswerte der Grundgesamtheiten μ 1 {\displaystyle \mu _{1}} und μ 2 {\displaystyle \mu _{2}} nahe beieinander. Wir können die Nullhypothese nicht ablehnen.
  • Wenn der Abstand zwischen x ¯ 1 {\displaystyle {\overline {x}}_{1}} und x ¯ 2 {\displaystyle {\overline {x}}_{2}} (gestrichelte blaue bzw. rote Linie) groß ist, dann liegen auch die Erwartungswerte der Grundgesamtheiten μ 1 {\displaystyle \mu _{1}} und μ 2 {\displaystyle \mu _{2}} weit voneinander entfernt. Wir können die Nullhypothese ablehnen.

Die genauen mathematischen Berechnungen finden sich in den folgenden Abschnitten.

Zweistichproben-t-Test für unabhängige Stichproben

Um Erwartungswertunterschiede zwischen zwei Grundgesamtheiten mit der gleichen unbekannten Standardabweichung σ {\displaystyle \sigma } zu untersuchen, wendet man den Zweistichproben-t-Test an. Dafür muss jede der Grundgesamtheiten normalverteilt sein oder die Stichprobenumfänge müssen so groß sein, dass der zentrale Grenzwertsatz anwendbar ist. Für den Test zieht man eine Stichprobe x 1 , , x n {\displaystyle x_{1},\ldots ,x_{n}} vom Umfang n {\displaystyle n} aus der 1. Grundgesamtheit und unabhängig davon eine Stichprobe y 1 , , y m {\displaystyle y_{1},\ldots ,y_{m}} vom Umfang m {\displaystyle m} aus der 2. Grundgesamtheit. Für die zugehörigen unabhängigen Stichprobenvariablen X 1 , , X n {\displaystyle X_{1},\ldots ,X_{n}} und Y 1 , , Y m {\displaystyle Y_{1},\ldots ,Y_{m}} gilt dann E ( X i ) = μ X {\displaystyle \operatorname {E} (X_{i})=\mu _{X}} und E ( Y j ) = μ Y {\displaystyle \operatorname {E} (Y_{j})=\mu _{Y}} mit den Erwartungswerten μ X {\displaystyle \mu _{X}} und μ Y {\displaystyle \mu _{Y}} der beiden Grundgesamtheiten. Wird eine Zahl ω 0 {\displaystyle \omega _{0}} für die Differenz der Erwartungswerte vorgegeben, so lautet die Nullhypothese

H 0 : μ X μ Y = ω 0 {\displaystyle H_{0}:\,\mu _{X}-\mu _{Y}=\omega _{0}}

und die Alternativhypothese

H 1 : μ X μ Y ω 0 {\displaystyle H_{1}:\,\mu _{X}-\mu _{Y}\neq \omega _{0}} .

Häufig liegt der Fall ω 0 = 0 {\displaystyle \omega _{0}=0} vor, in welchem die Nullhypothese die Gleichheit der Erwartungswerte und die Alternativhypothese die Ungleichheit der Erwartungswerte postuliert.

Die Teststatistik ergibt sich zu

T = X ¯ Y ¯ ω 0 S 1 n + 1 m = n m n + m X ¯ Y ¯ ω 0 S . {\displaystyle T={\frac {{\overline {X}}-{\overline {Y}}-\omega _{0}}{S{\sqrt {{\frac {1}{n}}+{\frac {1}{m}}}}}}={\sqrt {\frac {nm}{n+m}}}{\frac {{\overline {X}}-{\overline {Y}}-\omega _{0}}{S}}.}

Darin sind X ¯ {\displaystyle {\overline {X}}} und Y ¯ {\displaystyle {\overline {Y}}} die respektiven Stichprobenmittelwerte und

S 2 = ( n 1 ) S X 2 + ( m 1 ) S Y 2 n + m 2 {\displaystyle S^{2}={\frac {(n-1)S_{X}^{2}+(m-1)S_{Y}^{2}}{n+m-2}}}

die gewichtete Varianz, berechnet als gewichtetes Mittel der respektiven korrigierten Stichprobenvarianzen S X 2 {\displaystyle S_{X}^{2}} und S Y 2 {\displaystyle S_{Y}^{2}} .

Die Teststatistik T {\displaystyle T} ist unter der Nullhypothese t-verteilt mit m + n 2 {\displaystyle m+n-2} Freiheitsgraden. Der Prüfwert, also die Realisierung der Teststatistik anhand der Stichprobe, berechnet sich dann als

t = n m n + m x ¯ y ¯ ω 0 s . {\displaystyle t={\sqrt {\frac {nm}{n+m}}}{\frac {{\overline {x}}-{\overline {y}}-\omega _{0}}{s}}.}

Dabei sind x ¯ {\displaystyle {\overline {x}}} und y ¯ {\displaystyle {\overline {y}}} die aus der Stichprobe berechneten Mittelwerte und

s 2 = ( n 1 ) s x 2 + ( m 1 ) s y 2 n + m 2 {\displaystyle s^{2}={\frac {(n-1)s_{x}^{2}+(m-1)s_{y}^{2}}{n+m-2}}}

die Realisierung der gewichteten Varianz, berechnet aus den Stichprobenvarianzen s x 2 {\displaystyle s_{x}^{2}} und s y 2 {\displaystyle s_{y}^{2}} . Sie wird auch als gepoolte Stichprobenvarianz bezeichnet.

Zum Signifikanzniveau α {\displaystyle \alpha } wird die Nullhypothese abgelehnt zugunsten der Alternative, wenn

| t | > t ( 1 1 2 α ,   n + m 2 ) . {\displaystyle |t|>t(1-{\tfrac {1}{2}}\alpha ,\ n+m-2).}

Dabei bezeichnet t ( p , ν ) {\displaystyle t(p,\nu )} das p {\displaystyle p} -Quantil einer t-Verteilung mit ν {\displaystyle \nu } Freiheitsgraden. Im weiteren Verlauf des Artikels werden dafür auch die Notationen t ( p ; ν ) {\displaystyle t(p;\nu )} und t p ; ν {\displaystyle t_{p;\nu }} verwendet. Im Artikel t-Verteilung wird dagegen die Notation t ν ; p {\displaystyle t_{\nu ;p}} für das 1 p {\displaystyle 1-p} -Quantil einer t-Verteilung mit ν {\displaystyle \nu } Freiheitsgraden verwendet.

Alternativ können folgende Hypothesen mit der gleichen Teststatistik T {\displaystyle T} getestet werden:

  • H 0 : μ X μ Y ω 0 {\displaystyle \!H_{0}:\mu _{X}-\mu _{Y}\leq \omega _{0}} vs. H 1 : μ X μ Y > ω 0 {\displaystyle \!H_{1}:\mu _{X}-\mu _{Y}>\omega _{0}} und die Nullhypothese wird abgelehnt, wenn t > t ( 1 α ,   m + n 2 ) {\displaystyle t>t(1-\alpha ,\ m+n-2)} bzw.
  • H 0 : μ X μ Y ω 0 {\displaystyle \!H_{0}:\mu _{X}-\mu _{Y}\geq \omega _{0}} vs. H 1 : μ X μ Y < ω 0 {\displaystyle \!H_{1}:\mu _{X}-\mu _{Y}<\omega _{0}} und die Nullhypothese wird abgelehnt, wenn t < t ( 1 α ,   m + n 2 ) {\displaystyle t<-t(1-\alpha ,\ m+n-2)} .

Bemerkung

Sind die Varianzen in den Grundgesamtheiten ungleich, dann muss der Welch-Test durchgeführt werden.

Beispiel 1

Zwei Düngemittelsorten sollen verglichen werden. Dazu werden 25 Parzellen gleicher Größe gedüngt, und zwar n = 10 {\displaystyle n=10}  Parzellen mit Sorte A und m = 15 {\displaystyle m=15}  Parzellen mit Sorte B. Angenommen wird, dass die Ernteerträge normalverteilt seien mit gleichen Varianzen. Bei Ersteren ergibt sich ein mittlerer Ernteertrag x ¯ = 23 , 6 {\displaystyle {\overline {x}}=23{,}6} mit Stichprobenvarianz s x 2 = 9 , 5 {\displaystyle s_{x}^{2}=9{,}5} und bei den anderen Parzellen das Mittel y ¯ = 20 , 1 {\displaystyle {\overline {y}}=20{,}1} mit Varianz s y 2 = 8 , 9 {\displaystyle s_{y}^{2}=8{,}9} . Für die gewichtete Varianz berechnet man damit

s 2 = 9 9 , 5 + 14 8 , 9 10 + 15 2 = 9,135 {\displaystyle s^{2}={\frac {9\cdot 9{,}5+14\cdot 8{,}9}{10+15-2}}=9{,}135} .

Daraus erhält man die Prüfgröße

t = 10 15 10 + 15 23 , 6 20 , 1 9,135 = 2,837 {\displaystyle t={\sqrt {\frac {10\cdot 15}{10+15}}}\cdot {\frac {23{,}6-20{,}1}{\sqrt {9{,}135}}}=2{,}837} .

Das vorgegebene Signifikanzniveau sei 5 %. Es wird ein zweiseitiger Test durchgeführt. Der Wert der Prüfgröße ist größer als das 0,975-Quantil der t-Verteilung mit 10 + 15 2 = 23 {\displaystyle 10+15-2=23} Freiheitsgraden t ( 0,975 ;   23 ) = 2,069 {\displaystyle t(0{,}975;\ 23)=2{,}069} . Es kann also mit einer Konfidenz von 95 % {\displaystyle 95\,\%} behauptet werden, dass ein Unterschied in der Wirkung der beiden Düngemittel besteht.

Kompaktdarstellung

Zweistichproben-t-Test für zwei unabhängige Stichproben
Voraussetzungen
  • X 1 , , X n {\displaystyle X_{1},\ldots ,X_{n}} und Y 1 , Y m {\displaystyle Y_{1}\ldots ,Y_{m}} unabhängig voneinander
  • X i N ( μ X ; σ ) {\displaystyle X_{i}\sim {\mathcal {N}}(\mu _{X};\sigma )\,} oder X i ( μ X ; σ ) {\displaystyle X_{i}\sim (\mu _{X};\sigma )\,} mit n > 30 {\displaystyle n>30}
  • Y j N ( μ Y ; σ ) {\displaystyle Y_{j}\sim {\mathcal {N}}(\mu _{Y};\sigma )\,} oder Y j ( μ Y ; σ ) {\displaystyle Y_{j}\sim (\mu _{Y};\sigma )\,} mit m > 30 {\displaystyle m>30}
  • σ {\displaystyle \sigma } unbekannt
Hypothesen H 0 : μ X μ Y ω 0 {\displaystyle H_{0}:\mu _{X}-\mu _{Y}\leq \omega _{0}\,}
H 1 : μ X μ Y > ω 0 {\displaystyle H_{1}:\mu _{X}-\mu _{Y}>\omega _{0}\,}
(rechtsseitig)
H 0 : μ X μ Y = ω 0 {\displaystyle H_{0}:\mu _{X}-\mu _{Y}=\omega _{0}\,}
H 1 : μ X μ Y ω 0 {\displaystyle H_{1}:\mu _{X}-\mu _{Y}\neq \omega _{0}\,}
(zweiseitig)
H 0 : μ X μ Y ω 0 {\displaystyle H_{0}:\mu _{X}-\mu _{Y}\geq \omega _{0}\,}
H 1 : μ X μ Y < ω 0 {\displaystyle H_{1}:\mu _{X}-\mu _{Y}<\omega _{0}\,}
(linksseitig)
Teststatistik T = n m n + m X ¯ Y ¯ ω 0 S {\displaystyle T={\sqrt {\frac {nm}{n+m}}}{\frac {{\overline {X}}-{\overline {Y}}-\omega _{0}}{S}}}

Im Fall μ X μ Y = ω 0 {\displaystyle \mu _{X}-\mu _{Y}=\omega _{0}} gilt für die Teststatistik T t n + m 2 {\displaystyle T\sim t_{n+m-2}} .

Prüfwert t = n m n + m x ¯ y ¯ ω 0 s {\displaystyle t={\sqrt {\frac {nm}{n+m}}}{\frac {{\overline {x}}-{\overline {y}}-\omega _{0}}{s}}}
mit x ¯ = 1 n i = 1 n x i {\displaystyle {\overline {x}}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}} , y ¯ = 1 m i = 1 m y i {\displaystyle {\overline {y}}={\frac {1}{m}}\sum _{i=1}^{m}y_{i}} ,
s x = 1 n 1 i = 1 n ( x i x ¯ ) 2 {\displaystyle s_{x}={\sqrt {{\frac {1}{n-1}}\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2}}}} ,

s y = 1 m 1 j = 1 m ( y j y ¯ ) 2 {\displaystyle s_{y}={\sqrt {{\frac {1}{m-1}}\sum _{j=1}^{m}(y_{j}-{\overline {y}})^{2}}}}
und s = ( n 1 ) s x 2 + ( m 1 ) s y 2 n + m 2 {\displaystyle s={\sqrt {\frac {(n-1)s_{x}^{2}+(m-1)s_{y}^{2}}{n+m-2}}}}

Ablehnungsbereich H 0 {\displaystyle H_{0}} { t | t > t 1 α ; n + m 2 } {\displaystyle \{t|t>t_{1-\alpha ;n+m-2}\}\,} { t | t < t 1 α / 2 ; n + m 2 } {\displaystyle \{t|t<-t_{1-\alpha /2;n+m-2}\}\,}
oder
{ t | t > t 1 α / 2 ; n + m 2 } {\displaystyle \{t|t>t_{1-\alpha /2;n+m-2}\}\,}
{ t | t < t 1 α ; n + m 2 } {\displaystyle \{t|t<-t_{1-\alpha ;n+m-2}\}\,}

Zweistichproben-t-Test für abhängige Stichproben

Siehe auch: gepaarte Stichprobe
Fehler 1. Art von verbundenem und unverbundenem t-Test in Abhängigkeit von der Korrelation. Die simulierten Zufallszahlen entstammen einer bivariaten Normalverteilung mit einer Varianz von 1. Das Signifikanzniveau beträgt 5 % und die Fallzahl 60.
Güte von verbundenem und unverbundenem t-Test in Abhängigkeit von der Korrelation. Die simulierten Zufallszahlen entstammen einer bivariaten Normalverteilung mit einer Varianz von 1 und einer Differenz der Erwartungswerte von 0,4. Das Signifikanzniveau beträgt 5 % und die Fallzahl 60.

Hier sind x 1 , x 2 , , x n {\displaystyle x_{1},x_{2},\dots ,x_{n}} und y 1 , y 2 , , y n {\displaystyle y_{1},y_{2},\dots ,y_{n}} zwei paarweise verbundene Stichproben, die beispielsweise aus zwei Messungen an denselben Untersuchungseinheiten gewonnen wurden (Messwiederholung). Die Stichproben können auch aus anderen Gründen paarweise abhängig sein, beispielsweise wenn die x {\displaystyle x} - und y {\displaystyle y} -Werte Messergebnisse von Frauen bzw. Männern in einer Partnerschaft sind und Unterschiede zwischen den Geschlechtern interessieren.

Soll die Nullhypothese getestet werden, dass die beiden Erwartungswerte der zugrunde liegenden normalverteilten Grundgesamtheiten gleich sind, so können mit dem Einstichproben-t-Test die Differenzen d i = x i y i {\displaystyle d_{i}=x_{i}-y_{i}} auf Null getestet werden. In der Praxis muss bei kleineren Stichprobenumfängen ( n 30 {\displaystyle n\leq 30} ) die Voraussetzung erfüllt sein, dass die Differenzen in der Grundgesamtheit normalverteilt sind. Bei hinreichend großen Stichproben verteilen sich die Differenzen der Paare annähernd normal um das arithmetische Mittel der Differenz der Grundgesamtheit. Insgesamt reagiert der t-Test auf Annahmeverletzung eher robust.[1]

Beispiel 2

Um eine neue Therapie zur Senkung des Cholesterinspiegels zu testen, werden bei zehn Probanden vor und nach der Behandlung die Cholesterinwerte bestimmt. Es ergeben sich die folgenden Messergebnisse:

Vor der Behandlung: 223 259 248 220 287 191 229 270 245 201
Nach der Behandlung: 220 244 243 211 299 170 210 276 252 189
Differenz: 3 15 5 9 −12 21 19 −6 −7 12

Die Differenzen der Messwerte haben das arithmetische Mittel d ¯ = 5 , 9 {\displaystyle {\overline {d}}=5{,}9} und die Stichprobenstandardabweichung s d = 11,386 6 {\displaystyle s_{d}=11{,}3866} . Das ergibt als Prüfgrößenwert

t = 10 5 , 9 11,386 6 = 1,638 5 {\displaystyle t={\sqrt {10}}{\frac {5{,}9}{11{,}3866}}=1{,}6385} .

Es ist t ( 0,975 ;   9 ) = 2,262 2 {\displaystyle t(0{,}975;\ 9)=2{,}2622} , also gilt | t | t ( 0,975 ;   9 ) {\displaystyle |t|\leq t(0{,}975;\ 9)} . Somit kann die Nullhypothese, dass die Erwartungswerte der Cholesterinwerte vor und nach der Behandlung gleich sind, die Therapie also keine Wirkung hat, zum Signifikanzniveau α = 5 % {\displaystyle \alpha =5\,\%} nicht abgelehnt werden. Wegen t < t ( 0 , 95 ;   9 ) = 1,833 1 {\displaystyle t<t(0{,}95;\ 9)=1{,}8331} ist auch die einseitige Alternative, dass die Therapie den Cholesterinspiegel senkt, nicht signifikant. Wenn die Behandlung überhaupt einen Effekt hat, so ist dieser nicht groß genug, um ihn mit einem so kleinen Stichprobenumfang zu entdecken.

Kompaktdarstellung

Zweistichproben-t-Test für zwei gepaarte Stichproben
Voraussetzungen
  • D i = X i Y i {\displaystyle D_{i}=X_{i}-Y_{i}\,} unabhängig voneinander
  • D ¯ = 1 n i = 1 n D i N ( μ D ; σ D / n ) {\displaystyle {\overline {D}}={\frac {1}{n}}\sum _{i=1}^{n}D_{i}\sim {\mathcal {N}}(\mu _{D};\sigma _{D}/{\sqrt {n}})} (zumindest approximativ)
Hypothesen H 0 : μ X μ Y ω 0 {\displaystyle H_{0}:\mu _{X}-\mu _{Y}\leq \omega _{0}}
H 1 : μ X μ Y > ω 0 {\displaystyle H_{1}:\mu _{X}-\mu _{Y}>\omega _{0}\,}
(rechtsseitig)
H 0 : μ X μ Y = ω 0 {\displaystyle H_{0}:\mu _{X}-\mu _{Y}=\omega _{0}\,}
H 1 : μ X μ Y ω 0 {\displaystyle H_{1}:\mu _{X}-\mu _{Y}\neq \omega _{0}}
(zweiseitig)
H 0 : μ X μ Y ω 0 {\displaystyle H_{0}:\mu _{X}-\mu _{Y}\geq \omega _{0}}
H 1 : μ X μ Y < ω 0 {\displaystyle H_{1}:\mu _{X}-\mu _{Y}<\omega _{0}\,}
(linksseitig)
Teststatistik T = n D ¯ ω 0 S D {\displaystyle T={\sqrt {n}}{\frac {{\overline {D}}-\omega _{0}}{S_{D}}}}

Im Fall μ X μ Y = ω 0 {\displaystyle \mu _{X}-\mu _{Y}=\omega _{0}} gilt für die Teststatistik T t n 1 {\displaystyle T\sim t_{n-1}} .

Prüfwert t = n d ¯ ω 0 s d {\displaystyle t={\sqrt {n}}{\frac {{\overline {d}}-\omega _{0}}{s_{d}}}}
mit d i = x i y i {\displaystyle d_{i}=x_{i}-y_{i}\,} , d ¯ = 1 n i = 1 n d i {\displaystyle {\overline {d}}={\frac {1}{n}}\sum _{i=1}^{n}d_{i}} ,
und s d = 1 n 1 i = 1 n ( d i d ¯ ) 2 {\displaystyle s_{d}={\sqrt {{\frac {1}{n-1}}\sum _{i=1}^{n}(d_{i}-{\overline {d}})^{2}}}}
Ablehnungsbereich H 0 {\displaystyle H_{0}} [ t 1 α ; n 1 , ) {\displaystyle [t_{1-\alpha ;n-1},\infty )\,} ( , t 1 α 2 ; n 1 ] [ t 1 α 2 ; n 1 , ) {\displaystyle (-\infty ,-t_{1-{\frac {\alpha }{2}};n-1}]\cup [t_{1-{\frac {\alpha }{2}};n-1},\infty )\,} ( , t 1 α ; n 1 ] {\displaystyle (-\infty ,-t_{1-\alpha ;n-1}]\,}

Welch-Test

Beim Welch-Test[2], der manchmal auch Satterthwaite-Test[3] genannt wird, wird wie beim Zweistichprobentest-t-Test für unabhängige Stichproben unterstellt, dass die beiden Stichproben normalverteilt und unabhängig voneinander sind. Jedoch wird nicht mehr gefordert, dass die Varianzen in beiden Stichproben identisch sind. Die Teststatistik wird gegenüber dem Zweistichproben-t-Test entsprechend modifiziert:

T = X ¯ Y ¯ ω 0 S X 2 n + S Y 2 m t ν . {\displaystyle T={\frac {{\overline {X}}-{\overline {Y}}-\omega _{0}}{\sqrt {{\frac {S_{X}^{2}}{n}}+{\frac {S_{Y}^{2}}{m}}}}}\approx t_{\nu }.}

Diese Teststatistik ist unter der Nullhypothese gleicher Mittelwerte nicht t {\displaystyle t} -verteilt. Die wahre Verteilung kann aber (auch für endliche Stichproben!) durch eine t-Verteilung mit einer modifizierten Anzahl von Freiheitsgraden approximiert werden[2][4] (siehe auch Behrens-Fisher-Problem):

ν = ( s x 2 n + s y 2 m ) 2 1 n 1 ( s x 2 n ) 2 + 1 m 1 ( s y 2 m ) 2 . {\displaystyle \nu ={\left({\frac {s_{x}^{2}}{n}}+{\frac {s_{y}^{2}}{m}}\right)^{2} \over {\frac {1}{n-1}}\left({\frac {s_{x}^{2}}{n}}\right)^{2}+{\frac {1}{m-1}}\left({\frac {s_{y}^{2}}{m}}\right)^{2}}.}

Dabei sind s x {\displaystyle s_{x}} und s y {\displaystyle s_{y}} die aus der Stichprobe geschätzten Standardabweichungen der Grundgesamtheiten sowie n {\displaystyle n} und m {\displaystyle m} die Stichprobenumfänge.

Obwohl der Welch-Test speziell für den Fall σ X σ Y {\displaystyle \sigma _{X}\neq \sigma _{Y}} entwickelt wurde, funktioniert der Test nicht gut, wenn mindestens eine der Verteilungen nicht-normal ist, die Fallzahlen klein und stark unterschiedlich ( n m {\displaystyle n\neq m} ) sind.[5][6]

Kompaktdarstellung

Welch-Test
Voraussetzungen
  • X 1 , , X n {\displaystyle X_{1},\ldots ,X_{n}} und Y 1 , Y m {\displaystyle Y_{1}\ldots ,Y_{m}} unabhängig voneinander
  • X i N ( μ X ; σ X ) {\displaystyle X_{i}\sim {\mathcal {N}}(\mu _{X};\sigma _{X})\,} oder X i ( μ X ; σ X ) {\displaystyle X_{i}\sim (\mu _{X};\sigma _{X})\,} mit n > 30 {\displaystyle n>30}
  • Y j N ( μ Y ; σ Y ) {\displaystyle Y_{j}\sim {\mathcal {N}}(\mu _{Y};\sigma _{Y})\,} oder Y j ( μ Y ; σ Y ) {\displaystyle Y_{j}\sim (\mu _{Y};\sigma _{Y})\,} mit m > 30 {\displaystyle m>30}
  • σ X σ Y {\displaystyle \sigma _{X}\neq \sigma _{Y}} unbekannt
Hypothesen H 0 : μ X μ Y ω 0 {\displaystyle H_{0}:\mu _{X}-\mu _{Y}\leq \omega _{0}\,}
H 1 : μ X μ Y > ω 0 {\displaystyle H_{1}:\mu _{X}-\mu _{Y}>\omega _{0}\,}
(rechtsseitig)
H 0 : μ X μ Y = ω 0 {\displaystyle H_{0}:\mu _{X}-\mu _{Y}=\omega _{0}\,}
H 1 : μ X μ Y ω 0 {\displaystyle H_{1}:\mu _{X}-\mu _{Y}\neq \omega _{0}\,}
(zweiseitig)
H 0 : μ X μ Y ω 0 {\displaystyle H_{0}:\mu _{X}-\mu _{Y}\geq \omega _{0}\,}
H 1 : μ X μ Y < ω 0 {\displaystyle H_{1}:\mu _{X}-\mu _{Y}<\omega _{0}\,}
(linksseitig)
Teststatistik T = X ¯ Y ¯ ω 0 S t ν {\displaystyle T={\frac {{\overline {X}}-{\overline {Y}}-\omega _{0}}{S}}\approx t_{\nu }}

Im Fall μ X μ Y = ω 0 {\displaystyle \mu _{X}-\mu _{Y}=\omega _{0}} gilt T t ν {\displaystyle T\approx t_{\nu }} .

Prüfwert t = x ¯ y ¯ ω 0 s {\displaystyle t={\frac {{\overline {x}}-{\overline {y}}-\omega _{0}}{s}}}

mit x ¯ = 1 n i = 1 n x i {\displaystyle {\overline {x}}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}} , y ¯ = 1 m i = 1 m y i {\displaystyle {\overline {y}}={\frac {1}{m}}\sum _{i=1}^{m}y_{i}} ,
s x 2 = 1 n 1 i = 1 n ( x i x ¯ ) 2 {\displaystyle s_{x}^{2}={\frac {1}{n-1}}\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2}} ,
s y 2 = 1 m 1 j = 1 m ( y j y ¯ ) 2 {\displaystyle s_{y}^{2}={\frac {1}{m-1}}\sum _{j=1}^{m}(y_{j}-{\overline {y}})^{2}} ,
s = s x 2 n + s y 2 m {\displaystyle s={\sqrt {{\frac {s_{x}^{2}}{n}}+{\frac {s_{y}^{2}}{m}}}}} und
ν = ( s x 2 n + s y 2 m ) 2 ( s x 2 n ) 2 n 1 + ( s y 2 m ) 2 m 1 {\displaystyle \nu ={\frac {\left({\frac {s_{x}^{2}}{n}}+{\frac {s_{y}^{2}}{m}}\right)^{2}}{{\frac {\left({\frac {s_{x}^{2}}{n}}\right)^{2}}{n-1}}+{\frac {\left({\frac {s_{y}^{2}}{m}}\right)^{2}}{m-1}}}}} .

Ablehnungsbereich H 0 {\displaystyle H_{0}} { t | t > t 1 α ; ν } {\displaystyle \{t|t>t_{1-\alpha ;\nu }\}\,} { t | t < t 1 α / 2 ; ν } {\displaystyle \{t|t<-t_{1-\alpha /2;\nu }\}\,}
oder
{ t | t > t 1 α / 2 ; ν } {\displaystyle \{t|t>t_{1-\alpha /2;\nu }\}\,}
{ t | t < t 1 α ; ν } {\displaystyle \{t|t<-t_{1-\alpha ;\nu }\}\,}

Alternative Tests

Der t-Test wird, wie oben ausgeführt, zum Testen von Hypothesen über Erwartungswerte einer oder zweier Stichproben aus normalverteilten Grundgesamtheiten mit unbekannter Standardabweichung verwendet.

  • Permutationstest, beruht nicht auf der Annahme, dass jede der beiden Gruppen für sich normalverteilt sind
  • Die Annahme, dass jede der beiden Gruppen für sich normalverteilt ist, kann mit dem Shapiro-Wilk-Test oder dem Kolmogorow-Smirnow-Test geprüft werden. Liegt keine Normalverteilung vor, können als Ersatz für den t-Test nichtparametrische Tests angewendet werden, etwa ein Wilcoxon-Mann-Whitney-Test (auch: Wilcoxon-Rangsummentest) für unabhängige Stichproben oder ein Wilcoxon-Vorzeichen-Rang-Test für gepaarte Stichproben. Ein einfach durchführbares alternatives Verfahren zur schnellen Abschätzung ist der Schnelltest nach Tukey.
  • Sollen mehr als zwei normalverteilte Stichproben auf Gleichheit der Erwartungswerte getestet werden, kann eine Varianzanalyse angewendet werden.
  • Bei Mittelwertvergleichen normalverteilter Stichproben mit bekannter Standardabweichung können Gauß-Tests verwendet werden.
  • Rechner für alle Varianten des t-Tests. Berechnet t-Wert, P-Wert und kritische Werte.

Einzelnachweise

  1. Jürgen Bortz: Statistik für Human- und Sozialwissenschaftler. 6. Auflage. Springer, Berlin 2005, ISBN 3-540-21271-X, S. 142.
  2. a b B. L. Welch: The significance of the difference between two means when the population variances are unequal. In: Biometrika. Band 29, 1938, S. 350–362.
  3. Franklin J. Satterthwaite: Synthesis of Variance. In: Psychometrika. Band 6, Heft 5, 1941, S. 309–316.
  4. B. L. Welch: The generalization of ‘Student's’ problem when several different population variances are involved. In: Biometrika. Band 34, Nr. 1-2, 1947, ISSN 0006-3444, S. 28–35, doi:10.1093/biomet/34.1-2.28 (oup.com [abgerufen am 7. November 2021]). 
  5. R.R. Wilcox: Statistics for the Social Sciences. Academic Press Inc, 1996, ISBN 0-12-751540-2. 
  6. D.G. Bonnet, R.M. Price: Statistical inference for a linear function of medians: Confidence intervals, hypothesis testing, and sample size requirements. In: Psychological Methods. Band 7, Nr. 3, 2002, doi:10.1037/1082-989X.7.3.370.