2.3. Badanie zgodności rozkładów empirycznych z rozkładem normalnym za pomocą testu χ2
Badanie wykorzystuje statystykę χ2 (wzór poniżej), która bada różnice pomiędzy ilością obserwacji przypadających na kolejne klasy szeregu rozdzielczego, a teoretyczną ilością obserwacji wynikającą z weryfikacji hipotezy zerowej (np. spodziewaną ilością obserwacji w rozkładzie normalnym).
gdzie:
- Oj - zdarzenia obserwowane [Observed]; (w Tab. 3. wyrażone są ilością elementów próby w poszczególnych przedziałach klasowych (ni)),
- Ej - zdarzenia spodziewane [Expected].
W jednej z wcześniejszych analiz obliczyliśmy szeregi rozdzielcze dla obu badanych zmiennych (Tab. 1.) teraz wykorzystamy je do badania zgodności rozkładów empirycznych obu zmiennych z rozkładem normalnym. W związku z tym, że nie znamy parametrów hipotetycznego rozkładu normalnego badanych prób, musimy więc skorzystać z oszacowań próbkowych.
Hipoteza zerowa (H0) głosić więc będzie, że zmienne X i Y mają rozkłady zgodne z normalnymi o parametrach: N(x̄, s).
Kolejnym krokiem powinno być obliczenie prawdopodobieństw, że nasze zmienne losowe przyjmą wartości z poszczególnych klas szeregu rozdzielczego. W związku z tym, że tablice statystyczne, w których mamy dystrybuantę rozkładu normalnego, zostały obliczone dla parametrów N(0, 1), jesteśmy zmuszeni do zestandaryzowania granic klas szeregu rozdzielczego. Standaryzacji dokonujemy wykorzystując wzór:
Zestandaryzowane górne granice przedziałów klasowych wpisujemy w 4 kolumnie tabeli Tab. 3 (xi max'). Dla uproszczenia przyjmiemy, że dolną granicą pierwszego przedziału klasowego jest -∞, a górną granicą ostatniego przedziału klasowego jest +∞.
| lp | xi max | ni | xi max' | F(xi max') | pi | ei |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | 7 |
| 1 | ||||||
| 2 | ||||||
| ... | ||||||
| Σ | - | n | - | - | 1 |
Z tablicy dystrybuanty rozkładu normalnego odczytujemy wartości F(xi max'), a następnie ze związku:
pi = F(xi max') - F(xi-1 max')obliczamy i wpisujemy do tabeli (kolumna 6) odpowiednie prawdopodobieństwa. Z poniższego wzoru możemy teraz obliczyć oczekiwane ilości elementów w każdej klasie:
ei = n piGdy jedna z klas jest zawiera mniej liczebności oczekiwanych (ei) niż 5, klasę tę należy połączyć z sąsiednią np. poprzednią. Nie pozostaje nic, jak tylko obliczyć wartość statystyki χ2 oraz porównać obliczoną wartość z wartością krytyczną dla założonego wcześniej poziomu istotności - α (najczęściej równego 0.05; - co odpowiada marginesowi popełnienia błędu 5%), i odpowiedniej liczby stopni swobody - df (ang: degres of freedom).
Pierwszy czynnik już mamy (α = 0.05). Co do liczby stopni swobody to z definicji wiadomo, że jest to wartość obliczana ze wzoru:
df = k - p - 1gdzie:
- k - ilość klas wziętych do obliczeń,
- p - ilość parametrów szacowanych z próby (jeżeli badamy zgodność rozkładu z rozkładem normalnym, wtedy rozkład możemy wyestymować z dwóch parametrów: średniej i odchylenia standardowego).
Na koniec pozostaje jedynie obliczenie wartości statystyki χ2. Liczymy różnice pomiędzy empirycznymi liczebnościami elementów w poszczególnych klasach szeregu rozdzielczego oraz liczebnościami teoretycznymi wynikającymi z dystrybuanty rozkładu normalnego. Podnosimy je do kwadratu, po czym po prostu sumujemy wartości otrzymane dla wszystkich przedziałów szeregu rozdzielczego.
Jeżeli obliczona wartość jest większa lub równa wartości krytycznej testu odczytanej z tablic rozkładu χ2 (dla założonego poziomu istotności (α) i odpowiedniej liczby stopni swobody (df)),
... wtedy istnieją podstawy do odrzucenia hipotezy zerowej. Rozkład populacji genralnej badanej cechy ma najprawdopodobniej wyraźne odstępstwa od normalności.
Należy pamiętać, że w związku z tym, że standardowy rozkład normalny N(0, 1) jest symetryczny względem realizacji zmiennej losowej X równej wartości przeciętnej tej zmiennej (m = 0), w tablicach statystycznych przedstawia się wartości dystrybuanty teoretycznej jedynie dla nieujemnych realizacji tej zmiennej. Zgodnie z własnościami dystrybuanty, gdy zmienna losowa przyjmie wartości ujemne, ich dystrybuantę należy obliczyć wg. wzoru:
np.: F(-2) = 1 - F(2)
2.4. Badanie zgodności rozkładów empirycznych z rozkładem normalnym za pomocą testu Kołmogorowa-Smirnowa
Test K-S wykorzystuje statystykę λ, która opiera się na porównaniu dystrybuanty empirycznej (kumulanty) ze stablicowaną dystrybuantą teoretyczną, wynikającą z weryfikowanej hipotezy zerowej H0.
Tak jak w przypadku badania zgodności rozkładu empirycznego z wybranym rozkładem teoretycznym za pomocą testu χ2, tak i tutaj, stawiamy hipotezę zerową (H0):
H0: F(ai') = K(ai') (istnieje zgodność pomiędzy dystrybuantami, a więc i rozkładami: empirycznym i teoretycznym).
W przypadku licznych populacji, do weryfikacji hipotezy zerowej wykorzystuje się rozkład (graniczny) statystyki λ:
gdzie:
(dla zbiorów licznych), a dla licznych populacji próby:
Wypełniamy Tab. 4.
| i | ai [aa] | ai' | ni | K(ai') | F(ai') | |K(ai')-F(ai')| |
|---|---|---|---|---|---|---|
| 1 | ||||||
| 2 | ||||||
| ... | ||||||
| k | 1 | |||||
| Σ | - | - | n | - | - | - |
gdzie:
- i - nr i-tej klasy,
- ai - górna granica i-tej klasy,
- ai' - zestandaryzowana górna granica i-tej klasy,
- ni - liczebność i-tej klasy,
- K(ai') - dystrybuanta rozkładu empirycznego (kumulanta) (wg. wzoru),
- F(ai') - dystrybuanta rozkładu teoretycznego (odczytywana z tablic dystrybuanty rozkładu teoretycznego np. normalnego),
- |K(ai') - F(ai')|- moduł różnic pomiędzy dystrybuantą empiryczną i teoretyczną.
Z tablic rozkładu (granicznego) λ Kołmogorowa odczytujemy wartość krytyczną statystyki λ dla obranego poziomu istotności (λα). Jeżeli spełniony zostaje warunek:
..., wtedy istnieją przesłanki do odrzucenia hipotezy zerowej (H0). Innymi słowy populacja próby nie daje podstaw do stwierdzenia, że populacja generalna charakteryzuje się rozkładem normalnym.