Badanie zgodności rozkładów z rozkładem normalnym

2.3. Badanie zgodności rozkładów empirycznych z rozkładem normalnym za pomocą testu χ²

Badanie wykorzystuje statystykę χ² (wzór poniżej), która bada różnice pomiędzy ilością obserwacji przypadających na kolejne klasy szeregu rozdzielczego, a teoretyczną ilością obserwacji wynikającą z weryfikacji hipotezy zerowej (np. spodziewaną ilością obserwacji w rozkładzie normalnym).

$$ \begin{equation} \chi ^{2} =\sum _{j=1}^{k}\frac{( O_{j} -E_{j})^{2}}{E_{j}} \end{equation} $$ (1)

gdzie:

O_j - zdarzenia obserwowane [Observed]; (w Tab. 3. wyrażone są ilością elementów próby w poszczególnych przedziałach klasowych (n_i)),
E_j - zdarzenia spodziewane [Expected].

W jednej z wcześniejszych analiz obliczyliśmy szeregi rozdzielcze dla obu badanych zmiennych (Tab. 1.) teraz wykorzystamy je do badania zgodności rozkładów empirycznych obu zmiennych z rozkładem normalnym. W związku z tym, że nie znamy parametrów hipotetycznego rozkładu normalnego badanych prób, musimy więc skorzystać z oszacowań próbkowych.

Hipoteza zerowa (H₀) głosić więc będzie, że zmienne X i Y mają rozkłady zgodne z normalnymi o parametrach: N(x̄, s).

Kolejnym krokiem powinno być obliczenie prawdopodobieństw, że nasze zmienne losowe przyjmą wartości z poszczególnych klas szeregu rozdzielczego. W związku z tym, że tablice statystyczne, w których mamy dystrybuantę rozkładu normalnego, zostały obliczone dla parametrów N(0, 1), jesteśmy zmuszeni do zestandaryzowania granic klas szeregu rozdzielczego. Standaryzacji dokonujemy wykorzystując wzór:

$$ \begin{equation} x_{i}^{\prime } =\frac{( x_{i} -\overline{x})}{s} \end{equation} $$ (2)

Zestandaryzowane górne granice przedziałów klasowych wpisujemy w 4 kolumnie tabeli Tab. 3 (x_{i max}^'). Dla uproszczenia przyjmiemy, że dolną granicą pierwszego przedziału klasowego jest -∞, a górną granicą ostatniego przedziału klasowego jest +∞.

Tab. 3. Test `χ²` zgodności rozkładu zmiennej `X` [aa] z rozkładem normalnym.
`lp`	`x_{i max}`	`n_i`	`x_{i max}^'`	`F(x_{i max}^')`	`p_i`	`e_i`
1	2	3	4	5	6	7
1
2
...
`Σ`	-	`n`	-	-	1

Z tablicy dystrybuanty rozkładu normalnego odczytujemy wartości F(x_{i max}^'), a następnie ze związku:

p_i = F(x_{i max}^') - F(x_{i-1 max}^')

obliczamy i wpisujemy do tabeli (kolumna 6) odpowiednie prawdopodobieństwa. Z poniższego wzoru możemy teraz obliczyć oczekiwane ilości elementów w każdej klasie:

e_i = n p_i

Gdy jedna z klas jest zawiera mniej liczebności oczekiwanych (e_i) niż 5, klasę tę należy połączyć z sąsiednią np. poprzednią. Nie pozostaje nic, jak tylko obliczyć wartość statystyki χ² oraz porównać obliczoną wartość z wartością krytyczną dla założonego wcześniej poziomu istotności - α (najczęściej równego 0.05; - co odpowiada marginesowi popełnienia błędu 5%), i odpowiedniej liczby stopni swobody - df (ang: degres of freedom).

Pierwszy czynnik już mamy (α = 0.05). Co do liczby stopni swobody to z definicji wiadomo, że jest to wartość obliczana ze wzoru:

df = k - p - 1

gdzie:

k - ilość klas wziętych do obliczeń,
p - ilość parametrów szacowanych z próby (jeżeli badamy zgodność rozkładu z rozkładem normalnym, wtedy rozkład możemy wyestymować z dwóch parametrów: średniej i odchylenia standardowego).

Na koniec pozostaje jedynie obliczenie wartości statystyki χ². Liczymy różnice pomiędzy empirycznymi liczebnościami elementów w poszczególnych klasach szeregu rozdzielczego oraz liczebnościami teoretycznymi wynikającymi z dystrybuanty rozkładu normalnego. Podnosimy je do kwadratu, po czym po prostu sumujemy wartości otrzymane dla wszystkich przedziałów szeregu rozdzielczego.

Jeżeli obliczona wartość jest większa lub równa wartości krytycznej testu odczytanej z tablic rozkładu χ² (dla założonego poziomu istotności (α) i odpowiedniej liczby stopni swobody (df)),

$$ \begin{equation} \chi ^{2} \geqq \chi _{\alpha ,\ df}^{2} \end{equation} $$ (3)

... wtedy istnieją podstawy do odrzucenia hipotezy zerowej. Rozkład populacji genralnej badanej cechy ma najprawdopodobniej wyraźne odstępstwa od normalności.

Należy pamiętać, że w związku z tym, że standardowy rozkład normalny N(0, 1) jest symetryczny względem realizacji zmiennej losowej X równej wartości przeciętnej tej zmiennej (m = 0), w tablicach statystycznych przedstawia się wartości dystrybuanty teoretycznej jedynie dla nieujemnych realizacji tej zmiennej. Zgodnie z własnościami dystrybuanty, gdy zmienna losowa przyjmie wartości ujemne, ich dystrybuantę należy obliczyć wg. wzoru:

$$ \begin{equation} F_{( -x_{i})} =F_{( +\infty )} -F_{( x_{i})} \end{equation} $$ (4)

F(-x_i) = 1 - F(x_i)
np.: F(-2) = 1 - F(2)

2.4. Badanie zgodności rozkładów empirycznych z rozkładem normalnym za pomocą testu Kołmogorowa-Smirnowa

Test K-S wykorzystuje statystykę λ, która opiera się na porównaniu dystrybuanty empirycznej (kumulanty) ze stablicowaną dystrybuantą teoretyczną, wynikającą z weryfikowanej hipotezy zerowej H₀.

Tak jak w przypadku badania zgodności rozkładu empirycznego z wybranym rozkładem teoretycznym za pomocą testu χ², tak i tutaj, stawiamy hipotezę zerową (H₀):

H₀: F(a_i') = K(a_i') (istnieje zgodność pomiędzy dystrybuantami, a więc i rozkładami: empirycznym i teoretycznym).

W przypadku licznych populacji, do weryfikacji hipotezy zerowej wykorzystuje się rozkład (graniczny) statystyki λ:

$$ \begin{equation} \lambda =D_{n}\sqrt{n} \end{equation} $$ (5)

gdzie:

$$ \begin{equation} D_{n} =\underset{1< i< n}{max} |K_{( a_{i})} -F_{( a_{i})} | \end{equation} $$ (6)

(dla zbiorów licznych), a dla licznych populacji próby:

$$ \begin{equation} K_{( a_{j})} =\frac{\sum _{i=1}^{j} n_{i}}{n} \end{equation} $$ (7)

Wypełniamy Tab. 4.

Tab. 4. Test `λ` normalności rozkładu zmiennej X [aa].
`i`	`a_i` [aa]	`a_i^'`	`n_i`	`K`(`a_i^'`)	`F`(`a_i^'`)	\|`K`(`a_i^'`)-`F`(`a_i^'`)\|
1
2
...
`k`				1
Σ	-	-	`n`	-	-	-

gdzie:

i - nr i-tej klasy,
a_i - górna granica i-tej klasy,
a_i^' - zestandaryzowana górna granica i-tej klasy,
n_i - liczebność i-tej klasy,
K(a_i^') - dystrybuanta rozkładu empirycznego (kumulanta) (wg. wzoru),
F(a_i^') - dystrybuanta rozkładu teoretycznego (odczytywana z tablic dystrybuanty rozkładu teoretycznego np. normalnego),
|K(a_i^') - F(a_i^')|- moduł różnic pomiędzy dystrybuantą empiryczną i teoretyczną.

Z tablic rozkładu (granicznego) λ Kołmogorowa odczytujemy wartość krytyczną statystyki λ dla obranego poziomu istotności (λ_α). Jeżeli spełniony zostaje warunek:

$$ \begin{equation} \lambda \geqq \lambda _{\alpha } \end{equation} $$ (8)

..., wtedy istnieją przesłanki do odrzucenia hipotezy zerowej (H₀). Innymi słowy populacja próby nie daje podstaw do stwierdzenia, że populacja generalna charakteryzuje się rozkładem normalnym.

1 2 3 4 5 6

Powiązane tematy:

statystyka rozkład normalny test chi2 test KS Kołmogorowa-Smirnowa

2.3. Badanie zgodności rozkładów empirycznych z rozkładem normalnym za pomocą testu χ2

2.4. Badanie zgodności rozkładów empirycznych z rozkładem normalnym za pomocą testu Kołmogorowa-Smirnowa

2.3. Badanie zgodności rozkładów empirycznych z rozkładem normalnym za pomocą testu χ²