Jednoczynnikowa analiza wariancji
Tomasz Bartuś
Termin analiza wariancji w dość mylny sposób określa zestaw metod statystycznych służących do porównania różnic pomiędzy średnimi w wydzielonych w czasie badań grupach. Grupy są jednocześnie dyskretnymi poziomami jakiegoś (być może oddziałującego na populację) czynnika (np. litologii, stratygrafii itp.). Jeżeli można wyróżnić większą ilość czynników, mówi się wtedy o klasyfikacji podwójnej, potrójnej, wielokrotnej. Celem analizy wariancji jest udzielenie odpowiedzi na pytanie, czy wartości badanej przez nas cechy odzwierciedlają wpływ czyników, czy też kształtują się niezależnie od nich (Krawczyk & Słomka, 1982). W literaturze i programach komputerowych analiza wariancji nazywana jest w skrócie analizą ANOVA.
Tab. 1. Wyniki analiz węgli brunatnych:
nr próby |
litologia węgla |
wartość opałowa (Qir [kcal/kg]) (li) |
pokład węgla |
1. | ksylitowy | 2230 | 1 |
2. | detrytowy | 1850 | 2 |
3. | ksylitowy | 1400 | 2 |
4. | bitumiczny | 1850 | 2 |
5. | ksylitowo-detrytowy | 1755 | 3 |
6. | humusowy | 1500 | 1 |
7 | bitumiczny | 958 | 3 |
Interpretacja tabeli:
ilość prób: 7;
ilość czynników: 2 (1. litologia węgla, 2. nr pokładu węgla, z którego pobrano próbkę);
ilość poziomów (grup) czynnika 1: 5 (węgiel: ksylitowy, detrytowy, bitumiczny, ksylitowo - detrytowy, humusowy);
ilość poziomów (grup) czynnika 2: 3 (1, 2 lub 3 pokład węgla);
zmienne niezależne: litologia węgla, pokład węgla;
zmienna zależna: wartość opałowa;
W związku z koniecznością wyodrębnienia porównywanych grup zaistniała konieczność zdefiniowania zmiennych niezależnych (tzw. zmiennych grupujących) i zmiennej zależnej, która podczas badań będzie porównywana w grupach. O analizie wariancji należy myśleć jak o analizie różnic pomiędzy średnimi, choć do ich porównywania nie używa się samych średnich, lecz raczej kilku szacowań różnych wariancji.
ZM. ZALEŻNA |
badany parametr |
ZM. NIEZALEŻNA |
np. płeć, podobszar badań itp. |
Analizę wariancji stosuje się do porównania średnich w 3 lub większej ilości grup. Do porównania średnich w dwóch grupach można jej oczywiście używać, ale wyniki są dokładnie takie jak w przypadku zastosowania znacznie prostszego, testu t-Studenta (służącego do weryfikacji hipotezy zerowej o równości średnich w dwóch populacjach).
Hipoteza zerowa H0 w analizie wariancji głosi, że średnie w porównywanych grupach (populacjach) są równe. Jest to równoważne twierdzeniu o braku wpływu zmiennej niezależnej (np. litologii) na zmienną zależną (np. zawartość minerału A w skale)
W analizie wariancji wykorzystuje się test F Snedecora. Ma on postać ilorazu dwóch niezależnie oszacowanych wariancji. W liczniku F umieszczamy tzw. wariancję międzygrupową, na której maksymalizacji nam zależy. Jest to zróżnicowanie wyników zmiennej zależnej wyjaśniane przez wpływ zmiennej nieależnej. W mianowniku znajduje się tzw. wariancja wewnątrzgrupowa czyli ważona średnia wariancji w poszczególnych grupach. Nazywana jest często wariancją błędu. Wielkość tej wariancji chcielibyśmy z kolei minimalizować, ponieważ jest to ta część całkowitej wariancji zmiennej zależnej, której nie jesteśmy w stanie wyjaśnić efektem wpływu zmiennej niezależnej.
F = wariancja międzygrupowa / wariancja wewnątrzgrupowa