Wzór na korelację rho-Spearmana - klasyczna postać
Aby obliczyć współczynnik korelacji rho-Spearmana należy na wstępie porangować obserwacje dla jednej i drugiej zmiennej.
Wzór na korelację rho-Spearmana ma postać - orginalna postać, wykorzystywany przez programy statystyczne:
\(rho(x,y) = \dfrac{cov(R_x,R_y)}{\sigma_{R_x} * \sigma_{R_y}}\)
przy czym
\(cov(R_x,R_y) = E(R_x * R_y) - (E(R_x) *E(R_y))\)
gdzie:
\(rho(x,y)\) - współczynnik korelacji rho-Spearmana pomiędzy zmiennymi x i y
\(R_x\) - porangowane wartości zmiennej X
\(R_y\) - porangowane wartości zmiennej Y
\(cov(R_x,R_y)\) - kowariancja pomiędzy zmiennymi Rx i Ry
\(\sigma\) - odchylenie standardowe z populacji
\(E\) - wartość oczekiwana
Różnica pomiędzy klasycznym współczynnikiem korelacji r-Pearsona polega na tym, że w korelacji rho-Spearmana korelację obliczamy z porangowanych obserwacji, a w korelacji r-Pearsona obliczamy z surowych wyników. Powyższy wzór jest najczęściej wykorzystywany przez uznane programy statystyczne, jednakże w Internecie bardzo często można spotkać inną postać wzoru, mianowicie:
Wzór na korelację rho-Spearmana wykorzystujący różnicę rang
Przykład obliczenia współczynnika korelacji r-Pearsona:
Chcąc zbadać związek (korelację rho-Pearsona) pomiędzy parą zmiennych musimy każdej obserwacji przyporządkować wyniki na obu zmiennych oraz porangować obserwacje oddzielnie dla jednej i drugiej zmiennej. Przykład dotyczy badania związku pomiędzy poziomem wykształcenia a liczbą posiadanych dzieci u 8 badanych osób.
Tabela. Wyniki badania wraz z rangowaniem
Osoba | Wykształcenie | Ranga | Liczba dzieci | Ranga |
1 | podstawowe | 1,5 | dwoje | 6 |
2 | średnie | 4,5 | brak | 1,5 |
3 | średnie | 4,5 | dwoje | 6 |
4 | podstawowe | 1,5 | troje | 8 |
5 | wyższe | 7,5 | brak | 1,5 |
6 | średnie | 4,5 | jedno | 3,5 |
7 | średnie | 4,5 | dwoje | 6 |
8 | wyższe | 7,5 | jedno | 3,5 |
Tabela. Wyliczenie kowariancji dla dwóch zmiennych porangowanych
Osoba | Wykształcenie | Liczba dzieci | Iloczyn |
1 | 1,5 | 6 | 9 |
2 | 4,5 | 1,5 | 6,75 |
3 | 4,5 | 6 | 27 |
4 | 1,5 | 8 | 12 |
5 | 7,5 | 1,5 | 11,25 |
6 | 4,5 | 3,5 | 15,75 |
7 | 4,5 | 6 | 27 |
8 | 7,5 | 3,5 | 26,25 |
Wartość oczekiwana \(E\) liczymy jak średnią | 4,5 | 4,5 | 16,875 |
Następnie obliczamy iloczyn wartości oczekiwanych dwóch zmiennych (NIE! wartość oczekiwaną iloczynów - to już mamy w tabeli)
4,5 * 4,5 = 20,25
Kowariancja = 16,875 - 20,25 = -3,375 - \(cox(X,Y)\)
Następnie musimy obliczyć odchylenie standardowe dla jednej i drugiej zmiennej (korzystając ze wzoru na odchylenie standardowe z populacji, bez korekty - 1).
Odchylenie standardowe dla rang wykształcenia = 2,121
Odchylenie standardowe dla rang liczby posiadanych dzieci = 2,208
Iloczyn odchyleń standardowych = 2,121 * 2,208 = 4,684
Na końcu dzielimy wynik kowariancji przez iloczyn odchyleń standardowych
= -3,375 / 4,684 = -0,721 - \(rho(x,y)\)
Istotność uzyskanego współczynnika możemy określić korzystając z tablic - Tablica rozkładu istotności współczynnika korelacji
Liczba stopni swobody w naszym przykładzie wynosi: 8 - 2 = 4, czyli liczba obserwacji minus 2.
Wzór na korelację rho-Spearmana - jak stosować w praktyce?