Eszkola

Paradoks Simpsona

Paradoks Simpsona jest paradoksem statystycznym, który został opisany przez E.H. Simpsona w 1951 roku. Pokazuje on, jak trudne jest wnioskowanie oparte na prawdopodobieństwie warunkowym. Jest to swego rodzaju przypomnienie, jak łatwo wpaść w sieć paradoksalnych wniosków, gdy opieramy się wyłącznie na swojej intuicji, bez ścisłej statystyki.

Paradoks Simpsona odnosi się do zjawiska, w którym związek pomiędzy parą zmiennych (\(X,Y\)) odwraca znak po warunkowaniu trzeciej zmiennej (\(Z\)), niezależnie od przyjętej wartości. 

Jeżeli podzielimy dane na subpopulacje, z których każda reprezentować będzie określoną wartość, trzecia zmienna pojawi się jako odwrócenie znaku pomiędzy zmierzonymi powiązaniami w zdezagregowanych subpopulacjach w stosunku do danych zagregowanych, które opisują populację jako całość.

Spójrz na przykład:

Agata i Marta mają do zaliczenia 5 egzaminów. Mają do wyboru rozłożenie egzaminów na dwa dni. Załóżmy, że Agata nie zdała żadnego egzaminu z wszystkich wybranych na dany dzień, natomiast Marta zdała 25% egzaminów. Drugiego dnia, Agata zdała 75% egzaminów przez siebie wybranych a Marta równe 100%. Jak myślisz, która z nich sumarycznie zdała więcej egzaminów?

Odpowiedź wydaje się być oczywista – Marta. Prawda jest jednak taka, że sumarycznie to Agata zdała więcej – aż 60%, podczas gdy Marta tylko 40%.

OSOBA PIERWSZY DZIEŃ DRUGI DZIEŃ
Agata 0 z 1 3 z 4
Marta 1 z 4 1 z 1

 

OSOBA SUMARYCZNIE
Agata 3 z 4
Marta 2 z 4

 

Jak widać, paradoks ten potrafi nieźle namieszać w różnych analizach statystycznych. Warto mieć również świadomość, że możemy być za jego pomocą oszukiwani na wiele sposobów.

 

Może Ci się przydać: