Paradoks Simpsona jest paradoksem statystycznym, który został opisany przez E.H. Simpsona w 1951 roku. Pokazuje on, jak trudne jest wnioskowanie oparte na prawdopodobieństwie warunkowym. Jest to swego rodzaju przypomnienie, jak łatwo wpaść w sieć paradoksalnych wniosków, gdy opieramy się wyłącznie na swojej intuicji, bez ścisłej statystyki.
Paradoks Simpsona odnosi się do zjawiska, w którym związek pomiędzy parą zmiennych (\(X,Y\)) odwraca znak po warunkowaniu trzeciej zmiennej (\(Z\)), niezależnie od przyjętej wartości.
Jeżeli podzielimy dane na subpopulacje, z których każda reprezentować będzie określoną wartość, trzecia zmienna pojawi się jako odwrócenie znaku pomiędzy zmierzonymi powiązaniami w zdezagregowanych subpopulacjach w stosunku do danych zagregowanych, które opisują populację jako całość.
Spójrz na przykład:
Agata i Marta mają do zaliczenia 5 egzaminów. Mają do wyboru rozłożenie egzaminów na dwa dni. Załóżmy, że Agata nie zdała żadnego egzaminu z wszystkich wybranych na dany dzień, natomiast Marta zdała 25% egzaminów. Drugiego dnia, Agata zdała 75% egzaminów przez siebie wybranych a Marta równe 100%. Jak myślisz, która z nich sumarycznie zdała więcej egzaminów?
Odpowiedź wydaje się być oczywista – Marta. Prawda jest jednak taka, że sumarycznie to Agata zdała więcej – aż 60%, podczas gdy Marta tylko 40%.
OSOBA | PIERWSZY DZIEŃ | DRUGI DZIEŃ |
Agata | 0 z 1 | 3 z 4 |
Marta | 1 z 4 | 1 z 1 |
OSOBA | SUMARYCZNIE |
Agata | 3 z 4 |
Marta | 2 z 4 |
Jak widać, paradoks ten potrafi nieźle namieszać w różnych analizach statystycznych. Warto mieć również świadomość, że możemy być za jego pomocą oszukiwani na wiele sposobów.
Paradoks Simpsona Wasze opinie