Eszkola

Brak danych w bazie. Pomoc z metodologii badań.

Brak danych

Badacze, analitycy często spotykają się w swoich badaniach, analizach z problemem braku danych w bazach, które zgromadzili w przeprowadzonych badaniach. Pojawienie się braków danych często powoduje "strach" przed przystąpieniem do analizy wyników. Czy potrzebnie? Najczęściej nie. Należy zdać sobie sprawę z tego, że występowanie braków danych w badaniach jest naturalnym zjawiskiem w badaniach, w których oczekujemy udzielenia odpowiedzi na zestaw pytań przez nasze badane osoby. Co więcej, brak danych stanowi często ważną informację analityczną, którą niektórzy badacze potrafią wykorzystać, w celu postawienia ciekawych, nie założonych wniosków z badania. 

Dla przykładu:
 
Badacz zadał w anonimowej ankiecie następujące pytanie: "Czy jest Pan/Pani osobą homoseksualną?" albo "Czy wierzy Pan/Pani w Boga?". Brak danych w uzyskanych odpowiedziach na te pytania może stanowić samo w sobie ciekawą informację. W pierwszy przypadku procentowy udział osób, które nie odpowiedziały na te pytanie może wskazywać na liczbę osób ze skłonnościami homoseksualnymi, które nie chcą "przyznać" się do nich bądź, które nie są pewne czy ich skłonności są homoseksualne czy heteroseksualne. W drugim pytaniu brak danych może wskazywać na procentowy udział osób, które mają wątpliwości co do istnienia Boga (choć nie są prawdziwymi ateistami). Jak zatem zostało pokazane, brak danych może stanowić bogate źródło wiedzy na temat badanego zjawiska. Na zasadzie "brak informacji to także informacja". Jedną z dziedzin naukowych, gdzie najczęściej wykorzystuje się "wiedzę" pochodzącą z braków danych jest socjologia. 

Co więcej, brak braków danych w bazie, zwłaszcza, gdy przebadanych została duża liczba osób i charakter badania polegał na udzielaniu odpowiedzi na zestaw pytań (ankieta badawcza) może budzić podejrzenia co do wiarygodności przeprowadzonego badania. Z naszej praktyki wynika, że prawie w każdym tego typu badaniu występują braki danych, jak napisaliśmy wyżej, jest to naturalne dla tego typu badań. Część osób nie chce odpowiadać na wszystkie pytania, niektóre mogą być przez nieliczne osoby niezrozumiałe, niektóre osoby spieszą się i celowo opuszczają trudne pytania a czasem pytanie ma charakter "zbyt osobisty" dla badanych osób. Tak więc brak braków danych może paradoksalnie świadczyć o tym, że nieuczciwy badacz "uzupełnił" braki danych. Oczywiście nie jest to reguła.

Czy brak danych stanowi problem w analizie wyników badań? Zależy co i jak będziemy analizować. Jeżeli przedstawiamy po prostu sposób odpowiadania przez badane osoby na zadane pytanie warto jest przedstawić w raporcie również brak danych dla tego pytania. Jak napisaliśmy wyżej, może być to źródłem ciekawych informacji. Gdy porównujemy jakieś grupy ze sobą to brak danych również nie musi stanowić problemów, po prostu zmniejsza nam się liczba porównywanych osób w grupach. Na przykład: jeżeli porównujemy kobiety do mężczyzn pod względem wieku, przebadaliśmy 40 mężczyzn i 40 kobiet, ale 3 mężczyzn i 5 kobiet nie podało swojego wieku to w analizie danych będziemy porównywać 37 mężczyzn do 35 kobiet. Przy czym nie stanowi to błędu metodologicznego, po prostu bazujemy wtedy na trochę mniejszej próbie osób. 


Oddzielny wątek stanowi występowanie braków danych w analizach opartych na analizie związku pomiędzy zmiennymi, np. analiza korelacji, analiza regresji. Powodem pojawiających się problemów analitycznych jest fakt, że w relacjach między zmiennymi brak danych dla jednej zmiennej powoduje, brak danych dla innych zmiennych. W przypadku tych analiz, przypadki (obserwacje) analizowane są parami, więc brak wyniku na jednej zmiennej powoduje automatyczny brak danych na drugiej zmiennej. W przypadku, gdy mamy dużą liczbę braków danych na różnych zmiennych dla różnych osób w stosunku do liczby przebadanych osób (obserwacji) eliminacja obserwacji może spowodować, że do analizy włączymy niewielką liczbę "pełnych" obserwacji z naszego badania. Istnieją jednak analityczne sposoby, aby temu zapobiec. Analitycy mogą nie wyłączać obserwacji parami, lecz przypadkami, co oznacza, że eliminujemy obserwacji z całego badania, lecz tylko ze zmiennej, gdzie ten brak danych wystąpił. Innym sposobem poradzenia sobie z brakiem danych jest zastępowanie ich innymi wartościami, np. średnią, medianą dla analizowanej zmiennej. Może również użyć zmiennych typu: średnia najbliższych sąsiadów, wynik najniższy, najwyższy. Sposób uzupełnienia uzależniony jest tutaj od jakości danych, to na czym "pracujemy".

Należy jednak starać się, jeżeli to możliwe, nie uzupełniać na siłę braków danych, ponieważ jest to zawsze nie zgodna z prawdą informacja. Stosuje się te uzupełnianie, gdy nie ma innej możliwości, jednakże jeżeli ona istnieje, należy starać się analizować te dane, które zostały faktycznie zgromadzone 

Podsumowując, braki danych w większości przypadków (gdy nie stanowią znacznej części obserwacji) nie stanowią problemu metodologicznego / statystycznego lecz mogą być źródłem ciekawych wniosków badawczych. 

Brak danych Wasze opinie

7-4 =