Eszkola

Założenia analizy regresji liniowej - opis

Przydatne kalkulatory i narzędzia

Założenia analizy regresji liniowej

Analiza regresji liniowej, zarówno model prosty (z jednym predyktorem) jak i model wieloraki (z kilkoma predyktorami) ma następujące założenia:


1) mamy do czynienia z zależnością liniową

Aby móc zastosować analizę regresji liniowej powinien występować liniowa zależność, związek pomiędzy predyktorami (zmiennymi wyjaśniającymi) a zmienną zależną (zmienną wyjaśnianą). Założenia to jest sprawdzane poprzez analizę wykresu rozrzutu / rozrzutów pomiędzy predyktorami a zmienną zależną wraz z analizą współczynnika korelacji pomiędzy nimi. W praktyce, jeżeli nieliniowość, występowanie zależności innej niż liniowa nie jest oczywista (teoretycznie) bądź gdy jest nie jest ona widoczna na wykresie rozrzutu przyjmowana jest postać liniowa zależności pomiędzy zmiennymi. Innymi słowy, jeżeli teoretycznie bądź empirycznie nie obserwujemy występowania nieliniowej zależności pomiędzy zmiennymi przyjmujemy zależność liniową.

2) liczba obserwacji musi być większa bądź równa liczbie parametrów wyprowadzonych z analizy regresji (współczynniki dla predyktorów, wyraz wolny)

Warunek ten jest niezbędny do wyliczenia współczynników regresji. Jednakże zachodzi tendencja, że im mamy więcej obserwacji tym mamy większą precyzję oszacowania parametrów. W praktyce zakłada się, że powinno być co najmniej 15, 20 obserwacji na jedną zmienną w modelu regresji. Zatem dla prostej analizy regresji z jednym predykoterem pożądana minimalna liczebność próby wynosi 30, 40 obserwacji.

3) wariancja reszt, składnika losowego jest taka sama dla wszystkich obserwacji - homoscedastyczność

Założenie to nazywane jest występowanie Homoscedastyczności, czyli występowania stałej wariancji reszt dla poszczególnych wartości zmiennej niezależnej. Oznacza to, że dla poszczególnych wartości / przedziałów wartości przewidywujących rozproszenie błędów (wielkość rozproszenia) jest podobne. Gdy nie są podobne występuje Heteroscedastyczność, która wpływa na obniżenie się precyzji oszacowania. 


4) nie występuje autokorelacja reszt, składnika losowego

Niezależność błędów obserwacji, czyli fakt, czy występujące reszty w predykcji zmiennej zależnej są ze sobą skorelowane. Dobrze dopasowane modele regresji zakładają, że otrzymywane reszty - błędy przewidywania rzeczywistej wartości zmiennej zależnej na podstawie utworzonego przez nas modelu regresji - są niezależne od siebie, innymi słowy, rozkład ich jest losowy, przypadkowy, bez stale występującego wzorca. Założenie to możemy oszacować za pomocą np: testu Durina-Watsona.

5) reszty mają rozkład zbliżony do rozkładu normalnego

Analiza regresji zakłada, że zaobserwowane reszty dla danego modelu regresji mają rozkład zbliżony do rozkładu normalnego. Założenie to związane jest z analizą istotności współczynników analizy regresji - statystyki te zakładają, że reszty, składnik losowy ma rozkład zbliżony do rozkładu normalnego \(N(0, \sigma)\). W praktyce jednak analiza regresji jest dość odporna na "niewielkie" odstępstwo od tego założenia. Normalność rozkładu reszt możemy oszacować korzystając z testów normalności, takich jak: test Shapiro-Wilka, test Kołmogorowa-Smirnowa.


6) brak współliniowości predyktorów - regresja wieloraka, wielokrotna

Żaden z predyktorów, zmiennych niezależnych nie jest kombinacją innych predyktorów wprowadzonych do modelu. W praktyce jednak odradza się wprowadzanie zmiennych, predyktorów, które są ze sobą silnie skorelowane, istnieje związek o dużej silne pomiędzy predyktorami. Istotą tego założenia jest dostarczenie jednoznacznego rozwiązania w analizie regresji. Wprowadzając do modelu regresji silnie skorelowane ze sobą zmienne wprowadzamy do modelu (przy każdej zmiennej) małą bądź zerową unikalną "część wyjaśnienia" zmiennej zależnej. W zależności od sposobu liczenia jeden z predyktorów silnie powiązanych straci swoją "moc" przewidywania zmiennej zależnej na rzecz innego predyktora, z racji występowania silnego związku pomiędzy nimi. W przypadku regresji prostej (z jednym predyktorem) założenie to nie występuje (z oczywistych względów) - Współliniowość zmiennych objaśniających

7) analiza regresji nie powinna być ekstrapolowana

Wyliczony model regresji, który został opracowany dla danego zakresu danych nie powinien być ekstrapolowany na dane spoza zakresu, na którym został zbudowany, z racji, że nie znany jest charakter zależności pomiędzy predyktorami i zmienną zależną spoza zakresu. Innymi słowy, jeżeli nasz model został opracowany dla pewnego zakresu to na innym zakresie danych (spoza pierwotnego) nie powinno się stosować tego samego modelu regresji... Szerszy opis problemu

 

 

Założenia analizy regresji liniowej Wasze opinie

9+3 =