Strona korzysta z plików cookies w celu realizacji usług i zgodnie z polityką plików cookies.
Możesz określić warunki przechowywania lub dostępu do plików cookies w Twojej przeglądarce.

Metoda najmniejszych kwadratów

Metoda najmniejszych kwadratów jest jedną z najważniejszych i najstarszych metod obliczeniowych w statystyce. Metoda ta ma na celu wyznaczenie linii regresji, linii trendu dla zebranych danych. Stosowana jest ona zarówno do oszacowania zależności liniowej jak również nieliniowej, jednakże postać liniowa jest najłatwiejsza do wytłumaczenia i na niej skupimy naszą uwagę. Posłużmy się przykładem: 

Badacz na podstawie zebranych danych skonstruował za pomocą analizy regresji model regresyjny, w którym

wykazał zależność liniową pomiędzy poziomem inteligencji uczniów a ich uzyskiwanymi stopniami z matematyki. Dzięki temu, znając poziom inteligencji danego ucznia może on przewidywać, prognozować (z pewnym błędem) jego stopnie z matematyki. 

Metoda najmniejszych kwadratów (pełna nazwa: metoda najmniejszych kwadratów błędów) ma na celu dopasowanie do zebranych danych, pary wyników (poziom IQ oraz oceny z matematyki) takiej linii prostej (model liniowy), która jest do nich najlepiej dopasowana (obliczeniowo). Popatrzymy na wykres rozrzutu poniżej 

wykres regresji

Aby jak najlepiej zrozumieć metodę najmniejszych kwadratów będziemy pracować na linii, która już została obliczona. Pogrubiona linia prosta jest linią regresji wyprowadzoną metodą najmniejszych kwadratów. Punkty a, b, c, d, e i pozostałe określają zaobserwowane wartości poziomu IQ i ocenę z matematyki u poszczególnych badanych osób. Linia pionowa (cieńsze proste linie) pomiędzy linią regresji a punktem stanowi błąd oszacowania naszego modelu. Nasz model zakłada, że gdy osoba ma IQ około 90 pkt to jego średnia ocena z matematyki powinna wynosić około 2,8. Jednakże widzimy, że osoby, które mają taki poziom IQ nie zawsze mają oceny na tym poziomie, raz mają lepsze oceny raz gorsze. Różnica pomiędzy oszacowaną linią regresji a faktycznym wynikiem stanowi błąd oszacowania. Dla pozostałych punktów (obserwacji, osób badanych) również możemy wyliczyć błąd tego oszacowania. Metoda najmniejszych kwadratów wyprowadza taką linię prostą, dla której suma kwadratów tych błędów będzie najniższa. Mówiąc prościej... metoda dopasowuje taką linię do zebranych danych, aby ogólny błąd oszacowania (dla wszystkich danych) był jak najmniejszy. Każda inna linia, o innym nachyleniu, wartości początkowej (punkt przecięcia
się z osią Ocena z matematyki), po obliczeniach, dostarczałaby większy błąd oszacowania. 



Masz problem z analizą statystyczna? Przejdź TU! 


Z matematycznego punktu widzenia do wyliczenia współczynników regresji (linii prostej) metodą najmniejszych kwadratów musimy w zbiorze danych obliczyć: 


iloczyn pomiędzy wartościami zmiennej zależnej i predyktora: \(X \cdot Y\)
średnią dla zmiennej zależnej: \(\bar{Y}\)
średnią dla predyktora: \(\bar{X}\)
sumę wyników predyktora poniesionych do kwadratu: \(\Sigma X^2\)
\(N\) oznacza liczebność obserwacji 

Następnie korzystamy ze wzorów: 

współczynnik \(b = \dfrac{\Sigma(X \cdot Y) - N \cdot \bar{X} \cdot \bar{Y}}{\Sigma X^2 - N \cdot \bar{X}^2}\)

współczynnik \(a = \bar{Y} - b \cdot \bar{X}\)

Przy czym linia prosta ma postać: \(Y = bx + a\) 

Metoda najmniejszych kwadratów zawsze dostarcza nam takiego rozwiązania, gdzie wielkość sumy kwadratów błędów jest najniższa. 


Jednakże metoda ta nie jest pozbawiona wad. Otóż metoda najmniejszych kwadratów nie jest odporna na wartości odstające w zbiorze danych. Powodem tego jest fakt, że wartość odstająca "pociąga" za sobą linię regresji. Gdyby nie było wartości odstającej linia byłaby inna, zdecydowanie lepiej dopasowana do wszystkich innych obserwacji, a tak wartość odstająca zmienia kierunek linii i powoduje, że model traci swoją "moc przewidywania" dla pozostałych obserwacji. W takim przypadku w analizie regresji eliminuje się przypadki odstające z bazy danych, aby nie zakłócały one ogólnej postaci linii regresji.