Metoda najmniejszych kwadratów jest jedną z najważniejszych i najstarszych metod obliczeniowych w statystyce. Metoda ta ma na celu wyznaczenie linii regresji, linii trendu dla zebranych danych. Stosowana jest ona zarówno do oszacowania zależności liniowej jak również nieliniowej, jednakże postać liniowa jest najłatwiejsza do wytłumaczenia i na niej skupimy naszą uwagę.
Metoda najmniejszych kwadratów - przykład
Badacz na podstawie zebranych danych skonstruował za pomocą analizy regresji model regresyjny, w którym wykazał zależność liniową pomiędzy poziomem inteligencji uczniów a ich uzyskiwanymi stopniami z matematyki. Dzięki temu, znając poziom inteligencji danego ucznia, może on przewidywać, prognozować (z pewnym błędem) jego stopnie z matematyki.
Metoda najmniejszych kwadratów (pełna nazwa: metoda najmniejszych kwadratów błędów) ma na celu dopasowanie do zebranych danych, pary wyników (poziom IQ oraz oceny z matematyki) takiej linii prostej (model liniowy), która jest do nich najlepiej dopasowana (obliczeniowo). Popatrzymy na wykres rozrzutu poniżej:
Aby jak najlepiej zrozumieć metodę najmniejszych kwadratów, będziemy pracować na linii, która już została obliczona. Pogrubiona linia prosta jest linią regresji wyprowadzoną metodą najmniejszych kwadratów. Punkty a, b, c, d, e i pozostałe określają zaobserwowane wartości poziomu IQ i ocenę z matematyki u poszczególnych badanych osób. Linia pionowa (cieńsze proste linie) pomiędzy linią regresji a punktem stanowi błąd oszacowania naszego modelu. Nasz model zakłada, że gdy osoba ma IQ około 90 pkt, to jego średnia ocena z matematyki powinna wynosić około 2,8. Jednakże widzimy, że osoby, które mają taki poziom IQ, nie zawsze mają oceny na tym poziomie, raz mają lepsze oceny raz gorsze. Różnica pomiędzy oszacowaną linią regresji a faktycznym wynikiem stanowi błąd oszacowania. Dla pozostałych punktów (obserwacji, osób badanych) również możemy wyliczyć błąd tego oszacowania. Metoda najmniejszych kwadratów wyprowadza taką linię prostą, dla której suma kwadratów tych błędów będzie najniższa. Mówiąc prościej... metoda dopasowuje taką linię do zebranych danych, aby ogólny błąd oszacowania (dla wszystkich danych) był jak najmniejszy. Każda inna linia, o innym nachyleniu, wartości początkowej (punkt przecięcia się z osią Ocena z matematyki), po obliczeniach, dostarczałaby większy błąd oszacowania.
Metoda najmniejszych kwadratów - wzór
Z matematycznego punktu widzenia do wyliczenia współczynników regresji (linii prostej) metodą najmniejszych kwadratów musimy w zbiorze danych obliczyć:
iloczyn pomiędzy wartościami zmiennej zależnej i predyktora: \(X \cdot Y\)
średnią dla zmiennej zależnej: \(\bar{Y}\)
średnią dla predyktora: \(\bar{X}\)
sumę wyników predyktora poniesionych do kwadratu: \(\Sigma X^2\)
\(N\) oznacza liczebność obserwacji
Następnie korzystamy ze wzorów:
współczynnik \(b = \dfrac{\Sigma(X \cdot Y) - N \cdot \bar{X} \cdot \bar{Y}}{\Sigma X^2 - N \cdot \bar{X}^2}\)
współczynnik \(a = \bar{Y} - b \cdot \bar{X}\)
Przy czym linia prosta ma postać: \(Y = bx + a\)
Metoda najmniejszych kwadratów zawsze dostarcza nam takiego rozwiązania, gdzie wielkość sumy kwadratów błędów jest najniższa.
Metoda najmniejszych kwadratów - wątpliwości
Jednakże metoda ta nie jest pozbawiona wad. Otóż metoda najmniejszych kwadratów nie jest odporna na wartości odstające w zbiorze danych. Powodem tego jest fakt, że wartość odstająca "pociąga" za sobą linię regresji. Gdyby nie było wartości odstającej linia byłaby inna, zdecydowanie lepiej dopasowana do wszystkich innych obserwacji, a tak wartość odstająca zmienia kierunek linii i powoduje, że model traci swoją "moc przewidywania" dla pozostałych obserwacji. W takim przypadku w analizie regresji eliminuje się przypadki odstające z bazy danych, aby nie zakłócały one ogólnej postaci linii regresji.
Metoda najmniejszych kwadratów Wasze opinie
gdzie komentarz Kuby?
Aleś Pan namieszał tymi oznaczeniami. Czym było podyktowane przyjęcie takiego zapisu? Zwykle przyjmuje się zapis y=ax+b lub jak przyjęto powszechnie w zapisie wielomianów litera z indeksem i zmienną niezależną ze wzrastającym wykładnikiem .
Wolałabym zamiast słowo "predyktor" coś bardziej łopatologicznego
Wiem, że to tylko oznaczenia, ale z reguły współczynnik kierunkowy oznacza się jako a, wyraz wolny jako b. Wy zrobiliście odwrotnie, może to powodować zakłopotanie ze strony czytelników.