Generalized additive models (GAMs) zapewniają ogólne ramy dla rozszerzenia standardowego modelu liniowego poprzez dopuszczenie nieliniowych funkcji każdej ze zmiennych, przy jednoczesnym zachowaniu addytywności. Zobaczmy, co to dokładnie oznacza,
Modele liniowe są proste w opisie i implementacji oraz mają przewagę nad innymi podejściami w zakresie interpretacji i wnioskowania. Ale mają ograniczenia w mocy predykcyjnej, to znaczy, jak dokładnie możemy przewidzieć dane wyjściowe. Załóżmy, że mamy dane, które składają się z wejścia P cech (X1, X2,….., Xp) i wyjścia Y. Dlatego odpowiedni model liniowy (znany również jako model regresji wieloliniowej) do przewidywania wyjścia:
Y = β0 + β1X1 + β2X2 +—+ βpXp + Ɛ
Gdzie β0, β1,….βp są parametrami równania, a Ɛ jest błędem nieredukowalnym. Aby umożliwić nieliniowe zależności między każdą cechą a odpowiedzią (wyjściem), należy zastąpić każdy składnik liniowy βjXj (gładką) funkcją nieliniową fj(Xj), która odpowiada j-tej cesze. Zapisalibyśmy wtedy model jako
Y = β0 + f1(X1) + f2(X2) + f3(X3) +…..+ fp(Xp)+Ɛ
Jest to przykład GAM. Nazywa się go modelem addytywnym, ponieważ obliczamy oddzielne fj dla każdego Xj, a następnie sumujemy wszystkie ich wkłady. Teraz pytanie brzmi, jak znaleźć tę nieliniową funkcję? Okazuje się, że istnieją różne metody, ale my w szczególności będziemy patrzeć na Natural Splines dla poniższego przykładu:
Wage = β0 + f1(rok)+f2(wiek)+f3(wykształcenie)+ Ɛ – – – – – -(1)
Przed dyskusją na temat splajnów naturalnych warto zauważyć, że zależności, które występują w danych ze świata rzeczywistego są często nieliniowe, a wiele razy bardzo złożone, czyli nawet standardowa funkcja nieliniowa nie okaże się dobrym przybliżeniem zależności. Obecnie splajny naturalne są wielomianami cząstkowymi stopnia „d”, których pierwsze pochodne „d-1” są ciągłe z dodatkowymi ograniczeniami brzegowymi, Zamiast fitowania wielomianu wysokiego stopnia w całym zakresie przestrzeni cech, regresja wielomianowa cząstkowa polega na fitowaniu oddzielnych wielomianów niskiego stopnia, aby być konkretnym, w równaniu (1) przewidujemy płacę na podstawie lat, wieku i wykształcenia. Teraz wiemy, jak „wiek” wzrasta „płace” wzrasta, ale po przejściu na emeryturę płace spadają, co oznacza, że do pewnego „wieku” związek jest rosnący, a następnie maleje, dlatego dopasowujemy wielomian do powiedzmy wieku 60 lat, który daje rosnący związek, a następnie po 60 roku życia, inny wielomian, aby uchwycić malejący związek, więc nie jest w stanie być elastycznie wyodrębnić związek między cechą a odpowiedzią. Ograniczenia (ciągłość pochodnych) nie są w stanie płynnie połączyć tych dwóch wielomianów.
Teraz wracając do GAMs, tutaj „rok” i „wiek” są zmiennymi ilościowymi, a „edukacja” jest zmienną jakościową z five poziomami: <HS, HS, <Coll, Coll ,>Coll, odnoszącą się do ilości ukończonych przez jednostkę szkół średnich lub wyższych. Dwie pierwsze funkcje fitrujemy za pomocą naturalnych splajnów. Trzecią funkcję fitrujemy przy użyciu osobnej stałej dla każdego poziomu, poprzez podejście zmiennej dummy (dla każdego poziomu wykształcenia tworzymy osobną cechę o wartości binarnej 0 lub 1, np. w przypadku, gdy osoba ma wykształcenie średnie (HS), „HS” będzie równe 1, a dla każdej innej cechy poziomów będzie równe 0. )
Rysunek 1 przedstawia wyniki fittingu modelu wykorzystującego najmniejsze kwadraty do przewidywania płac na podstawie „lat” przy zachowaniu stałego wieku i wykształcenia. Płaca ma tendencję do nieznacznego wzrostu wraz z rokiem; może to wynikać z inflacji.
Rysunek 2 wskazuje, że przy stałym poziomie wykształcenia i roku, płaca jest najwyższa dla pośrednich wartości wieku, a najniższa dla osób bardzo młodych i bardzo starych.
Rysunek 3 wskazuje, że przy stałym roku i wieku, wynagrodzenie ma tendencję do wzrostu wraz z wykształceniem: im bardziej wykształcona jest osoba, tym wyższe jest jej wynagrodzenie, średnio.
Głównym ograniczeniem GAM jest to, że model jest ograniczony do addytywności. Przy wielu zmiennych, ważne interakcje mogą zostać przeoczone.
.