Modelurile aditive generalizate (GAM) oferă un cadru general pentru extinderea unui model liniar standard prin permiterea unor funcții neliniare ale fiecăreia dintre variabile, menținând în același timp aditivitatea. Să vedem ce înseamnă asta mai exact,
Modelurile liniare sunt simplu de descris și implementat și au un avantaj față de alte abordări în ceea ce privește interpretarea și inferența. Dar ele au limitări în ceea ce privește puterea de predicție, adică cât de precis putem prezice rezultatul. Să presupunem că avem date care constau într-o intrare de P caracteristici (X1, X2,….., Xp) și o ieșire Y. Prin urmare, modelul liniar corespunzător (cunoscut și ca model de regresie liniară multiplă) pentru a prezice ieșirea:
Y = β0 + β1X1 + β2X2 +—+ βpXp + Ɛ
Unde β0, β1,….,βp sunt parametrii ecuației, iar Ɛ este eroarea ireductibilă , pentru a permite relații neliniare între fiecare caracteristică și răspuns(ieșire) este de a înlocui fiecare componentă liniară βjXj cu o funcție neliniară (netedă) fj(Xj) care corespunde celei de-a j-a caracteristici . În acest caz, vom scrie modelul ca
Y = β0 + f1(X1) + f2(X2) + f3(X3) +…..+ fp(Xp)+Ɛ
Acesta este un exemplu de GAM. Se numește model aditiv deoarece calculăm un fj separat pentru fiecare Xj și apoi adunăm toate contribuțiile lor. Acum întrebarea este cum să găsim această funcție neliniară? Se pare că există mai multe metode, dar în exemplul de mai jos vom folosi în special Natural Splines:
Salariu = β0 + f1(an)+f2(vârstă)+f3(educație)+ Ɛ – – – – – – – – – -(1)
Înainte de a discuta despre splines naturale, merită menționat faptul că relația care există în datele din lumea reală este adesea neliniară și, de multe ori, foarte complexă, adică nici măcar o funcție neliniară standard nu se va dovedi a fi o bună aproximare a relației. Acum, spline-urile naturale sunt polinoame de grad „d” pe bucăți ale căror prime derivate „d-1” sunt continue cu constrângeri de limită suplimentare , În loc să fittingem un polinom de grad înalt pe întreaga gamă a spațiului de caracteristici, regresia polinomială pe bucăți implică fittingerea unor polinoame separate de grad mic, pentru a fi concret, în ecuația (1) prezicem salariul pe baza anilor, a vârstei și a educației. Acum știm că, pe măsură ce „vârsta” crește, „salariul” crește, dar după pensionare salariul scade, ceea ce înseamnă că până la o anumită „vârstă” relația este crescătoare, iar după aceea este descrescătoare. Prin urmare, potrivim un polinom până la vârsta de 60 de ani, de exemplu, care oferă o relație crescătoare, iar după 60 de ani, un alt polinom pentru a surprinde relația descrescătoare, ceea ce ne permite să extragem în mod flexibil relația dintre caracteristică și răspuns. Constrângerile (continuitatea derivatelor) nu ne permit să unim fără probleme aceste două polinoame.
Acum revenind la GAM, aici „anul” și „vârsta” sunt variabile cantitative, iar „educația” este o variabilă calitativă cu fiecare nivel: <HS, HS, <Coll, Coll ,>Coll, referindu-se la numărul de studii liceale sau universitare pe care un individ le-a absolvit. Am fixat primele două funcții folosind spline naturale. Noi finalizăm cea de-a treia funcție folosind o constantă separată pentru fiecare nivel, prin intermediul abordării variabilei fictive (pentru fiecare nivel de educație creăm o caracteristică separată cu valoare binară 0 sau 1, de exemplu, în cazul în care persoana are ca educație liceul (HS), „HS” va fi 1, iar pentru fiecare altă caracteristică a nivelurilor va fi 0. )
Figura 1 prezintă rezultatele figura 1 prezintă rezultatele fizării modelului cu ajutorul celor mai mici pătrate pentru a prezice salariile pe baza „anilor”, menținând vârsta și educația constante. Salariul tinde să crească ușor odată cu anul; acest lucru se poate datora inflației.
Figura 2 indică faptul că, ținând fiecare educație și an fixate, salariul tinde să fie cel mai mare pentru valorile intermediare ale vârstei și cel mai mic pentru cei foarte tineri și foarte bătrâni.
Figura 3 indică faptul că, menținând anul și vârsta fixate, salariul tinde să crească odată cu educația: cu cât o persoană este mai educată, cu atât salariul său este mai mare, în medie.
Principala limitare a GAM-urilor este că modelul este restricționat să fie aditiv. Cu multe variabile, interacțiunile importante pot fi ratate.
.