Generaliserade additiva modeller (GAM) är ett allmänt ramverk för att utöka en linjär standardmodell genom att tillåta icke-linjära funktioner för var och en av variablerna, samtidigt som additiviteten bibehålls. Låt oss se vad exakt det innebär,
Linjära modeller är enkla att beskriva och genomföra och har fördelar jämfört med andra tillvägagångssätt när det gäller tolkning och inferens. Men de har begränsningar när det gäller förutsägelseförmåga, det vill säga hur exakt vi kan förutsäga resultatet. Anta att vi har data som består av en inmatning av P egenskaper (X1, X2,….., Xp) och en utdata Y. Därför kan motsvarande linjära modell (även kallad multilinjär regressionsmodell) för att förutsäga utdata:
Y = β0 + β1X1 + β2X2 +—+ βpXp + Ɛ
Varvid β0, β1,….,βp är ekvationens parametrar och Ɛ är det irreducerbara felet , för att möjliggöra icke-linjära förhållanden mellan varje egenskap och svaret (utdata) ersätts varje linjär komponent βjXj med en (jämn) icke-linjär funktion fj(Xj) som motsvarar den j:e egenskapen . Vi skulle då skriva modellen som
Y = β0 + f1(X1) + f2(X2) + f3(X3) +…..+ fp(Xp)+Ɛ
Detta är ett exempel på en GAM. Den kallas en additiv modell eftersom vi beräknar en separat fj för varje Xj och sedan adderar alla deras bidrag. Nu är frågan hur man hittar denna icke-linjära funktion? Det visar sig att det finns olika metoder, men vi kommer specifikt att titta på Natural Splines för nedanstående exempel:
Lön = β0 + f1(år)+f2(ålder)+f3(utbildning)+ Ɛ – – – – – – – -(1)
För att diskutera naturliga splines är det värt att notera att förhållandet som existerar i data från den verkliga världen ofta är icke-linjärt, och många gånger mycket komplext, det vill säga att inte ens en icke-linjär standardfunktion kommer att visa sig vara en bra approximation av förhållandet. Naturliga splines är styckevis polynom av grad ”d” vars första ”d-1”-derivat är kontinuerliga med ytterligare gränsbegränsningar , I stället för att fitta ett höggradigt polynom över hela funktionsområdet innebär styckevis polynomregression att man fittar separata polynom av låg grad, för att vara konkret: I ekvationen (1) förutsäger vi lönen på grundval av antal år, ålder och utbildning. Här anpassar vi funktionerna oberoende av varandra och håller andra egenskaper konstanta, dvs. vi förutsäger ”lön” på grundval av ”ålder” och håller ”år” och ”utbildning” konstanta. Nu vet vi att när ”åldern” ökar så ökar ”lönen”, men efter pensioneringen sjunker lönen, det vill säga upp till en viss ”ålder” är förhållandet ökande och därefter minskar det, därför anpassar vi ett polynom fram till till till exempel 60 års ålder, vilket ger ett ökande förhållande, och efter 60 års ålder ett annat polynom för att fånga upp det minskande förhållandet, så att det gör det möjligt för oss att på ett flexibelt sätt utvinna förhållandet mellan egenskaperna och svaret. Begränsningarna (kontinuitet av derivat) gör att vi inte smidigt kan sammanfoga dessa två polynom.
Nu återkommer vi till GAM, här är ”år” och ”ålder” kvantitativa variabler och ”utbildning” är en kvalitativ variabel med five nivåer: <HS, HS, <Coll, Coll ,>Coll, som avser hur mycket gymnasie- eller högskoleutbildning en individ har genomgått. Vi fit de firsta två funktionerna med hjälp av naturliga splines. Vi finansierar den tredje funktionen med hjälp av en separat konstant för varje nivå, via dummyvariabelmetoden (för varje utbildningsnivå skapar vi en separat funktion med det binära värdet 0 eller 1, t.ex. om en person har high school (HS) som utbildning kommer ”HS” att vara 1 och för varje annan funktion av nivåerna kommer den att vara 0. )
Figur 1 visar resultaten av fittning av modellen med hjälp av minsta kvadratmetoden för att förutsäga löner på grundval av ”år” med konstant ålder och utbildning. Lönen tenderar att öka något med året; detta kan bero på inflation.
Figur 2 visar att om utbildning och år fixeras tenderar lönen att vara högst för mellanliggande åldersvärden och lägst för mycket unga och mycket gamla.
Figur 3 visar att om man håller år och ålder fixerade tenderar lönen att öka med utbildning: ju mer utbildad en person är, desto högre är i genomsnitt lönen.
Den största begränsningen med GAM är att modellen är begränsad till att vara additiv. Med många variabler kan viktiga interaktioner missas.