Generaliserede additive modeller (GAM’er) giver en generel ramme for udvidelse af en standard lineær model ved at tillade ikke-lineære funktioner af hver af variablerne, samtidig med at additivitet opretholdes. Lad os se, hvad det præcist betyder,
Lineære modeller er enkle at beskrive og implementere og har en fordel i forhold til andre tilgange med hensyn til fortolkning og inferens. Men de har begrænsninger med hensyn til forudsigelseskraft, dvs. hvor nøjagtigt vi kan forudsige output. Lad os antage, at vi har data, som består af input af P funktioner (X1, X2,….., Xp), og et output Y. Derfor er den tilsvarende lineære model (også kendt som multilineær regressionsmodel) til at forudsige output:
Y = β0 + β1X1 + β2X2 +—+ βpXp + Ɛ
Hvor β0, β1,….,βp er ligningens parametre, og Ɛ er den irreducerbare fejl , er det for at tage højde for ikke-lineære sammenhænge mellem hver enkelt egenskab og responsen (output) at erstatte hver lineær komponent βjXj med en (glat) ikke-lineær funktion fj(Xj), der svarer til den j-te egenskab . Vi vil så skrive modellen som
Y = β0 + f1(X1) + f2(X2) + f3(X3) +…..+ fp(Xp)+Ɛ
Dette er et eksempel på en GAM. Den kaldes en additiv model, fordi vi beregner en separat fj for hver Xj og derefter lægger alle deres bidrag sammen. Spørgsmålet er nu, hvordan man finder denne ikke-lineære funktion? Det viser sig, at der findes forskellige metoder, men vi vil specifikt se på Natural Splines for nedenstående eksempel:
Løn = β0 + f1(år)+f2(alder)+f3(uddannelse)+ Ɛ – – – – – – – – -(1)
Forinden diskussionen om naturlige splines er det værd at bemærke, at den relation, der findes i data fra den virkelige verden, ofte er ikke-lineær, og meget ofte meget kompleks, dvs. at selv en standard ikke-lineær funktion ikke vil vise sig at være en god tilnærmelse af relationen. Nu er naturlige splines stykvise polynomier af grad “d”, hvis første “d-1” afledte er kontinuerte med yderligere grænsebegrænsninger , I stedet for at fittere et polynomium af høj grad over hele funktionsområdet, indebærer stykvis polynomialregression fittere separate polynomier af lav grad, for at være konkret, i ligningen (1) forudsiger vi løn på grundlag af år, alder og uddannelse. Her tilpasser vi uafhængigt funktionerne og holder andre funktioner konstante, dvs. forudsigelse af “løn” på grundlag af “alder”, idet vi holder “år” og “uddannelse” konstante. Nu ved vi, at når “alderen” stiger, stiger “lønnen”, men efter pensionering falder lønnen, dvs. op til en vis “alder” er forholdet stigende, hvorefter det er faldende, og derfor tilpasser vi et polynomium indtil f.eks. alder 60, som giver et stigende forhold, og derefter, efter 60, et andet polynomium for at indfange et faldende forhold, så det giver os mulighed for fleksibelt at udtrække forholdet mellem funktionen og svaret. Begrænsningerne (kontinuitet af derivater) gør det umuligt for os at forbinde disse to polynomier på en smidig måde.
Nu vender vi tilbage til GAM’erne, her er “år” og “alder” kvantitative variabler, og “uddannelse” er en kvalitativ variabel med five niveauer: <HS, HS, <Coll, Coll ,>Coll, der henviser til, hvor meget en person har afsluttet en high school- eller collegeuddannelse. Vi fit de firste to funktioner ved hjælp af naturlige splines. Vi fit den tredje funktion ved hjælp af en separat konstant for hvert niveau via dummy-variabelmetoden (for hvert uddannelsesniveau skaber vi en separat funktion med binær værdi 0 eller 1, f.eks. hvis en person har high school (HS) som uddannelse, vil “HS” være 1, og for alle andre funktioner af niveauer vil den være 0. )
Figur 1 viser resultaterne af figurering af modellen ved hjælp af mindste kvadrater til at forudsige lønnen på grundlag af “år”, idet alder og uddannelse holdes konstant. Lønnen har en tendens til at stige en smule med årene; dette kan skyldes inflation.
Figur 2 viser, at hvis uddannelse og år fixeres, er der en tendens til, at lønnen er højest for mellemliggende aldersværdier og lavest for de meget unge og de meget gamle.
Figur 3 viser, at hvis man holder år og alder fixeret, har lønnen tendens til at stige med uddannelse: jo mere uddannet en person er, jo højere lønnen er i gennemsnit.
Den største begrænsning ved GAM’er er, at modellen er begrænset til at være additiv. Med mange variabler kan vigtige interaktioner blive overset.