Generaliseerde additieve modellen (GAM’s) bieden een algemeen kader om een standaard lineair model uit te breiden door niet-lineaire functies van elk van de variabelen toe te laten, met behoud van de additiviteit. Laten we eens kijken wat dat precies betekent,
Lineaire modellen zijn eenvoudig te beschrijven en te implementeren en hebben voordelen ten opzichte van andere benaderingen in termen van interpretatie en gevolgtrekking. Maar zij hebben beperkingen in voorspellend vermogen, dat wil zeggen, hoe nauwkeurig wij de output kunnen voorspellen. Stel dat we gegevens hebben die bestaan uit input van P kenmerken (X1, X2,….., Xp), en een output Y. Daarom is het overeenkomstige lineaire model (ook bekend als multilineair regressiemodel) om de output te voorspellen:
Y = β0 + β1X1 + β2X2 +—+ βpXp + Ɛ
Waarbij β0, β1,…., βp parameters van de vergelijking zijn en Ɛ de onherleidbare fout is , om niet-lineaire verbanden tussen elk kenmerk en de respons (output) mogelijk te maken, moet elke lineaire component βjXj worden vervangen door een (gladde) niet-lineaire functie fj(Xj) die overeenkomt met het j-de kenmerk . We zouden het model dan schrijven als
Y = β0 + f1(X1) + f2(X2) + f3(X3) +…..+ fp(Xp)+Ɛ
Dit is een voorbeeld van een GAM. Het wordt een additief model genoemd omdat we voor elke Xj een aparte fj berekenen, en dan al hun bijdragen bij elkaar optellen. De vraag is nu hoe we deze niet-lineaire functie vinden? Er blijken verschillende methoden te bestaan, maar wij zullen in het bijzonder kijken naar Natural Splines voor het onderstaande voorbeeld:
Loon = β0 + f1(jaar)+f2(leeftijd)+f3(opleiding)+ Ɛ – – – – -(1)
Voordat we ingaan op natuurlijke splines is het goed om op te merken dat de relatie die in reële wereldgegevens bestaat vaak niet-lineair is, en vaak zeer complex, dat wil zeggen dat zelfs een standaard niet-lineaire functie geen goede benadering van de relatie zal blijken te zijn. Nu zijn natuurlijke splines stuk-wijs graad “d” polynomen waarvan de eerste “d-1” afgeleiden continu zijn met extra grensbeperkingen , In plaats van een polynoom van hoge graad over het gehele bereik van de kenmerkruimte te fitsen, houdt stuk-wijs polynoomregressie het fitten van afzonderlijke polynomen van lage graad in, om concreet te zijn, in de vergelijking (1) voorspellen we loon op basis van jaren, leeftijd en opleiding. Hier passen wij onafhankelijk van elkaar de functies aan en houden wij de andere kenmerken constant, dat wil zeggen, voorspellen wij het loon op basis van de leeftijd en houden wij het jaar en de opleiding constant. Wij weten dat naarmate de leeftijd toeneemt het loon stijgt, maar na de pensionering daalt het loon, dat wil zeggen tot een bepaalde leeftijd neemt de relatie toe en daarna neemt zij af. Daarom passen wij een polynoom tot bijvoorbeeld de leeftijd van 60 jaar die een stijgende relatie geeft en na 60 jaar een andere polynoom om de dalende relatie vast te leggen, zodat wij niet in staat zijn op flexibele wijze de relatie tussen het kenmerk en de respons te extraheren. Door de beperkingen (continuïteit van de afgeleiden) kunnen we deze twee polynomen niet soepel samenvoegen.
Nu terugkomend op GAM’s, hier zijn ‘jaar’ en ‘leeftijd’ kwantitatieve variabelen, en ‘opleiding’ is een kwalitatieve variabele met five niveaus: <HS, HS, <Coll, Coll, >Coll, die verwijzen naar de middelbare school- of universitaire opleiding die een individu heeft voltooid. We fitsen de eerste twee functies met natuurlijke splines. We fitsen de derde functie met een afzonderlijke constante voor elk niveau, via de dummy-variabele-benadering (voor elk onderwijsniveau creëren we een afzonderlijk kenmerk met binaire waarde 0 of 1, bijvoorbeeld, in het geval dat iemand de middelbare school (HS) als opleiding heeft, zal ‘HS’ 1 zijn en voor elk ander kenmerk van niveaus zal het 0 zijn. )
Figuur 1 toont de resultaten van de aanpassing van het model met behulp van kleinste kwadraten om de lonen op basis van “jaren” te voorspellen, waarbij leeftijd en opleiding constant worden gehouden. Het loon neigt licht toe te nemen met het jaar; dit kan te wijten zijn aan inflatie.
Figuur 2 geeft aan dat bij gelijkblijvende opleiding en jaar, het loon het hoogst is voor de gemiddelde leeftijd, en het laagst voor de zeer jongeren en de zeer ouderen.
Figuur 3 geeft aan dat bij gelijkblijvend jaar en leeftijd het loon de neiging heeft toe te nemen met de opleiding: hoe hoger iemand is opgeleid, hoe hoger zijn loon gemiddeld is.
De belangrijkste beperking van GAM’s is dat het model beperkt is tot additieven. Met veel variabelen kunnen belangrijke interacties worden gemist.