Az általánosított additív modellek (GAM) általános keretet biztosítanak a standard lineáris modell kiterjesztésére az egyes változók nemlineáris függvényeinek megengedésével, az additivitás fenntartása mellett. Lássuk, hogy ez pontosan mit jelent,
A lineáris modelleket egyszerű leírni és megvalósítani, és előnyük van más megközelítésekkel szemben az értelmezés és a következtetés szempontjából. De korlátok vannak az előrejelző képességükben, vagyis abban, hogy milyen pontosan tudjuk megjósolni a kimenetet. Tegyük fel, hogy vannak adataink, amelyek P jellemzőből álló bemenetből (X1, X2,….., Xp) és egy Y kimenetből állnak. Ezért a megfelelő lineáris modell (más néven multi lineáris regressziós modell) a kimenet előrejelzésére:
Y = β0 + β1X1 + β2X2 +—+ βpXp + Ɛ
Hol β0, β1,…..,βp az egyenlet paraméterei és Ɛ az irreducibilis hiba , az egyes jellemzők és a válasz(kimenet) közötti nemlineáris kapcsolatok figyelembevétele érdekében minden lineáris βjXj komponenst egy (sima) nemlineáris fj(Xj) függvénnyel kell helyettesíteni, amely a j-edik jellemzőnek felel meg . Ekkor a modellt így írnánk fel:
Y = β0 + f1(X1) + f2(X2) + f3(X3) +…..+ fp(Xp)+Ɛ
Ez egy példa a GAM-ra. Azért nevezzük additív modellnek, mert minden Xj-hez külön fj-t számolunk, majd az összes hozzájárulásukat összeadjuk. Most az a kérdés, hogyan találjuk meg ezt a nemlineáris függvényt? Kiderült, hogy különböző módszerek léteznek, de az alábbi példában kifejezetten a Natural Spline-okat fogjuk megvizsgálni:
Bér = β0 + f1(év)+f2(életkor)+f3(végzettség)+ Ɛ – – – – – – – -(1)
A természetes spline-ok tárgyalása előtt érdemes megjegyezni, hogy a valós adatokban létező összefüggések gyakran nemlineárisak, és sokszor nagyon összetettek, vagyis még egy standard nemlineáris függvény sem fog jó közelítésének bizonyulni a kapcsolatnak. Nos, a természetes spline-ok olyan darabos “d” fokú polinomok, amelyek első “d-1” deriváltjai folytonosak, további határfeltételekkel , Ahelyett, hogy egy magas fokú polinomot fizetnénk a jellemzőtér teljes tartományában, a darabos polinom-regresszió különálló alacsony fokú polinomok fizetését jelenti, hogy konkrétan az (1) egyenletben az évek, az életkor és a végzettség alapján jósoljuk a bért. Itt egymástól függetlenül illesztjük a függvényeket, miközben a többi jellemzőt állandónak tartjuk, azaz a “bér” előrejelzése az “életkor” alapján, az “év” és az “oktatás” állandó, Most már tudjuk, hogy az “életkor” növekedésével a “bérek” nőnek, de a nyugdíjba vonulás után a bérek csökkennek, ami azt jelenti, hogy egy bizonyos “életkorig” a kapcsolat növekszik, és ezután csökken, ezért egy polinomot illesztünk mondjuk 60 éves korig, amely növekvő kapcsolatot ad, majd 60 után egy másik polinomot a csökkenő kapcsolat rögzítésére, így nem képes arra, hogy rugalmasan kivonjuk a jellemző és a válasz közötti kapcsolatot. A korlátozások (a deriváltak folytonossága) nem teszik lehetővé, hogy simán összekapcsoljuk ezt a két polinomot.
Most visszatérve a GAM-okhoz, itt az “év” és az “életkor” mennyiségi változók, az “oktatás” pedig egy minőségi változó, amelynek five szintje van: <HS, HS, <Coll, Coll ,>Coll, az egyén által elvégzett középiskolai vagy főiskolai végzettségre utalva. Az első két függvényt természetes spline-ok segítségével fizetjük. A harmadik függvényt minden egyes szinthez külön konstans segítségével fizetjük, a dummy változós megközelítésen keresztül (minden egyes iskolai végzettségi szinthez létrehozunk egy külön jellemzőt, amelynek bináris értéke 0 vagy 1, például abban az esetben, ha a személynek középiskolai (HS) végzettsége van, a “HS” értéke 1 lesz, a szintek minden más jellemzője pedig 0 lesz. )
Az 1. ábra a modell legkisebb négyzetek segítségével történő fizetésének eredményeit mutatja a bérek előrejelzésére az “évek” alapján, az életkort és az iskolai végzettséget állandó értéken tartva. A bérek tendenciája az évekkel kissé növekszik; ez az inflációnak tudható be.
A 2. ábra azt mutatja, hogy az iskolai végzettséget és az évet figyelembe véve a bér általában a középső életkori értékeknél a legmagasabb, a nagyon fiataloknál és a nagyon időseknél pedig a legalacsonyabb.
A 3. ábra azt mutatja, hogy az évet és az életkort figyelembe tartva a bér az iskolai végzettséggel általában nő: minél iskolázottabb egy személy, annál magasabb a fizetése átlagosan.
A GAM-ok fő korlátja, hogy a modell csak additív lehet. Sok változó esetén fontos kölcsönhatások maradhatnak ki.