Generalizované aditivní modely (GAM) poskytují obecný rámec pro rozšíření standardního lineárního modelu o nelineární funkce každé z proměnných při zachování aditivity. Podívejme se, co to přesně znamená,
Lineární modely jsou jednoduché na popis a implementaci a mají výhodu oproti jiným přístupům z hlediska interpretace a inference. Mají však omezení v predikční síle, tj. v tom, jak přesně můžeme předpovědět výstup. Předpokládejme, že máme data, která se skládají ze vstupu P prvků (X1, X2,….., Xp), a výstupu Y. Proto odpovídající lineární model (známý také jako multilineární regresní model) pro předpověď výstupu:
Y = β0 + β1X1 + β2X2 +—+ βpXp + Ɛ
Kde β0, β1,….,βp jsou parametry rovnice a Ɛ je neredukovatelná chyba , aby se umožnily nelineární vztahy mezi jednotlivými funkcemi a odezvou(výstupem), je nahradit každou lineární složku βjXj (hladkou) nelineární funkcí fj(Xj), která odpovídá j-té funkci . Model bychom pak zapsali jako
Y = β0 + f1(X1) + f2(X2) + f3(X3) +…..+ fp(Xp)+Ɛ
Toto je příklad GAM. Nazývá se aditivní model, protože pro každé Xj vypočítáme samostatné fj a pak sečteme všechny jejich příspěvky. Nyní se nabízí otázka, jak tuto nelineární funkci najít? Ukázalo se, že existují různé metody, ale my se budeme konkrétně zabývat přirozenými splajny pro následující příklad:
Mzda = β0 + f1(rok)+f2(věk)+f3(vzdělání)+ Ɛ – – – – – – -(1)
Před diskusí o přirozených splinech je třeba poznamenat, že vztah, který existuje v datech reálného světa, je často nelineární a mnohokrát velmi složitý, to znamená, že ani standardní nelineární funkce se neukáže jako dobrá aproximace vztahu. Nyní jsou přirozené splajny kusové polynomy stupně „d“, jejichž první derivace stupně „d-1“ jsou spojité s dalšími hraničními omezeními , Namísto filtrování polynomu vysokého stupně v celém rozsahu prostoru funkcí zahrnuje kusová polynomiální regrese filtrování samostatných polynomů nízkého stupně, abychom byli konkrétní, v rovnici (1) předpovídáme mzdu na základě let, věku a vzdělání. Víme, že s rostoucím „věkem“ roste „mzda“, ale po odchodu do důchodu mzda klesá, to znamená, že do určitého „věku“ je vztah rostoucí a poté klesá, proto do věku řekněme 60 let dosazujeme polynom, který dává rostoucí vztah, a po 60 letech další polynom, který zachycuje klesající vztah, takže nám to umožňuje pružně extrahovat vztah mezi funkcí a odpovědí. Omezení (spojitost derivací) nám neumožňuje tyto dva polynomy hladce spojit.
Nyní se vrátíme ke GAM, zde jsou „rok“ a „věk“ kvantitativní proměnné a „vzdělání“ je kvalitativní proměnná s five úrovněmi: <HS, HS, <Coll, Coll ,>Coll, které se vztahují k výši středoškolského nebo vysokoškolského vzdělání, které jedinec absolvoval. První dvě funkce filtrujeme pomocí přirozených splajnů. Třetí funkci filtrujeme pomocí samostatné konstanty pro každou úroveň, a to prostřednictvím přístupu dummy proměnné (pro každou úroveň vzdělání vytvoříme samostatnou funkci s binární hodnotou 0 nebo 1, například v případě, že osoba má jako vzdělání střední školu (SŠ), bude mít ‚HS‘ hodnotu 1 a pro každou další funkci úrovní bude mít hodnotu 0. V případě, že osoba má jako vzdělání střední školu (SŠ), bude mít ‚HS‘ hodnotu 1. )
Obrázek 1 ukazuje výsledky filtrování modelu pomocí nejmenších čtverců pro předpověď mezd na základě „let“ při zachování konstantního věku a vzdělání. Mzda má tendenci mírně růst s rokem; to může být způsobeno inflací.
Z obrázku 2 vyplývá, že při zachování vzdělání a roku fixace má mzda tendenci být nejvyšší u středních hodnot věku a nejnižší u velmi mladých a velmi starých osob.
Obrázek 3 ukazuje, že při zachování fixního roku a věku má mzda tendenci růst se vzděláním: čím je osoba vzdělanější, tím je její mzda v průměru vyšší.
Hlavním omezením GAM je, že model je omezen na aditivní. U mnoha proměnných může dojít k přehlédnutí důležitých interakcí.