I modelli additivi generalizzati (GAM) forniscono un quadro generale per estendere un modello lineare standard permettendo funzioni non lineari di ciascuna delle variabili, pur mantenendo l’additività. Vediamo cosa significa esattamente,
I modelli lineari sono semplici da descrivere e implementare e hanno un vantaggio su altri approcci in termini di interpretazione e inferenza. Ma hanno dei limiti nel potere di predizione, cioè quanto accuratamente possiamo prevedere l’output. Supponiamo di avere dati che consistono in input di P caratteristiche (X1, X2,….., Xp), e un output Y. Pertanto, il modello lineare corrispondente (noto anche come modello di regressione multi lineare) per prevedere l’output:
Y = β0 + β1X1 + β2X2 +—+ βpXp + Ɛ
dove β0, β1,….βp sono parametri dell’equazione e Ɛ è l’errore irriducibile, al fine di consentire relazioni non lineari tra ogni caratteristica e la risposta (output) è quello di sostituire ogni componente lineare βjXj con una funzione non lineare (liscia) fj(Xj) che corrisponde alla jesima caratteristica. Scriveremmo quindi il modello come
Y = β0 + f1(X1) + f2(X2) + f3(X3) +…..+ fp(Xp)+Ɛ
Questo è un esempio di GAM. È chiamato un modello additivo perché calcoliamo un fj separato per ogni Xj, e poi sommiamo tutti i loro contributi. Ora la domanda è come trovare questa funzione non lineare? Si scopre che ci sono vari metodi, ma noi guarderemo specificamente le Natural Splines per l’esempio qui sotto:
Salario = β0 + f1(anno)+f2(età)+f3(istruzione)+ Ɛ – – – – -(1)
Prima di discutere sulle spline naturali vale la pena notare che la relazione che esiste nei dati del mondo reale è spesso non lineare, e molto spesso molto complessa, cioè, anche una funzione non lineare standard non si rivelerà una buona approssimazione della relazione. Ora, le spline naturali sono polinomi di grado ‘d’ le cui prime derivate ‘d-1’ sono continue con ulteriori vincoli di confine, invece di applicare un polinomio di alto grado sull’intera gamma dello spazio delle caratteristiche, la regressione polinomiale piece-wise comporta l’applicazione di polinomi di basso grado separati, per essere concreti, nell’equazione (1) stiamo prevedendo il salario sulla base di anni, età e istruzione. Qui stiamo adattando indipendentemente le funzioni mantenendo costanti le altre caratteristiche, cioè, la previsione del “salario” sulla base dell'”età” mantenendo costanti “anno” e “istruzione”. Ora sappiamo che man mano che l'”età” aumenta il “salario” aumenta, ma dopo il pensionamento il salario diminuisce, il che significa che fino a una certa “età” la relazione è crescente e dopo la quale è decrescente, quindi, adattiamo un polinomio fino all’età di 60 anni che dà una relazione crescente e poi dopo i 60, un altro polinomio per catturare la relazione decrescente, quindi non ci permette di estrarre in modo flessibile la relazione tra la caratteristica e la risposta. I vincoli (continuità delle derivate) ci impediscono di unire senza problemi questi due polinomi.
Ora tornando ai GAM, qui ‘anno’ ed ‘età’ sono variabili quantitative, e ‘istruzione’ è una variabile qualitativa con cinque livelli: <HS, HS, <Coll, Coll ,>Coll, che si riferisce alla quantità di istruzione superiore o universitaria che un individuo ha completato. Abbiamo adattato le prime due funzioni usando spline naturali. La terza funzione viene adattata utilizzando una costante separata per ogni livello, attraverso l’approccio della variabile dummy (per ogni livello di istruzione creiamo una caratteristica separata con valore binario 0 o 1, per esempio, nel caso in cui la persona abbia la scuola superiore (HS) come istruzione, ‘HS’ sarà 1 e per ogni altra caratteristica dei livelli sarà 0. )
La figura 1 mostra i risultati della fittatura del modello usando i minimi quadrati per prevedere i salari in base agli “anni” mantenendo costanti l’età e l’istruzione. Il salario tende ad aumentare leggermente con l’anno; questo può essere dovuto all’inflazione.