Modelos de aditivos generalizados (GAMs) fornecem uma estrutura geral para estender um modelo linear padrão, permitindo funções não lineares de cada uma das variáveis, enquanto mantém a aditividade. Vamos ver o que exatamente isso significa,
Modelos lineares são simples de descrever e implementar e têm vantagem sobre outras abordagens em termos de interpretação e inferência. Mas eles têm limitações no poder de previsão, ou seja, como podemos prever com precisão o output. Suponha que temos dados que consistem na entrada de recursos P (X1, X2,….., Xp), e um output Y. Portanto, o modelo linear correspondente (também conhecido como modelo de regressão multi linear) para prever o output:
Y = β0 + β1X1 + β2X2 +—+ βpXp + Ɛ
Where β0, β1,….,βp são parâmetros da equação e Ɛ é o erro irredutível , a fim de permitir relações não lineares entre cada característica e a resposta(output) é substituir cada componente linear βjXj por uma função (suave) não linear fj(Xj) que corresponde à característica jth . Escreveríamos então o modelo como
Y = β0 + f1(X1) + f2(X2) + f3(X3) +…..+ fp(Xp)+Ɛ
Este é um exemplo de um GAM. É chamado de modelo aditivo porque calculamos um fj separado para cada Xj, e depois somamos todas as suas contribuições. Agora a questão é como encontrar essa função não-linear? Acontece que existem vários métodos, mas nós estaremos olhando especificamente para os Natural Splines para o exemplo abaixo:
Salário = β0 + f1(ano)+f2(idade)+f3(educação)+ Ɛ – – – – – – – – -(1)
Antes de discutir os splines naturais, vale a pena notar que a relação que existe nos dados do mundo real é frequentemente não linear, e muito tempo muito complexo, ou seja, mesmo uma função não linear padrão não se revelará uma boa aproximação da relação. Agora, as estrias naturais são polinómios de grau “d” por peça, cujos primeiros derivados “d-1” são contínuos com restrições de limite adicionais, em vez de fitting um polinômio de alto grau em todo o espaço de características, a regressão polinomial por peça envolve fitting polinómios de baixo grau separados, para ser concreto, na equação (1) estamos prevendo o salário com base em anos, idade e escolaridade. Agora sabemos como a “idade” aumenta o “salário”, mas depois da reforma o salário diminui, o que significa que até uma certa “idade” a relação está a aumentar e depois da qual está a diminuir, portanto, encaixamos um polinómio até aos 60 anos de idade, o que dá uma relação crescente e depois dos 60, outro polinómio para captar a relação decrescente, pelo que não nos é possível extrair de forma flexível a relação entre a característica e a resposta. As restrições (continuidade das derivadas) não nos permitem juntar de forma suave estes dois polinómios.
Agora voltando aos GAMs, aqui ‘ano’ e ‘idade’ são variáveis quantitativas, e ‘educação’ é uma variável qualitativa com níveis de five: <HS, HS, <Coll, Coll ,>Coll, referindo-se à quantidade de educação secundária ou universitária que um indivíduo completou. Nós fit as duas funções first usando splines naturais. Nós fit a terceira função usando uma constante separada para cada nível, através da abordagem da variável dummy (para cada nível de educação criamos uma característica separada com valor binário 0 ou 1, por exemplo, caso a pessoa tenha o ensino médio (HS) como educação, ‘HS’ será 1 e para cada outra característica de níveis será 0. )
Figure 1 mostra os resultados de fitting o modelo usando mínimos quadrados para prever os salários com base em ‘anos’ mantendo a idade e a educação constantes. O salário tende a aumentar ligeiramente com o ano; isto pode ser devido a inflation.
Figure 2 indica que, mantendo a educação e o ano fixed, o salário tende a ser maior para valores intermediários de idade, e menor para os muito jovens e muito velhos.
Figure 3 indica que, mantendo ano e idade fixed, o salário tende a aumentar com a educação: quanto mais educada uma pessoa é, mais alto o seu salário, em média.
A principal limitação dos GAMs é que o modelo é restrito a ser aditivo. Com muitas variáveis, interações importantes podem ser perdidas.