Kesäk. 25, 2020 – 4 min luettu
Yleistetyt additiiviset mallit (Generalized Additive Models, GAM) tarjoavat yleiset puitteet, joiden avulla voidaan laajentaa tavallista lineaarista mallia sallimalla epälineaariset funktiot kullekin muuttujalle säilyttäen samalla additiivisuus. Katsotaanpa, mitä se tarkalleen ottaen tarkoittaa,
Lineaariset mallit ovat yksinkertaisia kuvata ja toteuttaa, ja niillä on etulyöntiasema muihin lähestymistapoihin nähden tulkinnan ja päättelyn kannalta. Mutta niillä on rajoituksia ennustuskyvyssä eli siinä, kuinka tarkasti voimme ennustaa tuotoksen. Oletetaan, että meillä on dataa, joka koostuu syötteenä P piirteestä (X1, X2,….., Xp), ja tuotos Y. Siksi vastaava lineaarinen malli (tunnetaan myös nimellä multi lineaarinen regressiomalli) ennustamaan tuotosta:
Y = β0 + β1X1 + β2X2 +—+ βpXp + Ɛ
Jossa β0, β1,….,βp ovat yhtälön parametreja ja Ɛ on redusoimaton virhe , jotta voidaan ottaa huomioon epälineaariset suhteet kunkin ominaisuuden ja vasteen (ulostulon) välillä on korvata jokainen lineaarinen komponentti βjXj (sileällä) epälineaarisella funktiolla fj(Xj), joka vastaa j:ää ominaisuutta . Tällöin kirjoitamme mallin seuraavasti
Y = β0 + f1(X1) + f2(X2) + f3(X3) +…..+ fp(Xp)+Ɛ
Tämä on esimerkki GAM:sta. Sitä kutsutaan additiiviseksi malliksi, koska laskemme jokaiselle Xj:lle erillisen fj:n ja sitten laskemme yhteen kaikki niiden osuudet. Nyt kysymys on, miten tämä epälineaarinen funktio löydetään? Kävi ilmi, että on olemassa erilaisia menetelmiä, mutta tarkastelemme erityisesti Natural Splinesia alla olevassa esimerkissä:
Palkka = β0 + f1(vuosi)+f2(ikä)+f3(koulutus)+ Ɛ – – – – – – – -(1)
Ennen keskustelua luonnollisista splineista on syytä huomioida, että reaalimaailman datassa esiintyvät suhteet ovat usein epälineaarisia ja usein hyvin monimutkaisia, eli edes tavallinen epälineaarinen funktio ei osoittautuisi hyväksi approksimaatioksi suhteesta. Luonnolliset splinit ovat d-asteisia polynomeja, joiden ensimmäiset d-1-derivaatat ovat jatkuvia ja joilla on ylimääräisiä reunaehtoja , Sen sijaan, että fitteroitaisiin korkea-asteinen polynomi koko piirreavaruuden alueelle, kappalepolynomiregressiossa fitteroitaisiin erillisiä matala-asteisia polynomeja, esimerkiksi yhtälössä (1) ennustetaan palkkaa vuosiluvun, iän ja koulutustason perusteella. Tässä sovitamme itsenäisesti funktioita pitäen muut ominaisuudet vakioina, eli ennustamme ”palkkaa” ”iän” perusteella pitäen ”vuotta” ja ”koulutusta” vakioina, Nyt tiedämme, että ”iän” kasvaessa ”palkat” kasvavat, mutta eläkkeelle siirtymisen jälkeen palkat laskevat, mikä tarkoittaa, että tiettyyn ”ikään” asti suhde on kasvava ja sen jälkeen laskeva, joten sovitamme polynomin vaikkapa 60 ikävuoteen asti, joka antaa kasvavan suhteen, ja sitten 60 ikävuoden jälkeen toisen polynomin, joka kaappaa vähenevän suhteen, joten se ei pysty joustavasti poimimaan ominaisuuden ja vastauksen välistä yhteyttä. Rajoitukset (derivaattojen jatkuvuus) estävät meitä yhdistämästä sujuvasti näitä kahta polynomia.
Palaamme nyt GAM:iin, tässä ’vuosi’ ja ’ikä’ ovat kvantitatiivisia muuttujia, ja ’koulutus’ on kvalitatiivinen muuttuja, jolla on viisi tasoa: <HS, HS, <Coll, Coll ,>Coll, jotka viittaavat yksilön suorittaman lukio- tai yliopistokoulutuksen määrään. Kaksi ensimmäistä funktiota fitteroidaan käyttämällä luonnollisia splineja. Kolmatta funktiota fikaamme käyttämällä erillistä vakiota kullekin tasolle dummy-muuttujaa käyttäen (jokaiselle koulutustasolle luomme erillisen ominaisuuden, jonka binääriarvo on 0 tai 1, esimerkiksi jos henkilöllä on lukio (HS) koulutuksena, ’HS’ on 1 ja kaikkien muiden tasojen ominaisuuden arvo on 0). )
Kuviossa 1 esitetään tulokset, jotka saadaan fittaamalla mallia pienimmän neliösumman avulla palkkojen ennustamiseksi ”vuosien” perusteella pitämällä ikä ja koulutus vakioina. Palkka pyrkii hieman nousemaan vuoden myötä; tämä voi johtua inflaatiosta.
Kuviosta 2 käy ilmi, että kun koulutus ja vuosi pidetään fikseinä, palkka on yleensä korkein iän keskimmäisillä arvoilla ja matalin hyvin nuorilla ja hyvin vanhoilla.
Kuvio 3 osoittaa, että pitäen vuoden ja iän fikseinä palkka pyrkii kasvamaan koulutuksen myötä: mitä koulutetumpi henkilö on, sitä korkeampi hänen palkkansa keskimäärin on.
GAM-mallien tärkein rajoitus on se, että malli on rajoitettu additiiviseksi. Kun muuttujia on paljon, tärkeitä vuorovaikutussuhteita voi jäädä huomaamatta.