Generalized Additive Model (GAMs) は、加法性を維持しながら、各変数の非線形関数を許容して標準線形モデルを拡張する一般的なフレームワークを提供します。 それが具体的に何を意味するのか見てみましょう。
線形モデルは記述と実装が簡単で、解釈と推論の面で他のアプローチよりも有利です。 しかし、予測力、つまり出力をどれだけ正確に予測できるかという点では限界があります。 P個の特徴量(X1, X2,…, Xp)を入力とし、出力Yを予測する線形モデル(重回帰モデルともいう)
Y = β0 + β1X1 + β2X2 +—+ βpXp + Ɛ Where β0, β1,…….βpは方程式のパラメータ、Ɛは既約誤差である。各特徴と応答(出力)の間の非線形関係を許容するためには、各線形成分βjXjをj番目の特徴に対応する(滑らかな)非線形関数fj(Xj)に置き換えることである。 Y = β0 + f1(X1) + f2(X2) + f3(X3) +…+ fp(Xp)+Ɛ
これがGAMの一例である。 各Xjに対して別々のfjを計算し、それらの寄与をすべて足し合わせるので、加法モデルと呼ばれます。 さて、問題はこの非線形関数をどのように求めるかです。 いろいろな方法がありますが、ここでは特に自然スプラインを例に見ていきます。
Wage = β0 + f1(year)+f2(age)+f3(education)+ Ɛ – – – -(1)
自然スプラインの議論の前に、現実のデータに存在する関係はしばしば非線形で、多くの場合非常に複雑で、つまり標準の非線形関数でさえ関係の良い近似とは言えないことに注目する必要があります。 さて、自然スプラインは、1次’d-1’導関数が連続であり、境界制約が付加されたpiece-wise degree ‘d’ polynomialsであり、特徴空間全体にわたって高次の多項式をあてはめるのではなく、piece-wise polynomial regressionでは別々の低次の多項式をあてはめることになる。 つまり、「年齢」によって「賃金」を予測し、「年」と「学歴」は一定とします。「年齢」が上昇すると「賃金」は上昇しますが、退職後は低下します。つまり、ある「年齢」までは上昇、それ以降は下降の関係があるので、60歳までは上昇関係を与える多項式をあてはめ、それ以降は下降関係をとらえる多項式をあてはめ、柔軟に特徴と反応の関係を抽出することができるのです。
ここでGAMに戻ると、「年」と「年齢」は量的変数で、「学歴」は5段階の質的変数である。 <HS, HS, <Coll, Coll ,>Collの5段階の質的変数で、高校や大学の教育課程を修了していることを意味する。 最初の2つの関数は、自然スプラインを用いて調整する。 3つ目の関数は、ダミー変数の手法により、各レベルに個別の定数を用いて計算する(教育レベルごとに0か1のバイナリ値で個別の特徴を作成する、例えば、教育として高校(HS)を持っている場合、「HS」は1、その他のレベルの特徴については0となる。 )
図1は、年齢と学歴を一定にして、「年」単位で賃金を予測する最小二乗法を用いてモデルを構築した結果を示しています。 これは、インフレーションによるものであると考えられる。
図2は、学歴と年を固定した場合、賃金は年齢の中間値で最も高く、超若年者と超高齢者で最も低くなる傾向があることを示している。
図3は、年と年齢を固定にすると、賃金は学歴とともに増加する傾向があることを示している。 多くの変数がある場合、重要な相互作用が見落とされる可能性がある。