multivariate-causal-analysis-2023
大きさがの(無作為)標本について、個の変数を測定、調査または観察して、記録したデータを定型データという。
# | ⋯ | ||
---|---|---|---|
1 | ⋯ | ||
2 | ⋯ | ||
︙ | ︙ | ⋱ | ︙ |
n | ⋯ |
添字が複数あるとき、自然に区別できる場合は特に区切りは挟まないが、例えばに掛け算と、またにまたはの可能性があるなど、意味が曖昧になる場合にコンマ「,」で区切ることがある。
この表の分析には、変数の間の関係を分析と、対象の間の関係を分析の、二つの方向がある。前者を列間の関係の分析、後者を行間の関係の分析と区別する。
大きさがの標本について、複数の時点において、同じく個の変数を測定して記録したデータは、3次元の表になる。
⋯ | |||
---|---|---|---|
1 | ⋯ | ||
2 | ⋯ | ||
︙ | ︙ | ⋱ | ︙ |
n | ⋯ |
時点を上添字で記すこともある。
⋯ | |||
---|---|---|---|
1 | ⋯ | ||
2 | ⋯ | ||
︙ | ︙ | ⋱ | ︙ |
n | ⋯ |
上のの表のデータの、列間の関係を分析する場合を説明する。
個の変数の間に、原因と結果のような関係があるとする。原因を表す変数が個、結果を表す変数が個あるとする。
である。結果を表す変数を、と表記する。
# | ⋯ | ⋯ | ||||
---|---|---|---|---|---|---|
1 | ⋯ | ⋯ | ||||
2 | ⋯ | ⋯ | ||||
︙ | ︙ | ⋱ | ︙ | ︙ | ⋱ | ︙ |
n | ⋯ | ⋯ |
ノードと矢線で関係を表す有向グラフを用いてこの関係を描くと、次の図のようになる。
このとき、を内生変数、目的変数、あるいはアウトカム変数などと呼ぶ。JMPでは予測変数と表記される。
回帰分析、ロジスティック回帰分析、生存時間回帰分析、ポアソン回帰分析などがこれに相当する。決定木や回帰木、それらのアンサンブル学習もこれに相当する。
個の変数の間に、原因と結果のような関係なく、すべてが対象に関する測定、調査、観察、質問などの記録とする。このときとして と表記する。
# | ⋯ | ||
---|---|---|---|
1 | ⋯ | ||
2 | ⋯ | ||
︙ | ︙ | ⋱ | ︙ |
n | ⋯ |
ノードと線で関係を表す無向グラフを用いてこの関係を描くと、次の図のようになる。変数の間には因果の方向がないので、線に鏃をつけない。
相関分析や共分散選択がこれに相当する。
モデルや手法を用いてデータを分析する際に、個の変数を、それよりは次元の小さい個の合成変数に縮約することがある。
は、合成されなかった余りの成分である。
主成分分析は、これに相当する。
モデルや手法を用いてデータを分析する際に、観測されない個の変数を考えることがある。
直交回転を用いる因子分析は、これに相当する。
潜在変数同士に相関関係を考えることもある。この場合、潜在変数同士の関係を表す線には鏃をつけない。
斜交回転を用いる因子分析や構造方程式モデリングが、これに相当する。
クラスタ分析、クラスタリング。
k平均法。
順序尺度または名義尺度のデータのクラスタリング
連続尺度のデータのクラスタリング。
予測したい連続尺度の変数が個、予測に用いる任意の尺度の変数が個、大きさがnの無作為標本の定型データ
# | Y | X1 | ⋯ | Xp |
---|---|---|---|---|
1 | Y1 | X11 | ⋯ | X1p |
2 | Y2 | X21 | ⋯ | X2p |
︙ | ︙ | ︙ | ⋱ | ︙ |
n | Yn | Xn1 | ⋯ | Xnp |
について、予測変数を説明変数で説明もしくは予測しようとする問題を、回帰問題という。
このデータを例に話を進める。
このデータにおいて、次のモデル図で表される問題は中間試験の点数のみから、総合点を予測する問題になる。
このデータにおいて、次の問題は中間試験と期末試験の点数が、総合点にどのような影響を与えているかを分析する問題になる。
両者の違いは「アウトカムの変数が測定される時点よりも、予測に用いる変数が先に測定されているか、ほぼ同時か」にあります。「アウトカムの変数が入手可能となる時点よりも、予測に用いる変数の方が先に入手できるか、ほぼ同時か」の場合にも、予測と分析に分かれます。
予測する、説明する、あるいは分析するということを、この講義では回帰したい、と言い換えています。回帰とは「説明変数をすべて固定できた場合に、それらを条件とした予測変数の条件付き平均を推定すること」です。数式で表すと、次のような関係を持つ関数をデータから推定することです。
推定した関数は、任意の値を代入して、新しい条件の元での平均に用いることができます。ただし代入する値が、推定に用いたデータの範囲にあるか、それともそれを超えた範囲にあるか、でその関数の果たす意味が異なります。前者は補間または内挿、後者は補外または外挿と呼ばれます。補外または外挿の場合、その関数を用いる責任は、分析者ではなく予測者が負うことになるので、注意してください。
連続尺度の変数の平均は、連続尺度です。2値の名義尺度の変数の平均は、それを因子として見た際の2水準の平均比率です。
平均値を求める問題も、回帰分析です。
散布図の横軸に中間試験の点数を付置していますが、総合点の回帰分析に用いていません。このことと、総合点をその平均値で予測することは、同じです。切片=平均値になります。
JMPの〔モデルのあてはめ〕を用いている限り、単回帰分析モデル、重回帰分析モデルの違いは説明変数の数だけです。単回帰分析モデルは〔モデルのあてはめ〕の他、〔二変量の関係〕、〔多変量〕で用いることができます。
単回帰分析モデルと重回帰分析モデルを両方合わせて、線形回帰モデルと呼ぶと誤解がありません。
分析名 | モデル名 | |
---|---|---|
説明変数が一つの回帰分析 | 単回帰分析 | 単回帰分析モデル, 線形回帰モデル |
説明変数が複数の回帰分析 | 重回帰分析 | 重回帰分析モデル, 線形回帰モデル |
説明変数に回帰係数を掛けて切片を加えたモデル による回帰分析 | 線形回帰分析 | 線形回帰モデル |
説明変数自身の他に説明変数のべき乗も用いる回帰分析 | 多項式回帰分析 | 多項式回帰モデル |
説明変数が順序尺度や名義尺度の回帰分析 | ダミー変数を用いた回帰分析 | 線形回帰モデル |
適切な回帰モデルが、切片と乗数だけで構成された線形回帰モデルとは限りません。
JMPでは、説明変数に多項式を用いることができます。
ある説明変数が順序尺度または名義尺度で、取りうる値が, , とします。このときこの変数を因子、取りうる値, , を因子の水準と呼びます。
因子を回帰分析に用いるには、個のダミー変数を導入します。
水準 | XA1 | XA2 | ⋯ | XAa-2 | XAa-1 |
---|---|---|---|---|---|
A1 | 1 | 0 | 0 | -1 | |
A2 | 0 | 1 | 0 | -1 | |
︙ | |||||
Aa | 0 | 0 | 1 | -1 |
また、一部のモデル、特に実験計画の多くのモデルは、交互作用の項を含んでいます。因子が連続尺度の場合には、交互作用項(交差)は、それらの因子の積です。名義尺度や順序尺度の場合には、交互作用項(交差)は、カテゴリカルな水準を表すダミー変数の積です。
交互作用項がある場合、高次の効果を追加するには、その低次の要素が必ずモデルに含まれるように制約することがよくあります。この原則は、親子関係の原則(principle of effect heredity; 階層関係の原則)と呼ばれています。この原則に従えば、たとえば、2 次の交互作用項がモデルに含まれている場合は、(階層における上位の効果である)主効果もモデルに必ず含めるべきです。
あてはめの手法によると、〔モデルのあてはめ〕には多くの手法があります。これらの中でも、標準最小2乗を用いるあてはめとステップワイズ法を用いるあてはめでは、交互作用項のダミー変数が異なります。できれば最後に、標準最小2乗を用いた回帰分析をやりなおして報告することをお勧めします。
ある時間間隔が、生存時間あるいは寿命になぞらえて分析できるとき、その時間間隔を生存時間ということがあります。生存時間の例は、次のとおりです。
生存時間が従う確率分布を生存時間分布といいます。
これは生存時間分布の生存関数をデータから推定した例です。
この図は生存時間分布の例で、左は密度関数、右は累積分布関数です。
ある時間間隔の計測値と、その値の計測条件, , が記録されたデータを用いて、が従う条件付き分布を推定するモデルを総称して、生存時間回帰モデルといいます。
生存時間回帰は、が、, , を条件とした条件付きの生存時間分布に従う、というモデルを推定します。JMPの生存時間回帰では、分析に用いる生存時間分布に次のものが用意されています。
生存時間回帰とモデルのあてはめの違いは、が打ち切られていても回帰分析を行えることにあります。たとえば施療が長引いても1時間で打ち切ることが規則で定められている場合、本来行うべき施療の時間は記録されません。また、治療期間中の患者さんが再来院しなくなったり、入院中の患者さんが仕事の都合などで無理矢理退院していったりすると、完治までの期間が記録に残りません。こういう場合を、打ち切りと言います。
ところで、時間感覚が必ず生存時間分布に従うとして、生存時間回帰で分析しないといけないという訳ではありません。時間を一定の値にすることがこの時間の使い方の目標の場合には、その時間の分布は正規分布に近くなります。時間の発生の仕方にも考察が必要です。
同一の試行の、ある一定回数の中での成功を数えて、成功回数と呼びます。
物の試行でも人の試行でも、成功を数えます。
一定回数の中の成功回数と、その値の計測条件, , が記録されたデータを用いて、が従う条件付きの二項分布を推定する分析の一つが、ロジスティック回帰分析です。モデルはロジスティック回帰モデルです。成功確率のロジスティック変換
に対して、線形回帰分析を行うことに近いです。はで推定するので、
に対する回帰分析とも言えます。がかの時だけ、特別な注意が必要です。
繰り返し発生する事象のある一定期間の発生回数を、頻度と言います。
頻度と、その値の計測条件, , が記録されたデータを用いて、が従う条件付きのポアソン分布を推定する分析を総称して、ポアソン回帰分析といいます。モデルはポアソン回帰モデルです。
ポアソン回帰は、平均の対数()に対する線形回帰分析になります。近似的には頻度の対数に、標準最小2乗を用いて重回帰分析を行うことと、ポアソン回帰は信頼区間と残差を除いて、近くなります。
JMPの中のパーティションという手法は、一般には決定木(ディシジョンツリー)と呼ばれます。
他の呼び名には次のものがあります。
横軸が野球のプロ選手としての年数、縦軸が年間のヒット本数、丸の色は青から赤までのグラデーションで年俸の低高を表しています。3次元散布図は次のとおりです。
このデータに単回帰分析を行うと、次のような結果を得ます。
重回帰分析は次のようになります。
ちょっと残差が大きい選手がいますが、たぶんそれを除いても大丈夫で、ヒット1本あたり4.31、年数の1年増加あたり36.95の年俸増加が見込まれるモデルが推定されています。ヒット8本が1年に相当してますか。でも長くプレイするだけで年俸が上がる訳ではなく、打てない打者は淘汰されます。また単回帰の結果、年数が長くなると平均年俸が落ち込んでいますが、これが回帰分析では説明できません。
これに対して、病気の診断ルールのように、ある条件の組み合わせを満たしたらこれ、別の条件の組み合わせを満たしたらこれ、という風にデータを場合分けしていくのが決定木です。メタボの疑いのような条件の組み合わせではなく、変数を一つ選んで、その変数の値の範囲で道が枝分かれしていくのが、決定木の場合分けの特徴です。
決定木分析(回帰木)では、上のデータを次のように分割します。
右と左が同じ分割を与えていることを理解してください。〔パーティション〕を用いた出力は次のとおりです。
いずれも同じ分析結果です。決定木では、各セルを「ノード」と言います。これ以上は分割されないノードを、終端ノードといいます。もっと分割していくと、右の方にプレーヤー年数が7年以上の場合に、ヒットの本数が91本未満なら年俸の平均が458.6、91本以上なら658.0という分割があります。
プレーヤー年数があまり長くなると、ヒットの本数が落ちていくのが、上の単回帰分析で年俸が右に行くほど下がった理由かもしれません。
決定木は交互作用を検出するのに優れています。その一方で、重回帰分析と同じモデルを表すのに、とても多くの分割を用います。どちらを用いるかは、取り組んでいる問題において、変数の効果の抽出と、交互作用の推定のどちらが重要かによると考えています。
ニューラルネットワークは、人の脳の構造を模倣した回帰モデルです。説明変数と予測変数の複雑な関係を多くのデータから柔軟に推定してくれます。
たとえば上の野球選手の年俸をニューラルネットで分析してみます。JMPのニューラルネットは深層学習はできません。隠れ層は1層のみです。でも、ノンパラメトリック回帰と呼ばれる手法の代替にはなります。
これは隠れ層を10ノードに設定して、ニューラルネットワークにデータを学習してもらった結果です。緑の曲面は、年俸とヒット数に対する年俸の回帰モデルです。ヒット数が120あたりを超えると年俸が増え、年数が5年を超えると年俸が増える様子が見て取れます。これに加えて、年数が5年を超えると、ヒット数に対する年俸増加の傾きが異なります。
このような推定には、重回帰分析、ロジスティック回帰、生存時間回帰、ポアソン回帰と比べて多くのサンプル数が必要です。でも、より柔軟な構造(の回帰モデル)をデータから推定してくれます。残差の検討もできますが、てこ比プロットなどは出力できません。
ロジスティック回帰は、カテゴリカルな応答変数(Y)の水準の確率を1つまたは複数の効果(X)の関数としてモデル化します。「モデルのあてはめ」プラットフォームでは、ロジスティック回帰モデルのあてはめに2種類の手法が用意されています。どちらの手法を使用するかは、応答列の尺度(名義尺度または順序尺度)によって決まります。
ロジスティック回帰モデルのあてはめの詳細については、Walker and Duncan(1967)、Nelson(1976)、Harrell(1986)、McCullagh and Nelder(1989)を参照してください。
応答変数が名義尺度の場合には、多水準のロジスティック関数に、線形モデルが最尤法によってあてはめられます。このモデルでは、応答の水準のうち1つを除くすべての水準が、ロジスティック曲線によってモデル化されます。応答水準ごとのロジスティック曲線は、指定のX効果の値での、該当の応答水準の確率を決めます。最後の応答水準の確率は、1からその他の応答水準の確率の和を引いた値です。その結果、X効果のすべての値において、応答水準の予測確率の和は1になります。
応答変数が2水準の場合は、「モデルのあてはめ」ウィンドウの「イベントを示す水準」で、どちらの応答水準の確率をモデル化するかを指定できます。デフォルトでは、最初の応答水準の確率がモデル化されます。
インゴットの製造に関する実験として、加熱時間とソーキング時間を変え、仕様に適合した、圧延可能な状態に仕上がったかどうかを調べてみました。Cox and Snell(1989)を参照してください。データは、サンプルデータのフォルダにある「Ingots.jmp」データテーブルにまとめられています。この例では、「モデルのあてはめ」プラットフォームを使い、「状態」の確率に「加熱時間」と「ソーキング時間」を説明変数としたロジスティック回帰モデルをあてはめます。
名義ロジスティック回帰の場合、水準の順に
となります。これは、
と同じです。
応答変数が順序尺度の場合、最尤法によって、応答の累積確率に対してロジスティック関数があてはめられます。このモデルでは、応答変数の値が各水準以下となる累積確率がロジスティック曲線でモデル化されます。それらのロジスティック曲線は、どの水準でも同じ形状で、水平方向の位置が異なるだけです。
チーズの添加物(A~D)と味の関係について実験調査を行いました。この調査では、チーズの添加物(A~D)が味に与える影響を調べるため、試食グループによる味の判断を1(非常にまずい)から9(とてもおいしい)までの順序尺度で記録しました。McCullagh and Nelder(1989)を参照してください。データは、サンプルデータのフォルダにある「Cheese.jmp」データテーブルにまとめられています。分析の再現は、こちらを参照して、各自で行ってみてください。
順序ロジスティック回帰のモデルは
となります。
データの中の群構造の発見、あるいは分類の生成
データの中に複数の群を発見したり、分類基準を生成することをクラスタリング(クラスタ化)といいます。1つ以上の変数からなり、測定単位が揃っているデータの中に、群構造を見出す手法です。
この目的で用いられる分析手法はクラスタ分析、離散混合分布、潜在クラス分析、潜在プロファイル分析などがあります。
モデル | 群の名前 | 境界線 |
---|---|---|
クラスタ分析 | クラスタ、群 | あり |
混合分布 | コンポーネント(分布)、分布 | なし |
潜在クラス分析 | 潜在クラス | なし |
潜在プロファイル分析 | 潜在プロファイル | なし |
混合分布と潜在プロファイル分析は同じです。潜在クラス分析は「ほぼ」同じとも、「かなり」違うとも言えます。
階層クラスタリングは次のように、近いもの同士をまとめていく、ボトムアップ的なクラスタ分析手法です。下からまとめて行きます。次の図は、寿司ネタの選好データに基づいてネタ間の距離を算出して、それを元にクラスタ分析した例です。
このグラフをデンドログラムと言います。階層クラスタ分析は必ず、デンドログラムを用いて行います。デンドログラムの最下部には必ず、対象を識別する文字、番号、ラベルなどを記します。そのため、あまり多くの対象がある場合には向きません。
対象同士の距離は普通に定義できても、一旦、小さな群にまとめた後で群と個との距離、また群と群との距離の定義が幾つかあります。
例えば人が点在していて、近くにいる人同士でグループが繋がっていく場合など、2群の中のもっとも近い点同士の距離が群間の繋がりに影響する場合は最小距離を用いることが考えられます。そうではなく、健康指標などを分析している場合には、最小距離や最大距離に意味がある状況とは限りません。
そのため、重心距離法またはWard法を用いるのが通例となっています。
さて、デンドログラムを用いたクラスタ分析は、デンドログラムを上から見る方向と、下から見る方向の二つから成ります。
デンドログラムを下から見て、どのような対象が近くなるように並んでいるかを確認します。イクラ、数の子、ウニはいずれも卵です。魚でないネタも近くに集まっています。甲殻類と貝類の中のホタテが近いです。マグロ同士も近いです。青魚は貝類と近いのでしょうかね。
次に上から見て、クラスタに分けて行きます。例えば距離を1.58で切ると、赤線で切った左右の2群に分かれます。1.32で切ると、6群に分かれます。どこで止めるかは、各クラスタに属する対象の意味ある分類となるかを検討して決めます。
k平均法(k-meansクラスタリング)が代表的な手法です。次のグラフは、選好度の個表データから、人のクラスタ分析を行った結果です。好みの異なる5群に分かれています。
もちろん階層クラスタリングと同様に、寿司ネタのクラスタ分析も可能です。
データが複数の正規分布からなっている、とするモデルです。潜在クラス分析と考え方は同じです。ただし複数の正規分布には、幾つかの種類があります。
これは像を飲んだうわばみと同じ形です。
でもこんな場合もあります。
混合分布を構成する分布は、平均だけでなく分散も異なっていいのです。データの分布が赤、推定されたクラスタが青と緑のとき、クラスタ間の境界をどこで引きますか?
ただし正規混合分布の場合、AICやBICなどのモデル選択基準を用いて、最適な分布の数を選択することがあります。
潜在クラス分析も、混合分布を推定する分析です。
通常は測定値などの数値の変数を含まず、順序尺度や名義尺度などの離散変数のみからなるデータを扱います。
このデータに潜在クラス分析を行って見出すのが、潜在クラスです。原理は正規混合分布と似ていますが、分布の表現に離散データならではの工夫があります。クラス数はAICなどで定めます。
潜在クラス分析は、各対象がそれぞれのクラスに所属する確率(ベクトル)も出力してくれます。
各対象を、この確率が最も高い潜在クラスに分類します。この結果は他のクラスタ分析と同じなので、クラスタごとの特徴をみて行きます。
単に分類するだけなら、クラスタリングを実行するだけで終わりです。しかし、生成したクラスタ(群)の特徴の把握が分析目的の場合には、大変です。
これを、情報量基準などで端折って、次の3ステップで終わらせてもいいです。
ただし、特徴を掴む変数がクラスタ分析に用いられていない場合は、これはだめです。
分析に用いたモデルから大きく外れているデータを、取り出して別扱いにします。回帰分析、主成分分析、因子分析などの多変量解析の手法には、外れ値の基準が開発されていることが多いです。
2022年7月31日中。
提出先はこちらです。
研究発表の練習と位置付けて、下記のような部品で構成してください。
ただし仕上がりの体裁は、これらが生で見えるよりは、先行研究と似た体裁が望ましいです。また分析結果から導いた主張や提案について、どのような新規性があるかも主張してもらうといいです。
他にもたくさん提案されています。自分に合ったものを用いてください。
次の二つはこの授業の課題をもう少し磨いて提出するのに向いています。ただし後者は課題に、政府・行政のオープンデータを用いた場合でしょうか。
その他、締切が近いものは次のものです。