multivariate-causal-analysis
「看護を測る」(柳井・伊部, 2012, 朝倉書店)より。
以下のことを、一人でなく、看護管理実践者、看護管理研究者、マネジメントの研究者からなる研究班で討議して進めた。
これで調査票のチェックと、尋ねたい項目の抜け漏れがないか、また項目が冗長でないかを検討し、必要最小限の項目に留めて、正式版を作成する。
平均(ベクトル)。
相関係数(行列)。
主成分分析。
(たぶん第一主成分間の)共分散選択。
アルファ係数。
高橋先生の考え方に近い、中項目ごとの1次元への帰着での指標作りのよう。
相関は、2つの変数間の関係を定量化します。ただし、2つの変数が一緒に変動していることが確認されても、必ずしも1つの変数がもう1つの変数の原因であるかがわかるわけではありません。このことから「相関は因果関係を意味しない」とよく言われます。
強い相関は因果関係を示す場合がありますが、次のような他の説明も簡単につきそうです。
これ以上の説明はこちらに譲ります。(内部リンク)(相関と因果関係より)
実証研究は英語ではempirical researchです。de Grootの実証サイクルを掲げます。
ステップ | 行為 |
---|---|
観察(Observation) | The observation of a phenomenon and inquiry concerning its causes. (経験的事実を集めてまとめる; 仮説を形成する) |
帰納(Induction) | The formulation of hypotheses - generalized explanations for the phenomenon. (個々の事例から一般的な仮説を見出す; 仮説を策定する) |
演繹(Deduction) | The formulation of experiments that will test the hypotheses (i.e. confirm them if true, refute them if false). (仮説の原理から個々の事例を推論する; 試験可能な予測として仮説の結論を試す) |
検証(Testing) | The procedures by which the hypotheses are tested and data are collected. (新しい経験的素材で仮説を検証する) |
評価(Evaluation) | The interpretation of the data and the formulation of a theory - an abductive argument that presents the results of the experiment as the most reasonable explanation for the phenomenon. (検証の結果を評価する) |
(Heitink, G. (1999). Practical Theology: History, Theory, Action Domains: Manual for Practical Theology. Grand Rapids, MI: Wm. B. Eerdmans Publishing, p. 233.より。日本語はWikipedia上の意訳。)
ここはこの講義の範囲外。各自のドメインの基礎知識を習得し、文献を収集した上で、研究で取り組むべき課題を構築するところです。また、データを分析した結果として形成されることもあります。
データから仮説を探ることを指していいます。仮説形成の方法の一部かもしれません。
データを収集して仮説を検証することを指していいます。
この科目では、因子分析を用いて探索した相関関係から因果関係の仮説を形成するところと、その仮説を構造方程式モデルで表現してデータから検証するところを、一つのデータで取り組んでもらいます。このように、同じデータから仮説を探索し、見つけた仮説を同じデータで検証できたら嬉しいかもしれません。しかし本来は、データがいくつかに分割しても推定に問題がないほど大きい場合の除いて、一般にはそれは困難です。検証には、仮説を前提としたデータの収集が必要です。それを実証研究といい、実験で行うなら検証実験、観察研究で行うなら調査を実施することになります。
だからデータから得た仮説を結論とする、観察から演繹までに留まった研究、また先行研究から学んだ仮説を修正して検証する、演繹と検証だけの研究などもあります。いずれも、評価の部分が重要です。
この科目では、仮説探索の手法として、因子分析と潜在クラス分析を紹介します。そして仮説検証の手法として、構造方程式モデリングを紹介します。
因子分析では、観測変数を次の部分に分けられると考えます。
共通因子とは、
独自因子とは、
1因子モデルを図に示します。
因子分析は最初に、各観測変数は因子(潜在変数)の線形な関数であり、誤差の影響も受けるとします。次に、この構造を分散共分散行列または相関係数行列から推定します。それらが共通性(因子による行列)と独自性(誤差による行列)の和になることを利用します。そして、共通因子と独自因子にに基づく観測変数のモデルを推定します。
主成分分析は最初に、主成分が観測変数の線形な合成変数とします。次に、その合成変数をそれぞれの分散が最大になるように求める問題を、合成変数間が互いに直交する条件の下で解きます。この問題が、分散共分散行列または相関係数行列の固有値・固有ベクトル分解に帰着します。
このように両者は、全く異なるモデルです。しかし、因子分析の推定方法で〔主因子法〕を選択して、収束するまで反復させることで抽出された因子は、主成分分析で求めた主成分と等しくなります。
共通因子と観測変数の相関係数を因子負荷量と呼ぶのは、主成分分析と同様です。それぞれの観測変数が、少ない数の因子との因子負荷量が大きく、残りとは小さいと、単純なパス図に近い構造が浮かび上がってきます。
共通因子の間に相関があるモデルも考えられます。その時は、前の図に加えて、次の図のように共通因子の間に相関を想定します。
構造方程式モデリングであれば、この相関をさらに潜在変数で説明したくなるかもしれません。
因子数の決め方は、主成分分析に基づく方法と、因子分析に基づく方法があります。それ以外に、モデル選択基準も用いられます。
しかし、柳井・井部(2012)によると、共通因子の数は、観測変数の数の半分を超えてはいけないそうです。そして「最も大事な共通因子数の推定基準は因子の解釈可能性であるといえる」と述べられています。
そうなると因子分析を行い、因子の解釈を試しながら、データに合った因子数を決めるのが良い、となってしまいます。
因子分析ではほぼ必ず、回転を用います。それは、どのような回転をしても、共通性と独自性への分解に変化がないという、因子モデルの性質があるからです。これを、因子は識別可能でない、といいます。このため因子分析モデルのパラメータの推定には、次の2つのうちのいずれかの制約条件を必要とします。
構造方程式モデリングで、潜在変数からのパスを1つ必ず1にするという指示のは、この後者と同じです。
因子分析では、1セットの因子負荷量と独自性を求めてから回転を施して因子負荷量を得る方法と、観測変数と因子の共分散行列を得る方法があります。ここでは前者に限定して説明を進めます。
回転にはたくさんの種類があります。それぞれ、数式で表された基準を最適にする回転を求めます。(JMPマニュアル 回転方法より)
山本倫生(2019)によると、Thurstone(1947)が提案した、因子負荷量行列に対する単純な構造のルールがあります。
また因子負荷量行列が、各変数がたかだか1つの
ここからはまたJMPマニュアルに戻ります。
回転を使用することにより、因子を解釈しやすくなります。回転は、はじめに抽出された因子の因子負荷量に対して適用されます。回転は、因子負荷量の複雑性(complexity)や単純性(simplicity)を表す基準を最適化するように実行されます。回転の基準には様々なものがあります。回転の詳細は、SAS Institute Inc.(2020c)の「FACTOR Procedure」章、Browne(2001)、Frank、Todeschini(1994)を参照してください。
因子分析の初期解と呼ばれる、JMPの因子分析プラットフォームを用いてはじめに抽出された因子において、因子間の相関はゼロとなっています。
斜交回転では、直交回転よりも解釈しやすい因子が見つかることがよくあります。しかし因子間に相関を許すと、統計的な性質が複雑になります。各因子が変数に与えている大きさを、因子負荷量だけでは判断できなくなるからです。
直交回転ではVarimax回転が、斜交回転ではPromax回転がよく用いられます。他の方法は、JMPの回転方法の詳細に示します。(内部リンク)
では、回転にはどれを用いるのが良いか、と好奇心が湧くことでしょう。直交回転は解釈が容易です。そのためバリマックス(Varimax)回転は、常に試されます。斜交回転は単純構造を満たす因子が得られやすいです。そのため、斜交回転も試されます。
因子分析の方法は、最初は〔主軸〕を選んでください。これは他のソフトウェアでは主因子法(Princiapl Axis Method、なぜか主軸法と訳された)と呼ばれている方法を指定します。最尤法(Maximum Likelihood Method)を試すのは、主因子法の推定がエラーを出さないことを確認してからがお勧めです。
事前共通性は、共通性の初期値の指定です。どちらでも構いませんが、主軸では〔対角要素=1〕を、最尤法では〔対角要素=SMC〕を試すのがお勧めです。
方法\事前共通性 | 対角要素=1 | 対角要素=SMC |
---|---|---|
主軸 | 反復ありの主因子法(=主成分分析 | 反復なしの主因子法 |
最尤法 | 共通因子分析 |
回転はあとでいろいろ試すことになるので、最初はVarimax回転を選択してください。
ここからあとは主成分分析と同様です。
基本的には、回転後の因子負荷量行列からパス図を思い浮かべて、因子に名前を付けていきます。独立した名称にして良いかどうかは、因子間の相関の有無に寄ります。この点、直交回転は気にすることが減ります。
回転前には次のようなパス図に近い因子負荷量行列を得るかもしれません。
これを、直交回転をいろいろ試すともしかしたら、
というモデルにたどり着けるかもしれませんし、
となるかもしれません。これを探索するのが、探索的因子分析です。
主成分分析で回転を用いることがあります。主成分の空間を主成分の軸ではなく、別の角度から眺めてみることに相当します。互いに直交している軸を用いるのではなく、別の軸の取り方をしてみようとして、興味を惹く軸の取り方が見つかったら、その軸を用いてみる、というスタンスです。
でもこれは、新しい合成変数を作ってみたに過ぎません。作った合成変数の説明責任は、分析者にあります。
観測データでは、相関から因果関係を確認することはできません。
変数間の相関は、データにパターンがあることを示しています。つまり、変数は一緒に変動する傾向があります。ただし、相関関係だけでは、1つの変数が他の変数の原因となるためデータが一緒に変動しているかどうかはわかりません。
実際には因果関係による結びつきがまったくない2つの変数について、統計的に有意で信頼性のある相関が確認されることがあります。実際、こうした相関は普通にあります。多くの場合、これは両方の変数が別の単一の因果変数に関連付けられているためです。この因果変数は測定しているデータと共起する傾向があります。
例を挙げて考えてみましょう。健康データを調査しているとします。運動と皮膚がんの症例との間に統計的に有意な正の相関が見られます。つまり、運動をする人は皮膚がんを患う傾向があります。この相関関係は強力で信頼性があるように思えます。患者の複数の母集団にわたって現れています。詳しく調査するまでもなく、運動が何らかの理由でがんを発生させると結論付けるかもしれません。これらの調査結果に基づいて、運動によるストレスが原因で、日焼けのダメージから体を保護する能力が失われるのではないかというもっともらしい仮説を立てることもできます。
しかし、一年中日光がたくさん当たる場所に住んでいる人は、そうでない場所に住んでいる人よりも日常生活で非常に活動的であることが理由で、このデータセットに相関関係が存在しているとしたらどうでしょう。これは、運動量の増加としてデータに現れます。同時に、日光への露出が増えることは、皮膚がんの症例が増えることを意味します。運動と皮膚がんの発生率の両方の変数は、原因となる3番目の変数、つまり太陽光への曝露の影響を受けましたが、因果関係はありませんでした。
しかし、適切に設計された実証的研究によって因果関係を明らかにすることができます
因果関係の証拠を表すものとそうでないものを区別することは、データリテラシーの重要な要素です。因果関係の特定は、現実の世界では決して完璧に行えるものではありません。しかしながら、因果関係に関する証拠を見つけるためのさまざまな実験的、統計的、研究設計手法があります。たとえば、ランダム化、対照実験、複数の変数を持つ予測モデルなどです。相関検定の本質的な制限(相関は3変量の、潜在的な因果関係を測定できないなど)以外にも、因果関係の証拠は通常、個々の統計検定ではなく、慎重な実験計画から得られることを理解することが重要です。
再び、健康について調査しているとします。今回は、病気の発生率、食事、その他の健康行動の大規模なデータセットを調べています。心疾患の増加は高脂肪食と相関し(正の相関)、運動の増加は心疾患の減少と相関している(負の相関)ことがわかったとします。これらの相関はどちらも大きく、信頼性が高いとします。確かにこれは因果関係の手がかりを提供しています。
この健康データの場合、相関関係は根本的な因果関係を示唆している可能性がありますが、詳細な調査を行わないと確証を得られません。これらの相関関係がわかった後、次のステップとして、体が脂肪を吸収する方法とそれが心臓にどのように影響するかを調べる生物学的研究を設計するとします。おそらく、心臓に負担をかけるような方法で過剰に摂取された脂肪が蓄積されるメカニズムが見つかるでしょう。また、運動を詳細に調べ、ランダム化された対照実験を計画したところ、運動が脂肪の蓄積を妨げ、心臓への負担を軽減することを発見するかもしれません。
これらの証拠はすべて、1つの説明に当てはまります。つまり脂肪分の多い食事は、実際に心疾患の原因となる可能性があります。そして、問題をさらに詳しく調べても、元の相関関係はまだ成り立っていました。つまり高脂肪食と心疾患は関連しています。
しかし、この例では、因果関係の証拠は、観測データ(心疾患の発生率や、報告された食事や運動など)の関係を調べるだけの相関検定自体では示されなかったことに注意してください。この関連の証拠を見つけるために、実証研究を代わりに行ったのです。
では、どのようにして因果関係を探るのでしょうか?それは、正しい調査によってです
因果関係を把握することは難しい問題です。現実の世界では、変数間のすべての可能な関係をマッピングするために必要なデータすべてにアクセスできるわけではありません。しかし、異なる変数間のメカニズムを分離して調査するのに役立つ主要な戦略がいくつかあります。たとえば、対照実験では、2つのグループを慎重に対応させ、一方のグループのみにランダムに治療または介入を適用することができます。
ランダム化の原理は実験計画の鍵であり、このコンテキストを理解することで、統計的な検定から推測できることを変えることができます。
運動と皮膚がんの発生率の関係を調べた、上記の最初の例についてもう一度考えてみましょう。グローバルに分布した大規模な人々の標本を何らかの方法でとり、異なるレベルの運動をランダムに割り当て、10年間、毎週運動を行うものとします。その終わりに、この大規模なグループの皮膚がんの発生率も収集します。最終的には、運動と皮膚がんの関係を検定するために実験的に計画されたデータセットが得られます。運動はランダム割り当てにより実験で直接操作されたため、これら2つのグループ間で異なる可能性のある他の変数には体系的に関連付けられません(調査の他のすべての点が妥当な場合)。つまりこの場合、データは適切な実験計画から得られたものであるため、運動と皮膚がんの正の相関は因果関係の有意義な証拠となります。
因子分析の初期解と呼ばれる、JMPの因子分析プラットフォームを用いてはじめに抽出された因子において、因子間の相関はゼロとなっています。直交回転は因子間相関がゼロのままとなるような回転なので、直交回転を適用した場合のその回転後も、因子間相関がゼロのままです。一方、斜交回転は因子間相関がゼロとなる制約を置かない回転なので、回転後の因子間に相関を許します。斜交回転では、直交回転よりも解釈しやすい因子が見つかることがよくあります。しかし因子間に相関を許すと、統計的な性質が複雑になります。各因子が変数に与えている大きさを、因子負荷量だけでは判断できなくなるからです。
では、回転にはどれを用いるのが良いか、と好奇心が湧くことでしょう。直交回転は解釈が容易です。そのためバリマックス(Varimax)回転は、常に試されます。斜交回転は単純構造を満たす因子が得られやすいです。そのため、斜交回転も試されます。