第7回データサイエンス

# 第7回データサイエンス ###### tags: `multivariate-causal-analysis-2023` ## PPDAC 1996年カナダ ![](https://hackmd.io/_uploads/SyxvqYHt9.png) 2008年ニュージーランド (2012年に少し[コナン君風](https://new.censusatschool.org.nz/wp-content/uploads/2012/11/data-detective-mature.en_.pdf)に) ![](https://hackmd.io/_uploads/rylTsFHFc.png) 2015年日本 ![](https://hackmd.io/_uploads/Bydv5YSFq.png) 2021年[ニュージーランド](https://new.censusatschool.org.nz/resource/data-detective-poster/) ![](https://hackmd.io/_uploads/S1NaoYHK9.png) (PPDACと検索すると見つかる図たち。[こんな資料](https://sgh.b-wwl.jp/wp/wp-content/uploads/2015/12/3-2.pdf)も残ってた。) ### テーマの選定 (Problem) 軽々しく決めると損する。データの取得を検討すると行き詰まり、テーマの変更を余儀なくされることもある。でもデータに阿ると、他の人が既に行った分析に辿り着くかもしれない。テーマへの要件。 * データに基づいた実証を行うテーマであること。 * 野心的であること。 * 既にあるデータを用いるのではなく、データを用意することを含めることも検討すること。(例：住宅) * 健マネらしいテーマであること。 * クオリティというキーワードを覚えています？過去の発表や論文から出発するのも一つのやり方。でも、研究に拘らなくてもいい。現状に足りないものをデータから浮き彫りにして、それにどう取り組むかを提案していい。(ロジックモデルにどう繋げるか。) アイディアのシーズ。 * ○○テック。 * 対象にとっての価値の明確化。 * [J リーグチームの強さとプレイの相関分析](https://www.soumu.go.jp/main_content/000607872.pdf), p.6 参考 * [総務省 (2016〜2017) 統計の調査環境の整備](https://www.soumu.go.jp/toukei_toukatsu/info/guide/stkankyo.htm) * [渡辺美智子 (2018) データ駆動型超スマート社会を支えるデータサイエンス教育](https://www.juce.jp/LINK/journal/1804/02_02.html), [PDF](https://www.juce.jp/LINK/journal/1804/pdf/02_02.pdf) * [渡辺美智子・他 (2019) 教育改革FD/ICT理事長・学長等会議開催報告―新時代（第４次産業革命）を展望した人材育成とICT活用を考える―](https://www.juce.jp/LINK/journal/1903/04_02.html), [PDF](https://www.juce.jp/LINK/journal/1903/pdf/04_02.pdf) ### 計画の検討 (Plan) シナリオの見通し。 * 分析する前に、テーマ自身を分析する。そのための概念図。 * アウトカムに影響を与える因子を洗い出す。そのための特性要因図。 * 分析の結果が、提案や提言に繋がるといい。そうでないと、単なる分析の報告に留まる。ビジネス提案、事業提案、ロジックモデル。 * 必要なデータの検討。高橋武則先生は、[ビデオ講義の第2回](https://keio.box.com/s/vl1khx43369kfuyfanutgichiip8qenb)でも、概念図と特性要因図から始めるように教えている。たぶんデータ対話型病院経営論Iでも？渡辺美智子先生は一昨年と昨年に、ロジックモデルを重要視された。このお二人のアプローチの違いは、本質を見極めることを重視する立場と、アウトカムおよびそれ以降のアピールを重視する立場かもしれない。お二人とも本質的には、同じところを狙っていたような印象を受けている。 #### 概念図 ```graphviz graph A { node [shape=rectangle style=rounded] 概念図 -- "キーワードを本質的な\n構造でレイアウトした図" [style=bold] } ``` 概念図の要点：一眼で考え方の本質が理解できる高橋武則先生の講義から。 #### 概念図とは何か？ ```graphviz digraph A { node [shape=rectangle style=rounded] "概念" -> "物事の本質をとらえる思考の形式" [style=bold arrowhead=none] "概念図" -> "概念を\n図にしたもの" [style=bold arrowhead=none] "概念を\n図にしたもの" -> "物事の構造や関係の\nあらましが分かる\nように描いた図" [style=bold arrowhead=none] "物事の構造や関係の\nあらましが分かる\nように描いた図" -> "キーワードを配置して\n関係を線で示した図" [style=bold] "キーワード" -> "重要な鍵となる語" [style=bold arrowhead=none] "重要な鍵となる語" -> "できるだけ\n定義した方が良い" [style=bold] } ``` 概念図の要点：一眼で考え方の本質が理解できる (高橋武則先生の講義から。) #### 概念図の例 ![](https://hackmd.io/_uploads/SJ9eGHSK5.png) ![](https://hackmd.io/_uploads/SyyWfSSF5.png) (高橋武則先生の講義から。お化粧の例は省略。) #### 特性要因図因果関係を体系的に可視化した樹木図 * 要点：体系的かつ網羅的に可視化する * 注意：整理したリストアップであって因果構造を示してはいない * 因果構造の明示には構造模型図を用いるとよい因果関係$\neq$因果構造 1. ある特性に関して、その要因をいろいろあげて整理していく 2. 整理するときの視点(着眼点)によって、同じ特性に関する図でも構造は異なってくる 3. 視点(着眼点)の例 A. 5M1E = Man(人), Machine(機械・設備), Material(材料), Method(方法), Morale(士気), Environment(環境) B. プロセス(手順) C. キーワード D. 役割(組織) E. 時間順最も作り易いのは5M1Eに基づく特性要因図。プロセスに基づく特性要因図と役割に基づく特性要因図も比較的に作り易い。キーワードに基づく特性要因図は、概念的なので難しいが、本質を議論する場合には向いている。 5M1Eタイプ。 ![](https://hackmd.io/_uploads/B1MINrBY5.png) プロセスタイプ。 ![](https://hackmd.io/_uploads/S18UNHBFq.png) キーワードタイプ。 ![](https://hackmd.io/_uploads/H1cLNBHK5.png) 役割タイプ。 ![](https://hackmd.io/_uploads/rJbP4HHYc.png) (高橋武則先生の講義ビデオ第2回より。この後、講義ビデオはアンケート調査の説明に入る。) テンプレートの例: [1](https://bizroute.net/cae-diagram.html), [2](https://algorithm.joho.info/computer/fishbone-diagram/#toc4)。他にも良さそうなデザインは参考にするといい。ただしあまり凝ったデザインを用いると、主張が歪んで受け止められてしまうことに注意する。 <img src="https://hackmd.io/_uploads/S1axScHK9.jpg" width="200"> <img src="https://hackmd.io/_uploads/r1ZWBqBtc.jpg" width="200"> <img src="https://hackmd.io/_uploads/S1D-HcHY9.jpg" width="200"> <img src="https://hackmd.io/_uploads/BJs-r5SKc.jpg" width="200"> <img src="https://hackmd.io/_uploads/rkWzB5HF9.jpg" width="200"> <img src="https://hackmd.io/_uploads/BJVQScHFc.jpg" width="200"> <img src="https://hackmd.io/_uploads/B1dXr9HYc.png" width="200"> <img src="https://hackmd.io/_uploads/BJZ4B5BKc.png" width="200"> <img src="https://hackmd.io/_uploads/rJfBSqBKc.jpg" width="200"> <img src="https://hackmd.io/_uploads/BkwrBcHY9.jpg" width="200"> <img src="https://hackmd.io/_uploads/B1nHH9BKc.png" width="200"> <img src="https://hackmd.io/_uploads/r1k8H9rKc.jpg" width="200"> <img src="https://hackmd.io/_uploads/ByNDScHtc.jpg" width="200"> [10 分で理解できる特性要因図｜書き方から原因を特定する方法まで](https://navi.dropbox.jp/fishbone-diagram)や[課題解決のヒントは骨？【特性要因図】で原因を特定しよう](https://infinity-agent.co.jp/lab/fishbone-diagram/)の、書き方の部分も参考に。原因は特定できないから、参考にしてはいけない。 ![](https://hackmd.io/_uploads/SkIwCYBK9.png) このテンプレートが見つからない。 #### 事業とは ```graphviz digraph A { node [shape=rectangle] rankdir = LR ヒト・モノ・カネ -> 活動活動 -> "モノ・コト(サービス)" "モノ・コト(サービス)" -> 変化・効果 } |事業の流れ|詳細| |---|---| |アウトカム|事業や組織が生み出すことを目的としている変化・効果| |アウトプット|変化・効果を生み出すために提供するモノ・サービス| |活動|モノ・サービスを提供するために行う諸活動| |インプット|諸活動を行うために投入する資源(ヒト・モノ・カネ)| ```graphviz digraph A { rankdir = LR node [shape=rectangle] インプット -> 活動 -> アウトプット -> アウトカム } ``` (渡辺美智子先生の講義から。) #### ロジックモデル事業の設計図。 ```graphviz digraph A { rankdir = LR node [shape=rectangle] インプット -> 活動 -> アウトプット -> 初期アウトカム -> 中間アウトカム -> 最終アウトカム } ``` |ロジックモデルの構造|詳細| |---|---| |最終アウトカム|事業により達成したい状況、社会インパクトとも呼ばれる| |中間アウトカム|最終アウトカム実現のために達成したい目的| |初期アウトカム|中間アウトカム実現のための手段| |アウトプット|初期アウトカム実現のために提供するモノ・サービス| |活動|アウトプットを提供するために行う諸活動| |インプット|活動に投入する資源(ヒト・モノ・カネ)| ロジックモデルを作成するにはまず、最終アウトカムから考える。官公庁で大流行り。[文科省](https://www.mext.go.jp/a_menu/hyouka/kekka/06032711/002.htm), [総務省](https://www.soumu.go.jp/main_content/000670367.pdf), [能代市](https://www.city.noshiro.lg.jp/up/files/www/city/sogo-keikaku/1st-torikumi/h24/archives/118031download.pdf), [経済産業省](https://www.meti.go.jp/policy/policy_management/ebpm/2021logicmodel_rev.pdf), [内閣府](https://www8.cao.go.jp/hyouka/yuushikisha-28/sankou6-2.pdf), [内閣府](https://www.cao.go.jp/others/kichou/ebpm/h28_si_chousa_11.pdf), [成育医療研究センター](https://www.mhlw.go.jp/content/11908000/000872572.pdf), [神奈川県](https://www.pref.kanagawa.jp/documents/47881/guide_hajimete.pdf), [内閣府](https://www.npo-homepage.go.jp/uploads/h28-social-impact-sokushin-chousa-02.pdf), [オムロン](https://www.omron.com/jp/ja/technology/omrontechnics/2020/OMT_Vol53_003JP.pdf), (渡辺美智子先生の講義から。) #### ロジックモデルの作り方説得力のあるロジックモデルを作るには * 多角的な視点が不可欠 * もれなくダブりなくさまざまな仮説を出し切る必要なもの * 複数のメンバー * 本音を言い合える関係 * 付箋 (miroで代替) * 筆記具 * 時間手順は単純で、次の３つの掘り下げを繰り返していく。 1. 「誰の、どんな問題を解決したい？」 2. 「そのために達成すべき目標って何だろう？」 3. 「その目標を達成するために必要な手段は何だろう？」そうして出てきた案をひとつずつ付箋に書き出し、たくさん貼る。付箋同士を繋いだ矢印は、ロジックの仮説なので、「このロジックは本当にそうか？」と問い掛け合って、さらに検討する。こういう大きな枠組みの中で、データを分析し、提言や提案に繋げる練習。ロジックモデルの例は、次の資料たちを参考に。 * [W. K. Kellogg財団(2001) ロジックモデル策定ガイド](https://www.maff.go.jp/primaff/about/center/hokoku/attach/pdf/200308_hk066.pdf) ((財)農林水産奨励会農林水産政策情報センターによる翻訳版) * [日本財団(2019) ロジックモデル策定ガイド](https://www.nippon-foundation.or.jp/app/uploads/2019/01/gra_pro_soc_gui_03.pdf) (ソーシャルイノベーター支援制度2017の申請書類にロジックモデルが必須となったことに合わせて公開されたもの) * [日本財団(2021) 図解の大御所・ロジックモデルにできること・できないこと](https://nf-startup.jp/report/details/2526/) * [社会的インパクト・マネジメント・イニシアチブ (201X) ロジックモデル解説](https://simi.or.jp/tool/logic_model) * [社会的インパクト・マネジメント・イニシアチブ (2017〜2019) ツールセット](https://simi.or.jp/tool/tool-set) * [社会的インパクト・マネジメント・イニシアチブ (201X) 社会的インパクト・マネジメント・ガイドライン Ver.2](https://simi.or.jp/tool/practice_guide) (渡辺美智子先生の講義から。) ### データの取得・収集・用意 (Data) データの役割はいろいろ。 * 提言や提案に繋げるための素材、根拠、エビデンス。 * 現状の把握。 * 提言や提案の効果の評価。データで語る。 ![](https://hackmd.io/_uploads/HJyKGFBY5.jpg) ![](https://hackmd.io/_uploads/S1k759SY5.png) オープンデータの活用は一案。オープンデータそのものについてはまず[総務省ICTスキル総合習得プログラム](https://www.soumu.go.jp/ict_skill/)のコース4で学んでほしい。政府・行政のオープンデータ。 * [e-Stat 政府統計の総合窓口](https://www.e-stat.go.jp/) * [RESAS 地域経済分析システム](https://resas.go.jp/) * 政府CIRポータルの[オープンデータ](https://cio.go.jp/policy-opendata) * デジタル庁の[オープンデータ](https://www.digital.go.jp/resources/open_data/) * [データカタログ](https://www.data.go.jp/?lang=ja) * [神奈川県オープンデータサイト](https://www.pref.kanagawa.jp/dst/index.html) * [藤沢市オープンデータライブラリ](https://www.city.fujisawa.kanagawa.jp/dxs/shise/kekaku/kakushu/datalibrary.html) * [東京都オープンデータカタログサイト](https://portal.data.metro.tokyo.lg.jp/) * [埼玉県オープンデータポータル](https://opendata.pref.saitama.lg.jp/) * [千葉県オープンデータサイト](https://www.pref.chiba.lg.jp/gyoukaku/opendata/index.html) * [介護サービス情報の公表制度](https://www.mhlw.go.jp/stf/kaigo-kouhyou.html) スポーツ。 * [Jリーグデータサイト](https://data.j-league.or.jp/SFTP01/) * [野球のデータが見えるサイトまとめ](https://funfan-baseball.com/baseball-data-sites/) * [SPAIA](https://spaia.jp/) コンペティション・コンテスト：オープンなデータ。 * [統計データ分析コンペティション](https://www.nstac.go.jp/statcompe/), (過去受賞論文あり) * [Kaggle](https://www.kaggle.com/) * [SIGNATE](https://signate.jp/) コンペティション・コンテスト：オープンではないデータ。 * [データビジネス創造ラボ・コンソーシアム(慶應SFC)](https://dmc-lab.sfc.keio.ac.jp/v2/) ([第15回データビジネス創造コンテスト「寿命100歳時代を生き抜く知恵」　参加者募集中！](https://dmc-lab.sfc.keio.ac.jp/v2/?p=1329), [JMDCヘルスケアデータ概要](https://dmc-lab.sfc.keio.ac.jp/v2/?p=1327)) * [データ解析コンペティション](https://jasmac-j.jimdofree.com/%E3%83%87%E3%83%BC%E3%82%BF%E8%A7%A3%E6%9E%90%E3%82%B3%E3%83%B3%E3%83%9A%E3%83%86%E3%82%A3%E3%82%B7%E3%83%A7%E3%83%B3/) * [スポーツデータ解析コンペティション](https://sports.ywebsys.net/about.html) 他に自ら対象を評価してデータを作成するのも一案。 * 中古住宅データを、住宅情報サイトから入手し、自ら評価して作成してもいい。 * 大学の立地条件と受験倍率の関係？ #### データの種類 * 介入研究 (データに現れる効果の大きさの差は条件の差。ただし統一にした条件の条件付きで、統一にしなかった因子と交絡の可能性あり。) * 観察研究 (データに現れる効果の大きさは一般には条件の差ではない。) ### 分析 (Analysis) 回帰分析。 ### 検討・考察・結論 (Conclusion) ここで如何に、既存の研究例との差別化を図り、新規性を出すか。 ## リサーチクエスチョンリサーチクエスチョンとは。 1. Focused on a single problem or issue 2. Researchable using primary and/or secondary sources 3. Feasible to answer within the timeframe and practical constraints 4. Specific enough to answer thoroughly 5. Complex enough to develop the answer over the space of a paper or thesis 6. Relevant to your field of study and/or society more broadly リサーチクエスチョンの書き方。 1. Choose your topic 2. Do some preliminary reading about the current state of the field 3. Narrow your focus to a specific niche 4. Identify the research problem that you will address 研究課題からリサーチクエスチョンを育てる例。 |Research objectives|Research question formulations| |---|---| |Describing and exploring|What are the characteristics of X?| ||How has X changed over time?| ||What are the causes of X?| ||How has X dealt with Y?| |Explaining and testing|What is the relationship between X and Y?| ||What is the role of X in Y?| ||What is the impact of X on Y?| ||How does X influence Y?| |Evaluating and acting|What are the advantages and disadvantages of X?| ||How effective is X?| ||How can X be improved?| 例。 |Example research problem|Example research question(s)| |---|---| |Teachers at the school do not have the skills to recognize or properly guide gifted children in the classroom.|What practical techniques can teachers use to better identify and guide gifted children?| |Young people increasingly engage in the “gig economy,” rather than traditional full-time employment. However, it is unclear why they choose to do so.|What are the main factors influencing young people’s decisions to engage in the gig economy?| FINER (リサーチクエスチョンの評価) * Feasible 実行可能性 * Interesting 科学的興味深さ * Novel 新規性 * Ethical 倫理性 * Relevant 必要性 ### リサーチクエスチョンの構造化 PECO (観察研究の場合)　リスク要因の同定・検証 * 「誰を対象者とするのか（Patients）」 * 「どんな要因を取り上げるのか（Exposure）」 * 「比較するものは（Comparison）」 * 「何をアウトカムにするのか（Outcomes）」 PICO (介入研究の場合) 治療法・予防法の評価 * 「誰を対象者とするのか（Patients）」 * 「どんな介入を取り上げるのか（Intervention）」 * 「比較するものは（Comparison）」 * 「何をアウトカムにするのか（Outcomes）」 ### アウトカムの設定アウトカム＝結果とは、研究の主役といっても過言ではない。但し、アウトカムを設定する場合、次の2点がポイント。 1. Measureable（測定できるかどうか。） 2. Relevant（切実であるかどうか。） Measurableかどうかは、測定方法が妥当なものであるかどうか？（正確に測定できるものかどうか？）も重要。Relevantかどうかは、「患者にとって、あるいは社会、医学的上切実な問題であること。」が重要。参考文献 * [福原俊一 (2015) リサーチクエスチョンの作り方, 第3版](http://www.i-hope.jp/others/rq.html) (初版は2008年) * [新田明美 (2016) "知らないと大変？！研究する上でやってはいけないこと（禁忌）第4回目：リサーチクエスチョンの構造化"](https://www.jstage.jst.go.jp/article/jjsp/35/1/35_43/_article/-char/ja/) * [菅野圭子 (2014) "臨床研究家のための研究のすすめ：第1回リサーチクエスチョンをつくる"](https://www.jaot.or.jp/files/page/wp-content/uploads/2010/08/practice-lecture-33-2.pdf) * [下川敏雄 (2018) 統合指針に準拠した研究計画書作成について](https://waidai-csc.jp/updata/2018/08/20160913-001.pdf) (学内研修資料) * [中外製薬 (2022) "目的にあった臨床研究計画のポイント～介入研究と観察研究の計画の違いを考える～"](https://chugai-pharm.jp/ma/research-and-medical/clinical-research/statistician/1/) (ウェブサイトの記事) * [Jennifer Ulz (2022) "科学探究の土台となるリサーチクエスチョン"](https://www.editage.jp/insights/research-questions-the-foundation-of-scientific-inquiry) (ウェブサイトの記事) ## 仮説リサーチクエスチョンが問いであるのに対して、リサーチクエスチョンに対する答えの候補が仮説である。仮説は主張であり、証明または反証しようとしている事柄を具体的に述べたものになります。仮説を定量的に表現できることが、データサイエンスでは求められる。 ## エビデンス (病気を対象とする場合) 科学的な仮説のエビデンスによる証明には、実証性、再現性、客観性を持たすことが求められる。定量的に表現された仮説に関して、それなりの大きさの標本に統計的な手法を用いた分析が行われることが多い。治療の場合。 * 介入研究 * 無作為化比較試験(RCT) * 観察研究 * 前向きコホート(集団追跡)研究 * ケースコントロール研究 * 後向きコホート(集団追跡)研究 * 横断研究 * 症例研究医療の場合。 * 1症例の詳細研究 (珍しい症状の場合) * 多症例の研究 (再現性の証明を要する場合) * 1施設の調査研究 (1施設を詳細に検討できる一方、施設間差を検討できないことが批判される) * 多施設の調査研究 (施設間差まで検討できる一方、医療、看護、リハビリ等の意思決定の基準や記録のばらつきが懸念される) 社会の場合。 * 1時点の調査データ(地域別、施設別等の集計データ) * 複数時点の調査データ(パネルデータ) 社会を対象とする場合にも、エビデンスは仮説を支える事実の集まりでなければならない。 ### 母集団の単位である個人のデータ #### 標本調査標本調査で収集する場合は、およそ次の手順を経る。 1. 研究母集団の設定 2. フレームの設定 3. 標本抽出法の検討 4. 標本抽出の実施 5. 標本調査の実施・督促 (正しく答えて頂くところまでが個人情報の活用、個人が特定される分析は行わないのが個人情報の秘匿) 6. 回答の審査・必要に応じた疑義照会・エディット参考文献 * [総務省統計局 (2021) "全数調査・標本調査"](https://www.stat.go.jp/naruhodo/7_shurui/zensu.html) * [埼玉県 (2021) "標本の抽出は、どのように行えばよいのですか"](https://www.pref.saitama.lg.jp/a0206/toukeifaq/q1-7.html) * [埼玉県 (2021) "標本の大きさはどの程度にすればよいのですか"](https://www.pref.saitama.lg.jp/a0206/toukeifaq/q1-8.html) * [総務省統計局 (2020) "標本調査とは"](https://www.stat.go.jp/teacher/survey.html) #### 業務記録の活用リアルワールドデータは、分析や仮説の検証が、そのデータがカバーする部分母集団の特性の影響を受けることがある。 * カルテ (病院単位) * 検診 (健康保険組合等が実施する健康診断) * レセプト (保険請求の記録) * リアルワールドデータ (カルテがなかったり、病名が保険請求の病名だったり、加入者層が偏っていたり) * ナショナルデータベース(NDB) * JMDC * インシデントレポート * 事故報告書それぞれの名簿(健康保険組合の加入者一覧等)への登録は全数だが、保険請求がない者がいる点、また健康診断を受診していない者がいる点、そして退職と共に健康保険組合間での異動が生じる点などに注意を要することがある。参考文献 * [岡田美保子 (2023) "リアルワールドデータの利活用と標準化－現状と今後への展望－", 一般社団法人医療福祉情報システム工業会(JAHIS), 標準化推進部会業務報告会.](https://www.jahis.jp/files/user/02_katsudo%26hokoku/7_リアルワールドデータの利活用と標準化.pdf) * [平松且稔, Annabel Barrett, 宮田泰彦 (2021) "日本におけるリアルワールドデータとリアルワールドエビデンスの現状、課題、そして今後の展望", Drugs：Real World Outocomes, 8:459-480. (和訳)](https://www.phrma-jp.org/wordpress/wp-content/uploads/2022/02/Current_Status_Challenges_and_Future_Perspectives_of_Real-World_Data_and_Real-World_Evidence_in_Japan.pdf) #### 全数調査 1. 全対象に協力を依頼した調査 2. オンサイト施設による公的統計ミクロデータの利活用全数調査は調査母集団に偏りがない。しかし全数調査でも回答率が100%ではない点に注意を要することがある。 ### 実施済みの調査の集計データ次の表章が公表されていることがある。 * 地方別表章 * 都道府県表章 * 市区町村別表章データの分析単位を地方自治体、都道府県、地方などに設定した研究では、これらをそのまま活用できることがある。なお、調査の実施主体が公表していない単位の地域別表章が研究の実施に必要となった場合には、調査主体に集計を依頼したり、オンサイト施設を利用して自ら集計するなどが必要となる。参考文献 * [総務省 (2024〜) "ビッグデータポータル"](https://www.e-stat.go.jp/bigdataportal/) * [総務省 (2008〜) "e-Stat: 政府統計の総合窓口"](https://www.e-stat.go.jp) * [総務省 (2019) "地域別表章に関するガイドライン"](https://www.soumu.go.jp/toukei_toukatsu/index/seido/02toukatsu01_04000308.html) * [総務省・統計センター (2019〜) "調査票情報の利用"](https://www.e-stat.go.jp/microdata/data-use) ([参考](https://www.soumu.go.jp/main_content/000838525.pdf)) ## インタビュー等その他、インタビューや実地調査など、エビデンスの収集には定量的なデータ以外もさまざまなアプローチがあるが、ここでは省略。参考文献 * [菊地真実 (2020) "薬剤師による薬剤師さんのための質的研究入門第3回目：質的研究の実際について（前編）"](https://www.jstage.jst.go.jp/article/jjsp/39/2/39_100/_pdf/-char/ja) ## 仮説の探索研究のために収集したデータが定型データの場合に、変数間の関係を探索する方法はいくつもある。 1. 主成分分析 (総合指標の構築、低次元の要約の模索) 2. 因子分析 (潜在的な低次元の因子の探索) 3. グラフィカルモデリング (条件付き独立の関係の探索) 4. 共分散構造分析 ## モデルに基づく仮説の検証仮説をモデルとして表現し、データへの適合を検証とする。すべてアウトカム変数を目的変数(予測変数)としたモデルをデータから推定する。 1. 重回帰分析 2. グラフィカルモデリング・共分散構造分析 3. 回帰予測や分類予測のための機械学習の手法重回帰分析の発展的な話題にパス解析と加法モデルがある。パス解析は重回帰分析を繰り返し用い、共変量とアウトカムの間を複数の回帰分析で接続する手法である。さらにすべての変数が離散尺度(分類または順序)の場合に、パス解析と同様の目的で使用できる手法にベイジアンネットワークがある。加法モデルは共変量の効果が非線形であることを許容する回帰手法である。変数間の構造(関係性)をモデル化する手法として、グラフィカルモデリングや共分散構造分析は有効である。ただしこれらの手法は、モデルに用いる変数が連続尺度であることを仮定する。またこれらの手法は、共分散行列の推定値があれば、元のデータがなくとも推定できる。 ### 多母集団(多層)の場合解析目的に層間比較が含まれる。 1. モデルを全データで共通とするか、層ごとに推定するか 2. 層間のアウトカムの差に興味があるなら、先週学んだように平均の差をモデルに組み込む 3. 層間の構造の差に興味があるなら、同じく先週学んだように共分散構造を共通にしたり層ごとに分けたりする ### 多重共線性・ランク落ち研究のために収集したデータに含まれる変数の間に、モデルのパラメータの推定を阻害する問題が生じていることがある。 1. 多重共線性 : 共変量の間の相関が強い、共変量の間に線形制約がある、などが原因で、パラメータ推定が不安定になること。結果として、信頼区間が過度に広くなったり、p値が大きくなったりする。 ```graphviz graph Multicolinearity { layout = circo node [shape = rectangle] 変数1 -- 変数2 -- 変数3 -- 変数1 } ``` 2. ランク落ち : 変数間の相関がとても強い、あるいは変数の間に線形制約がある、などが原因で、共分散行列がフルランクでなくなること。結果として、共分散行列の逆行列が必要な分析すべてが実行不可能となる。たとえば性別ダミーを、男性ダミー、女性ダミー、その他ダミーなどすべての分類に導入すると、ランク落ちが生じる。 |性別|男|女|他| |---|---|---|---| |男|1|0|0| |男|1|0|0| |男|1|0|0| |男|1|0|0| |女|0|1|0| |女|0|1|0| |女|0|1|0| |他|0|0|1| |他|0|0|1| 多重共線性は、相関の強い変数群から主成分分析を用いて総合指標に変換して取り出す、パス解析や共分散構造分析などを用いる、などで回避できることがある。ランク落ちは、原因を探して潰していくしかない。 ```graphviz graph Multicolinearity { layout = circo node [shape = rectangle] 変数1 -- 変数2 -- 変数3 -- 変数1 総合指標 [shape = ellipse] 変数1 -- 総合指標 [color = blue] 変数2 -- 総合指標 [color = blue] 変数3 -- 総合指標 [color = blue] } ``` ### バイアスの考慮・調整直接に興味がある介入や侵襲以外にも、比較したいアウトカムに影響を与える要因がある場合に、その影響を取り除く方法がある。 1. 回帰分析 2. 操作変数法 3. 傾向スコア 4. その他回帰分析の場合にはさらに、要因のモデルへの入れ方に数字をそのまま用いるか、ダミー変数を用いるか、の選択がある。 1. 連続尺度の変数をそのまま共変量とする 2. 連続尺度の変数をダミー化する 3. 加法モデルを用いる 1.は、変数の影響が線形(直線的)であることを仮定してしまう。非線形性が疑われる場合には、一度、３水準以上のダミー変数としてモデルに組み込んで分析(2.)するか、加法モデルを用いて分析(3.)し、線形性を確認してから、線形モデルを用いることも考えられる。参考文献 * [岡田安功 (2010) "パス解析"](https://cogpsy.educ.kyoto-u.ac.jp/personal/Kusumi/datasem10/okada.pdf) (たぶん院生さんのゼミ資料) * [小塩真司 (2010年代) "パス解析"](http://www.f.waseda.jp/oshio.at/edu/data_b/10_folder/da10_01.html) (講義資料) ## 探索的な仮説の検証データから母集団の中に異質な集団(群、層、クラス、クラスタ等)を見出し、その集団の間でのアウトカムの差異を検討する探索的なアプローチもある。リサーチクエスチョンまたは仮説の条件部が定性的な表現の場合に、このアプローチが用いられる。 1. クラスタリング→クラスタ間のアウトカム比較 2. クラスタリング→クラスタ別モデルのクラスタ間比較このときクラスタリングに用いる手法には、次のようなものがある。 * 階層クラスタリング (n数が少ない場合、デンドログラムが読める場合) * 非階層クラスタリング (k平均法) * 混合分布(潜在プロファイル分析, 正規混合分布) * 潜在クラス分析距離に基づくクラスタリング(計量クラスタリング)が連続尺度のデータに望ましい一方で、すべての変数が離散尺度(分類または順序)のデータには潜在クラス分析が望ましい。ただし潜在クラス分析の局所独立の仮定は、少し慎重に見守るのが良い気がする。参考文献 * [岡田安功 (2010) "パス解析"](https://cogpsy.educ.kyoto-u.ac.jp/personal/Kusumi/datasem10/okada.pdf) (たぶん院生さんのゼミ資料) * [小塩真司 (2010年代) "パス解析"](http://www.f.waseda.jp/oshio.at/edu/data_b/10_folder/da10_01.html) (講義資料) * [岡太彬訓, 木島正明, 守口剛 (2001) 「マーケティングの数理モデル」経営科学のニューフロンティア6, 朝倉書店. ](https://www.asakura.co.jp/detail.php?book_code=27516) * [竹林吉武 (2015) "潜在クラス分析"](https://www.slideshare.net/yoshitaket/ss-56356699) (研究会資料) * [稲垣祐典, 前田忠彦 (2015) "潜在クラス分析による「日本人の国民性調査」における信頼の意味とその時代的変遷の検討"](https://www.ism.ac.jp/editsec/toukei/pdf/63-2-277.pdf) (論文) * [三輪哲 (2009) "計量社会学ワンステップアップ講座 (3) 潜在クラスモデル入門"](https://www.jstage.jst.go.jp/article/ojjams/24/2/24_2_345/_article/-char/ja/) (論文) ## 因果の探索手法による探索。 1. アウトカムを分けるような主成分分析 ($\neq$ 主成分回帰) 2. アウトカムを分けるような潜在クラス分析 3. パネルデータと潜在クラス分析目的を設定した探索。 1. 自殺率に影響を与える社会要因の分析 2. 介護サービスの評価指標の開発仮説に基づく探索 1. フレイルの評価 ## さいごにデータ駆動型の研究活動をデータサイエンスと呼ぶことにします。 * 問題の設定への、なぜその問題が重要ですか、という問いかけにデータに基づくエビデンスが提示される * 問題解決や課題達成の方策の提案に対して、なぜその方策に到達しましたか、という問いかけにデータに基づくエビデンスが提示される * どのようにその方策は有効ですか、という問いかけにデータに基づくエビデンスが提示されるこれらのうち最初の２つ、もしくは３つすべてを満たす活動はデータサイエンスの側面を持っていると言えます。データからエビデンスを引き出すために、統計的な手法や機械学習的な手法があり、それらを学ぶために、日本では数理・AI・データサイエンスの教育が推進されています。ぜひ皆さんの研究、また今後のキャリアで活かせるように、学生のうちに実践経験を積んでもらえればと思います。そのために学位請求のための研究以外のコンテスト等に参加することは、お勧めできます。失敗できる(表彰には至らない)のは、学生のうちだけですし、データに対して適切なリサーチクエスチョンを設定し、仮説を持つことに成功できたら、あとは分析するだけですから。