第7回 データサイエンス
PPDAC
1996年カナダ
Image Not Showing
Possible Reasons
- The image was uploaded to a note which you don't have access to
- The note which the image was originally uploaded to has been deleted
Learn More →
2008年ニュージーランド (2012年に少しコナン君風に)
Image Not Showing
Possible Reasons
- The image was uploaded to a note which you don't have access to
- The note which the image was originally uploaded to has been deleted
Learn More →
2015年日本
Image Not Showing
Possible Reasons
- The image was uploaded to a note which you don't have access to
- The note which the image was originally uploaded to has been deleted
Learn More →
2021年ニュージーランド
Image Not Showing
Possible Reasons
- The image was uploaded to a note which you don't have access to
- The note which the image was originally uploaded to has been deleted
Learn More →
(PPDACと検索すると見つかる図たち。こんな資料も残ってた。)
テーマの選定 (Problem)
軽々しく決めると損する。
データの取得を検討すると行き詰まり、テーマの変更を余儀なくされることもある。
でもデータに阿ると、他の人が既に行った分析に辿り着くかもしれない。
テーマへの要件。
- データに基づいた実証を行うテーマであること。
- 野心的であること。
- 既にあるデータを用いるのではなく、データを用意することを含めることも検討すること。(例:住宅)
- 健マネらしいテーマであること。
- クオリティというキーワードを覚えています?
過去の発表や論文から出発するのも一つのやり方。でも、研究に拘らなくてもいい。現状に足りないものをデータから浮き彫りにして、それにどう取り組むかを提案していい。(ロジックモデルにどう繋げるか。)
アイディアのシーズ。
参考
計画の検討 (Plan)
シナリオの見通し。
- 分析する前に、テーマ自身を分析する。そのための概念図。
- アウトカムに影響を与える因子を洗い出す。そのための特性要因図。
- 分析の結果が、提案や提言に繋がるといい。そうでないと、単なる分析の報告に留まる。ビジネス提案、事業提案、ロジックモデル。
- 必要なデータの検討。
高橋武則先生は、ビデオ講義の第2回でも、概念図と特性要因図から始めるように教えている。たぶんデータ対話型病院経営論Iでも?
渡辺美智子先生は一昨年と昨年に、ロジックモデルを重要視された。
このお二人のアプローチの違いは、本質を見極めることを重視する立場と、アウトカムおよびそれ以降のアピールを重視する立場かもしれない。お二人とも本質的には、同じところを狙っていたような印象を受けている。
概念図
概念図の要点:一眼で考え方の本質が理解できる
高橋武則先生の講義から。
概念図とは何か?
概念図の要点:一眼で考え方の本質が理解できる
(高橋武則先生の講義から。)
概念図の例
Image Not Showing
Possible Reasons
- The image was uploaded to a note which you don't have access to
- The note which the image was originally uploaded to has been deleted
Learn More →
Image Not Showing
Possible Reasons
- The image was uploaded to a note which you don't have access to
- The note which the image was originally uploaded to has been deleted
Learn More →
(高橋武則先生の講義から。お化粧の例は省略。)
特性要因図
因果関係を体系的に可視化した樹木図
- 要点:体系的かつ網羅的に可視化する
- 注意:整理したリストアップであって因果構造を示してはいない
- 因果構造の明示には構造模型図を用いるとよい
因果関係因果構造
- ある特性に関して、その要因をいろいろあげて整理していく
- 整理するときの視点(着眼点)によって、同じ特性に関する図でも構造は異なってくる
- 視点(着眼点)の例
A. 5M1E = Man(人), Machine(機械・設備), Material(材料), Method(方法), Morale(士気), Environment(環境)
B. プロセス(手順)
C. キーワード
D. 役割(組織)
E. 時間順
最も作り易いのは5M1Eに基づく特性要因図。プロセスに基づく特性要因図と役割に基づく特性要因図も比較的に作り易い。キーワードに基づく特性要因図は、概念的なので難しいが、本質を議論する場合には向いている。
5M1Eタイプ。
Image Not Showing
Possible Reasons
- The image was uploaded to a note which you don't have access to
- The note which the image was originally uploaded to has been deleted
Learn More →
プロセスタイプ。
Image Not Showing
Possible Reasons
- The image was uploaded to a note which you don't have access to
- The note which the image was originally uploaded to has been deleted
Learn More →
キーワードタイプ。
Image Not Showing
Possible Reasons
- The image was uploaded to a note which you don't have access to
- The note which the image was originally uploaded to has been deleted
Learn More →
役割タイプ。
Image Not Showing
Possible Reasons
- The image was uploaded to a note which you don't have access to
- The note which the image was originally uploaded to has been deleted
Learn More →
(高橋武則先生の講義ビデオ第2回より。この後、講義ビデオはアンケート調査の説明に入る。)
テンプレートの例: 1, 2。他にも良さそうなデザインは参考にするといい。ただしあまり凝ったデザインを用いると、主張が歪んで受け止められてしまうことに注意する。
Image Not Showing
Possible Reasons
- The image was uploaded to a note which you don't have access to
- The note which the image was originally uploaded to has been deleted
Learn More →
Image Not Showing
Possible Reasons
- The image was uploaded to a note which you don't have access to
- The note which the image was originally uploaded to has been deleted
Learn More →
Image Not Showing
Possible Reasons
- The image was uploaded to a note which you don't have access to
- The note which the image was originally uploaded to has been deleted
Learn More →
Image Not Showing
Possible Reasons
- The image was uploaded to a note which you don't have access to
- The note which the image was originally uploaded to has been deleted
Learn More →
Image Not Showing
Possible Reasons
- The image was uploaded to a note which you don't have access to
- The note which the image was originally uploaded to has been deleted
Learn More →
Image Not Showing
Possible Reasons
- The image was uploaded to a note which you don't have access to
- The note which the image was originally uploaded to has been deleted
Learn More →
Image Not Showing
Possible Reasons
- The image was uploaded to a note which you don't have access to
- The note which the image was originally uploaded to has been deleted
Learn More →
Image Not Showing
Possible Reasons
- The image was uploaded to a note which you don't have access to
- The note which the image was originally uploaded to has been deleted
Learn More →
Image Not Showing
Possible Reasons
- The image was uploaded to a note which you don't have access to
- The note which the image was originally uploaded to has been deleted
Learn More →
Image Not Showing
Possible Reasons
- The image was uploaded to a note which you don't have access to
- The note which the image was originally uploaded to has been deleted
Learn More →
Image Not Showing
Possible Reasons
- The image was uploaded to a note which you don't have access to
- The note which the image was originally uploaded to has been deleted
Learn More →
Image Not Showing
Possible Reasons
- The image was uploaded to a note which you don't have access to
- The note which the image was originally uploaded to has been deleted
Learn More →
Image Not Showing
Possible Reasons
- The image was uploaded to a note which you don't have access to
- The note which the image was originally uploaded to has been deleted
Learn More →
10 分で理解できる特性要因図|書き方から原因を特定する方法までや課題解決のヒントは骨?【特性要因図】で原因を特定しようの、書き方の部分も参考に。原因は特定できないから、参考にしてはいけない。
Image Not Showing
Possible Reasons
- The image was uploaded to a note which you don't have access to
- The note which the image was originally uploaded to has been deleted
Learn More →
このテンプレートが見つからない。
事業とは
(渡辺美智子先生の講義から。)
ロジックモデル
事業の設計図。
ロジックモデルの構造 |
詳細 |
最終アウトカム |
事業により達成したい状況、社会インパクトとも呼ばれる |
中間アウトカム |
最終アウトカム実現のために達成したい目的 |
初期アウトカム |
中間アウトカム実現のための手段 |
アウトプット |
初期アウトカム実現のために提供するモノ・サービス |
活動 |
アウトプットを提供するために行う諸活動 |
インプット |
活動に投入する資源(ヒト・モノ・カネ) |
ロジックモデルを作成するにはまず、最終アウトカムから考える。
官公庁で大流行り。文科省, 総務省, 能代市, 経済産業省, 内閣府, 内閣府, 成育医療研究センター, 神奈川県, 内閣府, オムロン,
(渡辺美智子先生の講義から。)
ロジックモデルの作り方
説得力のあるロジックモデルを作るには
- 多角的な視点が不可欠
- もれなくダブりなくさまざまな仮説を出し切る
必要なもの
- 複数のメンバー
- 本音を言い合える関係
- 付箋 (miroで代替)
- 筆記具
- 時間
手順は単純で、次の3つの掘り下げを繰り返していく。
- 「誰の、どんな問題を解決したい?」
- 「そのために達成すべき目標って何だろう?」
- 「その目標を達成するために必要な手段は何だろう?」
そうして出てきた案をひとつずつ付箋に書き出し、たくさん貼る。付箋同士を繋いだ矢印は、ロジックの仮説なので、「このロジックは本当にそうか?」と問い掛け合って、さらに検討する。
こういう大きな枠組みの中で、データを分析し、提言や提案に繋げる練習。
ロジックモデルの例は、次の資料たちを参考に。
(渡辺美智子先生の講義から。)
データの取得・収集・用意 (Data)
データの役割はいろいろ。
- 提言や提案に繋げるための素材、根拠、エビデンス。
- 現状の把握。
- 提言や提案の効果の評価。
データで語る。


オープンデータの活用は一案。オープンデータそのものについてはまず総務省ICTスキル総合習得プログラムのコース4で学んでほしい。
政府・行政のオープンデータ。
スポーツ。
コンペティション・コンテスト:オープンなデータ。
コンペティション・コンテスト:オープンではないデータ。
他に自ら対象を評価してデータを作成するのも一案。
- 中古住宅データを、住宅情報サイトから入手し、自ら評価して作成してもいい。
- 大学の立地条件と受験倍率の関係?
データの種類
- 介入研究 (データに現れる効果の大きさの差は条件の差。ただし統一にした条件の条件付きで、統一にしなかった因子と交絡の可能性あり。)
- 観察研究 (データに現れる効果の大きさは一般には条件の差ではない。)
分析 (Analysis)
回帰分析。
検討・考察・結論 (Conclusion)
ここで如何に、既存の研究例との差別化を図り、新規性を出すか。
リサーチクエスチョン
リサーチクエスチョンとは。
- Focused on a single problem or issue
- Researchable using primary and/or secondary sources
- Feasible to answer within the timeframe and practical constraints
- Specific enough to answer thoroughly
- Complex enough to develop the answer over the space of a paper or thesis
- Relevant to your field of study and/or society more broadly
リサーチクエスチョンの書き方。
- Choose your topic
- Do some preliminary reading about the current state of the field
- Narrow your focus to a specific niche
- Identify the research problem that you will address
研究課題からリサーチクエスチョンを育てる例。
Research objectives |
Research question formulations |
Describing and exploring |
What are the characteristics of X? |
|
How has X changed over time? |
|
What are the causes of X? |
|
How has X dealt with Y? |
Explaining and testing |
What is the relationship between X and Y? |
|
What is the role of X in Y? |
|
What is the impact of X on Y? |
|
How does X influence Y? |
Evaluating and acting |
What are the advantages and disadvantages of X? |
|
How effective is X? |
|
How can X be improved? |
例。
Example research problem |
Example research question(s) |
Teachers at the school do not have the skills to recognize or properly guide gifted children in the classroom. |
What practical techniques can teachers use to better identify and guide gifted children? |
Young people increasingly engage in the “gig economy,” rather than traditional full-time employment. However, it is unclear why they choose to do so. |
What are the main factors influencing young people’s decisions to engage in the gig economy? |
FINER (リサーチクエスチョンの評価)
- Feasible 実行可能性
- Interesting 科学的興味深さ
- Novel 新規性
- Ethical 倫理性
- Relevant 必要性
リサーチクエスチョンの構造化
PECO (観察研究の場合) リスク要因の同定・検証
- 「誰を対象者とするのか(Patients)」
- 「どんな要因を取り上げるのか(Exposure)」
- 「比較するものは(Comparison)」
- 「何をアウトカムにするのか(Outcomes)」
PICO (介入研究の場合) 治療法・予防法の評価
- 「誰を対象者とするのか(Patients)」
- 「どんな介入を取り上げるのか(Intervention)」
- 「比較するものは(Comparison)」
- 「何をアウトカムにするのか(Outcomes)」
アウトカムの設定
アウトカム=結果とは、研究の主役といっても過言ではない。但し、アウトカムを設定する場合、次の2点がポイント。
- Measureable(測定できるかどうか。)
- Relevant(切実であるかどうか。)
Measurableかどうかは、測定方法が妥当なものであるかどうか?(正確に測定できるものかどうか?)も重要。Relevantかどうかは、「患者にとって、あるいは社会、医学的上切実な問題であること。」が重要。
参考文献
仮説
リサーチクエスチョンが問いであるのに対して、リサーチクエスチョンに対する答えの候補が仮説である。仮説は主張であり、証明または反証しようとしている事柄を具体的に述べたものになります。仮説を定量的に表現できることが、データサイエンスでは求められる。
エビデンス (病気を対象とする場合)
科学的な仮説のエビデンスによる証明には、実証性、再現性、客観性を持たすことが求められる。定量的に表現された仮説に関して、それなりの大きさの標本に統計的な手法を用いた分析が行われることが多い。
治療の場合。
- 介入研究
- 観察研究
- 前向きコホート(集団追跡)研究
- ケースコントロール研究
- 後向きコホート(集団追跡)研究
- 横断研究
- 症例研究
医療の場合。
- 1症例の詳細研究 (珍しい症状の場合)
- 多症例の研究 (再現性の証明を要する場合)
- 1施設の調査研究 (1施設を詳細に検討できる一方、施設間差を検討できないことが批判される)
- 多施設の調査研究 (施設間差まで検討できる一方、医療、看護、リハビリ等の意思決定の基準や記録のばらつきが懸念される)
社会の場合。
- 1時点の調査データ(地域別、施設別等の集計データ)
- 複数時点の調査データ(パネルデータ)
社会を対象とする場合にも、エビデンスは仮説を支える事実の集まりでなければならない。
母集団の単位である個人のデータ
標本調査
標本調査で収集する場合は、およそ次の手順を経る。
- 研究母集団の設定
- フレームの設定
- 標本抽出法の検討
- 標本抽出の実施
- 標本調査の実施・督促 (正しく答えて頂くところまでが個人情報の活用、個人が特定される分析は行わないのが個人情報の秘匿)
- 回答の審査・必要に応じた疑義照会 ・エディット
参考文献
業務記録の活用
リアルワールドデータは、分析や仮説の検証が、そのデータがカバーする部分母集団の特性の影響を受けることがある。
- カルテ (病院単位)
- 検診 (健康保険組合等が実施する健康診断)
- レセプト (保険請求の記録)
- リアルワールドデータ (カルテがなかったり、病名が保険請求の病名だったり、加入者層が偏っていたり)
- インシデントレポート
- 事故報告書
それぞれの名簿(健康保険組合の加入者一覧等)への登録は全数だが、保険請求がない者がいる点、また健康診断を受診していない者がいる点、そして退職と共に健康保険組合間での異動が生じる点などに注意を要することがある。
参考文献
全数調査
- 全対象に協力を依頼した調査
- オンサイト施設による公的統計ミクロデータの利活用
全数調査は調査母集団に偏りがない。しかし全数調査でも回答率が100%ではない点に注意を要することがある。
実施済みの調査の集計データ
次の表章が公表されていることがある。
データの分析単位を地方自治体、都道府県、地方などに設定した研究では、これらをそのまま活用できることがある。なお、調査の実施主体が公表していない単位の地域別表章が研究の実施に必要となった場合には、調査主体に集計を依頼したり、オンサイト施設を利用して自ら集計するなどが必要となる。
参考文献
インタビュー等
その他、インタビューや実地調査など、エビデンスの収集には定量的なデータ以外もさまざまなアプローチがあるが、ここでは省略。
参考文献
仮説の探索
研究のために収集したデータが定型データの場合に、変数間の関係を探索する方法はいくつもある。
- 主成分分析 (総合指標の構築、低次元の要約の模索)
- 因子分析 (潜在的な低次元の因子の探索)
- グラフィカルモデリング (条件付き独立の関係の探索)
- 共分散構造分析
モデルに基づく仮説の検証
仮説をモデルとして表現し、データへの適合を検証とする。すべてアウトカム変数を目的変数(予測変数)としたモデルをデータから推定する。
- 重回帰分析
- グラフィカルモデリング・共分散構造分析
- 回帰予測や分類予測のための機械学習の手法
重回帰分析の発展的な話題にパス解析と加法モデルがある。パス解析は重回帰分析を繰り返し用い、共変量とアウトカムの間を複数の回帰分析で接続する手法である。さらにすべての変数が離散尺度(分類または順序)の場合に、パス解析と同様の目的で使用できる手法にベイジアンネットワークがある。加法モデルは共変量の効果が非線形であることを許容する回帰手法である。
変数間の構造(関係性)をモデル化する手法として、グラフィカルモデリングや共分散構造分析は有効である。ただしこれらの手法は、モデルに用いる変数が連続尺度であることを仮定する。またこれらの手法は、共分散行列の推定値があれば、元のデータがなくとも推定できる。
多母集団(多層)の場合
解析目的に層間比較が含まれる。
- モデルを全データで共通とするか、層ごとに推定するか
- 層間のアウトカムの差に興味があるなら、先週学んだように平均の差をモデルに組み込む
- 層間の構造の差に興味があるなら、同じく先週学んだように共分散構造を共通にしたり層ごとに分けたりする
多重共線性・ランク落ち
研究のために収集したデータに含まれる変数の間に、モデルのパラメータの推定を阻害する問題が生じていることがある。
- 多重共線性 : 共変量の間の相関が強い、共変量の間に線形制約がある、などが原因で、パラメータ推定が不安定になること。結果として、信頼区間が過度に広くなったり、p値が大きくなったりする。
- ランク落ち : 変数間の相関がとても強い、あるいは変数の間に線形制約がある、などが原因で、共分散行列がフルランクでなくなること。結果として、共分散行列の逆行列が必要な分析すべてが実行不可能となる。たとえば性別ダミーを、男性ダミー、女性ダミー、その他ダミーなどすべての分類に導入すると、ランク落ちが生じる。
性別 |
男 |
女 |
他 |
男 |
1 |
0 |
0 |
男 |
1 |
0 |
0 |
男 |
1 |
0 |
0 |
男 |
1 |
0 |
0 |
女 |
0 |
1 |
0 |
女 |
0 |
1 |
0 |
女 |
0 |
1 |
0 |
他 |
0 |
0 |
1 |
他 |
0 |
0 |
1 |
多重共線性は、相関の強い変数群から主成分分析を用いて総合指標に変換して取り出す、パス解析や共分散構造分析などを用いる、などで回避できることがある。ランク落ちは、原因を探して潰していくしかない。
バイアスの考慮・調整
直接に興味がある介入や侵襲以外にも、比較したいアウトカムに影響を与える要因がある場合に、その影響を取り除く方法がある。
- 回帰分析
- 操作変数法
- 傾向スコア
- その他
回帰分析の場合にはさらに、要因のモデルへの入れ方に数字をそのまま用いるか、ダミー変数を用いるか、の選択がある。
- 連続尺度の変数をそのまま共変量とする
- 連続尺度の変数をダミー化する
- 加法モデルを用いる
1.は、変数の影響が線形(直線的)であることを仮定してしまう。非線形性が疑われる場合には、一度、3水準以上のダミー変数としてモデルに組み込んで分析(2.)するか、加法モデルを用いて分析(3.)し、線形性を確認してから、線形モデルを用いることも考えられる。
参考文献
探索的な仮説の検証
データから母集団の中に異質な集団(群、層、クラス、クラスタ等)を見出し、その集団の間でのアウトカムの差異を検討する探索的なアプローチもある。リサーチクエスチョンまたは仮説の条件部が定性的な表現の場合に、このアプローチが用いられる。
- クラスタリング→クラスタ間のアウトカム比較
- クラスタリング→クラスタ別モデルのクラスタ間比較
このときクラスタリングに用いる手法には、次のようなものがある。
- 階層クラスタリング (n数が少ない場合、デンドログラムが読める場合)
- 非階層クラスタリング (k平均法)
- 混合分布(潜在プロファイル分析, 正規混合分布)
- 潜在クラス分析
距離に基づくクラスタリング(計量クラスタリング)が連続尺度のデータに望ましい一方で、すべての変数が離散尺度(分類または順序)のデータには潜在クラス分析が望ましい。ただし潜在クラス分析の局所独立の仮定は、少し慎重に見守るのが良い気がする。
参考文献
因果の探索
手法による探索。
- アウトカムを分けるような主成分分析 ( 主成分回帰)
- アウトカムを分けるような潜在クラス分析
- パネルデータと潜在クラス分析
目的を設定した探索。
- 自殺率に影響を与える社会要因の分析
- 介護サービスの評価指標の開発
仮説に基づく探索
- フレイルの評価
さいごに
データ駆動型の研究活動をデータサイエンスと呼ぶことにします。
- 問題の設定への、なぜその問題が重要ですか、という問いかけにデータに基づくエビデンスが提示される
- 問題解決や課題達成の方策の提案に対して、なぜその方策に到達しましたか、という問いかけにデータに基づくエビデンスが提示される
- どのようにその方策は有効ですか、という問いかけにデータに基づくエビデンスが提示される
これらのうち最初の2つ、もしくは3つすべてを満たす活動はデータサイエンスの側面を持っていると言えます。
データからエビデンスを引き出すために、統計的な手法や機械学習的な手法があり、それらを学ぶために、日本では数理・AI・データサイエンスの教育が推進されています。ぜひ皆さんの研究、また今後のキャリアで活かせるように、学生のうちに実践経験を積んでもらえればと思います。そのために学位請求のための研究以外のコンテスト等に参加することは、お勧めできます。失敗できる(表彰には至らない)のは、学生のうちだけですし、データに対して適切なリサーチクエスチョンを設定し、仮説を持つことに成功できたら、あとは分析するだけですから。