# QM FW2023 Week #3
###### tags: `quality-management-2023`
## 前回の積み残し
### 講義動画の紹介
[高橋武則先生の講義ビデオ](https://hackmd.io/@watalu/B1_kzr3O9)の紹介。特に第2回は、たぶん私はあまり説明しなくて良さそうな程です。来週以降のグループワークに入る前に、必ず1回は見て学んでおいてください。
### 回帰分析をもう少し理解してもらう
[回帰分析の用語集](https://hackmd.io/@watalu/rya1XAKdc)を作成してみた。
[データの作成例](https://hackmd.io/@watalu/S16Q_1OOc#データの作成例)を作ってみた。
[単回帰分析の例](https://hackmd.io/@watalu/S16Q_1OOc#単回帰分析の(悪い)例)を作ってみたが、バッドエンドだった。
## 今日の授業の流れ
1. 各グループからの発表とディスカッション
2. 回帰分析による予測と分析
2. テーマの選定
3. 概念図、特性要因図、ロジックモデル
4. オープンデータ
5. グループワーク
6. 次回までのお願い
---
## 余談から
[立正大学データサイエンス学部](https://www.ris.ac.jp/ds/)のウェブサイトのムービーコンテンツがかっこいい。
---
## 回帰分析
参考
* [文部科学省 (2020) 高等学校情報科「情報I」教員研修用教材](https://www.mext.go.jp/a_menu/shotou/zyouhou/detail/1416756.htm), [第4章](https://www.mext.go.jp/content/20200722-mxt_jogai02-100013300_006.pdf), 学習22 量的データの分析で用いられている、中古住宅のデータ.
* [文部科学省 (2020) 高等学校情報科「情報Ⅱ」教員研修用教材](https://www.mext.go.jp/a_menu/shotou/zyouhou/detail/mext_00742.html), [第3章 前編](https://www.mext.go.jp/content/20200702-mxt_jogai01-000007843_004.pdf), 学習13 重回帰分析とモデルの決定
* [道具の道具箱](https://rika-net.com/contents/cp0530/contents/index.html)
### 予測(ビジネス)
世の中には予測に基づくビジネスが多い。精度よく予測できることは、それだけ先手を打てる、先回りできる。ただし、精度の高い予測値を得るには通常は、精度の高い測定が必要。
### JMPで中古住宅の価格の予測モデルを作成してみる
テーマ選定のヒント:どんな数字・量・項目を応答変数として精度よく予測できたら、そしてどんな数字・量・項目を説明変数として用いることができたら、価値創造に繋がるか。
```
JMPで中古住宅データを回帰分析して、その結果をまとめてみましょう。
```
データは[これ](https://keio.box.com/s/l4gufopoqduru5envwc37vz9aq56l3mz)をダウンロードし、JMPで読み込む。
### (影響)分析(ビジネス)
アウトカムに対して複数の変数の影響がある場合に、重回帰分析はその影響を足し算と掛け算に分解してくれる。足し算=変数の効果の足し合わせが総合効果。掛け算=変数の値に回帰係数をかけるとその値の効果になる。
### 得点に繋がるプレーを見い出してその効果を見積もる
ワールドカップ2010のデータ。

(これのみ出典不明)
Boxの中の[このファイル](https://keio.box.com/s/dst0675vv5qqcu0ezo1vytez7t9z8xqv)をダウンロードし、JMPで読み込む。
ゴール数を応答変数、他の数を目的変数にして、重回帰分析を行うと、各プレーの効果を見積もることができる。
```
ちょっとやってみましょう。
```
注:分析の前に、データの確認が必要。画像をOCRして変換したデータなので。
### 内挿と外挿
先週、保育所等在所児数を生産年齢人口で予測する分析を行ってみた。切片が12000以上あったのを覚えているだろうか。
* 生産年齢人口が0人でも、保育所等在所児数が12000人以上というモデル。
* これを批判する前に、データの中に生産年齢人口が0人の都道府県があったかどうかを確認すると、そのような都道府県は存在しない。
* 切片批判は誤り。データの中に(生産年齢人口が)ない状況の予測は、外挿と呼ばれる。単回帰分析、重回帰分析のいずれでも外挿による予測は、その採否を慎重に検討すべき。
* 理論モデルを作るなら誤りだが、予測モデルや影響分析モデルとして用いるなら、慎重に用いる。

### 交絡

* 通常ランダム化の行われていない観察研究では,効果を明らかにしたいリスク因子と絡んでさまざまな因子がアウトカムに影響を及ぼすため,それらの因子(交絡因子)の影響を補正する手段として,多変量回帰分析が有効。([第2回(第2933号)](https://www.igaku-shoin.co.jp/paper/archive/y2011/PA02933_08))
* 多くある交絡因子をすべてモデルに加えることは可能なのでしょうか? 答えはNoです。説明変数をモデルに入れ過ぎてしまうとモデルの結果が不安定になるため,サンプル数の小さな研究ではモデルに加えられる変数の数は限られています。データを一切見ず,文献や医学的見地を参照し,アウトカムである死亡に対するリスク因子の中からリスクの大きい順に選び出す。[[第6回(第2949号)](https://www.igaku-shoin.co.jp/paper/archive/y2011/PA02949_04)
* 研究によってはどうしても症例数の少ないものもあります。私が最近かかわった論文で,肺結核患者において抗菌薬のフルオロキノロンの使用が耐性菌発生にかかわるかどうかを調査した研究があります。研究が行われたテネシー州では,2002年からの5年間でフルオロキノロン系薬剤耐性菌を持つ患者は640人の研究参加者のうちわずか20人弱に過ぎませんでした3)。この研究はランダム割付のできない観察研究であったため,年齢,性別,人種,HIV感染の有無などの交絡の補正が重要とされ,これらの交絡因子を基にフルオロキノロンの使用に対する傾向スコアを計算し,モデルには4つの変数を1つの傾向スコアに置き換えて補正することで対処しました。
* この傾向スコアのように,数多くの交絡因子をデータの情報量を保ちながら少数の変数として作り変える方法を「データ・リダクション法」と呼び,最近では多くの研究で交絡を有効的に補正する方法として用いられています。どうしてもサンプル数が足りない場合には,このように統計的な手法を用いて対処できる場合もある
佐藤・松山(2011)[交絡という不思議な現象と交絡を取りのぞく解析](https://www.jstage.jst.go.jp/article/jjb/32/Special_Issue/32_Special_Issue_S35/_pdf)も一読を進める。
### 気を付けること
一昨年に渡辺美智子先生が、[ゴール期待値で見る2019J1リーグ各チームの得点](https://www.football-lab.jp/column/entry/733/)を皆に見せて、次のような課題を課していた。
* チームの診断に関する、[この記事](https://www.football-lab.jp/column/entry/733/)を読んで、概略を記述し、感想を述べなさい。
* 選手の診断に関する、[この記事](https://qoly.jp/2018/05/05/the-20-worst-finishers-in-the-premier-league-according-to-expected-goals-kgn-1)もあります。
何故この課題を課したのだろうか?
---
## データサイエンスの段取り
1996年カナダ

2008年ニュージーランド (2012年に少し[コナン君風](https://new.censusatschool.org.nz/wp-content/uploads/2012/11/data-detective-mature.en_.pdf)に)

2015年日本

2021年[ニュージーランド](https://new.censusatschool.org.nz/resource/data-detective-poster/)

(PPDACと検索すると見つかる図たち。[こんな資料](https://sgh.b-wwl.jp/wp/wp-content/uploads/2015/12/3-2.pdf)も残ってた。)
### テーマの選定 (Problem)
軽々しく決めると損する。
データの取得を検討すると行き詰まり、テーマの変更を余儀なくされることもある。
でもデータに阿ると、他の人が既に行った分析に辿り着くかもしれない。
テーマへの要件。
* データに基づいた実証を行うテーマであること。
* 野心的であること。
* 既にあるデータを用いるのではなく、データを用意することを含めることも検討すること。(例:住宅)
* 健マネらしいテーマであること。
* クオリティというキーワードを覚えています?
過去の発表や論文から出発するのも一つのやり方。でも、研究に拘らなくてもいい。現状に足りないものをデータから浮き彫りにして、それにどう取り組むかを提案していい。(ロジックモデルにどう繋げるか。)
アイディアのシーズ。
* ○○テック。
* 対象にとっての価値の明確化。
* [J リーグ チームの強さとプレイの相関分析](https://www.soumu.go.jp/main_content/000607872.pdf), p.6
参考
* [総務省 (2016〜2017) 統計の調査環境の整備](https://www.soumu.go.jp/toukei_toukatsu/info/guide/stkankyo.htm)
* [渡辺美智子 (2018) データ駆動型超スマート社会を支えるデータサイエンス教育](https://www.juce.jp/LINK/journal/1804/02_02.html), [PDF](https://www.juce.jp/LINK/journal/1804/pdf/02_02.pdf)
* [渡辺美智子・他 (2019) 教育改革FD/ICT理事長・学長等会議開催報告―新時代(第4次産業革命)を展望した人材育成とICT活用を考える―](https://www.juce.jp/LINK/journal/1903/04_02.html), [PDF](https://www.juce.jp/LINK/journal/1903/pdf/04_02.pdf)
### 計画の検討 (Plan)
シナリオの見通し。
* 分析する前に、テーマ自身を分析する。そのための概念図。
* アウトカムに影響を与える因子を洗い出す。そのための特性要因図。
* 分析の結果が、提案や提言に繋がるといい。そうでないと、単なる分析の報告に留まる。ビジネス提案、事業提案、ロジックモデル。
* 必要なデータの検討。
高橋武則先生は、[ビデオ講義の第2回](https://keio.box.com/s/vl1khx43369kfuyfanutgichiip8qenb)でも、概念図と特性要因図から始めるように教えている。たぶんデータ対話型病院経営論Iでも?
渡辺美智子先生は一昨年と昨年に、ロジックモデルを重要視された。
このお二人のアプローチの違いは、本質を見極めることを重視する立場と、アウトカムおよびそれ以降のアピールを重視する立場かもしれない。お二人とも本質的には、同じところを狙っていたような印象を受けている。
#### 概念図
```graphviz
graph A {
node [shape=rectangle style=rounded]
概念図 -- "キーワードを本質的な\n構造でレイアウトした図" [style=bold]
}
```
概念図の要点:一眼で考え方の本質が理解できる
高橋武則先生の講義から。
#### 概念図とは何か?
```graphviz
digraph A {
node [shape=rectangle style=rounded]
"概念" -> "物事の本質をとらえる思考の形式" [style=bold arrowhead=none]
"概念図" -> "概念を\n図にしたもの" [style=bold arrowhead=none]
"概念を\n図にしたもの" -> "物事の構造や関係の\nあらましが分かる\nように描いた図" [style=bold arrowhead=none]
"物事の構造や関係の\nあらましが分かる\nように描いた図" -> "キーワードを配置して\n関係を線で示した図" [style=bold]
"キーワード" -> "重要な鍵となる語" [style=bold arrowhead=none]
"重要な鍵となる語" -> "できるだけ\n定義した方が良い" [style=bold]
}
```
概念図の要点:一眼で考え方の本質が理解できる
(高橋武則先生の講義から。)
#### 概念図の例


(高橋武則先生の講義から。お化粧の例は省略。)
#### 特性要因図
因果関係を体系的に可視化した樹木図
* 要点:体系的かつ網羅的に可視化する
* 注意:整理したリストアップであって因果構造を示してはいない
* 因果構造の明示には構造模型図を用いるとよい
因果関係$\neq$因果構造
1. ある特性に関して、その要因をいろいろあげて整理していく
2. 整理するときの視点(着眼点)によって、同じ特性に関する図でも構造は異なってくる
3. 視点(着眼点)の例
A. 5M1E = Man(人), Machine(機械・設備), Material(材料), Method(方法), Morale(士気), Environment(環境)
B. プロセス(手順)
C. キーワード
D. 役割(組織)
E. 時間順
最も作り易いのは5M1Eに基づく特性要因図。プロセスに基づく特性要因図と役割に基づく特性要因図も比較的に作り易い。キーワードに基づく特性要因図は、概念的なので難しいが、本質を議論する場合には向いている。
5M1Eタイプ。

プロセスタイプ。

キーワードタイプ。

役割タイプ。

(高橋武則先生の講義ビデオ第2回より。この後、講義ビデオはアンケート調査の説明に入る。)
テンプレートの例: [1](https://bizroute.net/cae-diagram.html), [2](https://algorithm.joho.info/computer/fishbone-diagram/#toc4)。他にも良さそうなデザインは参考にするといい。ただしあまり凝ったデザインを用いると、主張が歪んで受け止められてしまうことに注意する。
<img src="https://hackmd.io/_uploads/S1axScHK9.jpg" width="200">
<img src="https://hackmd.io/_uploads/r1ZWBqBtc.jpg" width="200">
<img src="https://hackmd.io/_uploads/S1D-HcHY9.jpg" width="200">
<img src="https://hackmd.io/_uploads/BJs-r5SKc.jpg" width="200">
<img src="https://hackmd.io/_uploads/rkWzB5HF9.jpg" width="200">
<img src="https://hackmd.io/_uploads/BJVQScHFc.jpg" width="200">
<img src="https://hackmd.io/_uploads/B1dXr9HYc.png" width="200">
<img src="https://hackmd.io/_uploads/BJZ4B5BKc.png" width="200">
<img src="https://hackmd.io/_uploads/rJfBSqBKc.jpg" width="200">
<img src="https://hackmd.io/_uploads/BkwrBcHY9.jpg" width="200">
<img src="https://hackmd.io/_uploads/B1nHH9BKc.png" width="200">
<img src="https://hackmd.io/_uploads/r1k8H9rKc.jpg" width="200">
<img src="https://hackmd.io/_uploads/ByNDScHtc.jpg" width="200">
[10 分で理解できる特性要因図|書き方から原因を特定する方法まで](https://navi.dropbox.jp/fishbone-diagram)や[課題解決のヒントは骨?【特性要因図】で原因を特定しよう](https://infinity-agent.co.jp/lab/fishbone-diagram/)の、書き方の部分も参考に。原因は特定できないから、参考にしてはいけない。

このテンプレートが見つからない。
#### 事業とは
```graphviz
digraph A {
node [shape=rectangle]
rankdir = LR
ヒト・モノ・カネ -> 活動
活動 -> "モノ・コト(サービス)"
"モノ・コト(サービス)" -> 変化・効果
}
|事業の流れ|詳細|
|---|---|
|アウトカム|事業や組織が生み出すことを目的としている変化・効果|
|アウトプット|変化・効果を生み出すために提供するモノ・サービス|
|活動|モノ・サービスを提供するために行う諸活動|
|インプット|諸活動を行うために投入する資源(ヒト・モノ・カネ)|
```graphviz
digraph A {
rankdir = LR
node [shape=rectangle]
インプット -> 活動 -> アウトプット -> アウトカム
}
```
(渡辺美智子先生の講義から。)
#### ロジックモデル
事業の設計図。
```graphviz
digraph A {
rankdir = LR
node [shape=rectangle]
インプット -> 活動 -> アウトプット -> 初期アウトカム -> 中間アウトカム -> 最終アウトカム
}
```
|ロジックモデルの構造|詳細|
|---|---|
|最終アウトカム|事業により達成したい状況、社会インパクトとも呼ばれる|
|中間アウトカム|最終アウトカム実現のために達成したい目的|
|初期アウトカム|中間アウトカム実現のための手段|
|アウトプット|初期アウトカム実現のために提供するモノ・サービス|
|活動|アウトプットを提供するために行う諸活動|
|インプット|活動に投入する資源(ヒト・モノ・カネ)|
ロジックモデルを作成するにはまず、最終アウトカムから考える。
官公庁で大流行り。[文科省](https://www.mext.go.jp/a_menu/hyouka/kekka/06032711/002.htm), [総務省](https://www.soumu.go.jp/main_content/000670367.pdf), [能代市](https://www.city.noshiro.lg.jp/up/files/www/city/sogo-keikaku/1st-torikumi/h24/archives/118031download.pdf), [経済産業省](https://www.meti.go.jp/policy/policy_management/ebpm/2021logicmodel_rev.pdf), [内閣府](https://www8.cao.go.jp/hyouka/yuushikisha-28/sankou6-2.pdf), [内閣府](https://www.cao.go.jp/others/kichou/ebpm/h28_si_chousa_11.pdf), [成育医療研究センター](https://www.mhlw.go.jp/content/11908000/000872572.pdf), [神奈川県](https://www.pref.kanagawa.jp/documents/47881/guide_hajimete.pdf), [内閣府](https://www.npo-homepage.go.jp/uploads/h28-social-impact-sokushin-chousa-02.pdf), [オムロン](https://www.omron.com/jp/ja/technology/omrontechnics/2020/OMT_Vol53_003JP.pdf),
(渡辺美智子先生の講義から。)
#### ロジックモデルの作り方
説得力のあるロジックモデルを作るには
* 多角的な視点が不可欠
* もれなくダブりなくさまざまな仮説を出し切る
必要なもの
* 複数のメンバー
* 本音を言い合える関係
* 付箋 (miroで代替)
* 筆記具
* 時間
手順は単純で、次の3つの掘り下げを繰り返していく。
1. 「誰の、どんな問題を解決したい?」
2. 「そのために達成すべき目標って何だろう?」
3. 「その目標を達成するために必要な手段は何だろう?」
そうして出てきた案をひとつずつ付箋に書き出し、たくさん貼る。付箋同士を繋いだ矢印は、ロジックの仮説なので、「このロジックは本当にそうか?」と問い掛け合って、さらに検討する。
こういう大きな枠組みの中で、データを分析し、提言や提案に繋げる練習。
ロジックモデルの例は、次の資料たちを参考に。
* [W. K. Kellogg財団(2001) ロジックモデル策定ガイド](https://www.maff.go.jp/primaff/about/center/hokoku/attach/pdf/200308_hk066.pdf) ((財)農林水産奨励会 農林水産政策情報センターによる翻訳版)
* [日本財団(2019) ロジックモデル策定ガイド](https://www.nippon-foundation.or.jp/app/uploads/2019/01/gra_pro_soc_gui_03.pdf) (ソーシャルイノベーター支援制度2017の申請書類にロジックモデルが必須となったことに合わせて公開されたもの)
* [日本財団(2021) 図解の大御所・ロジックモデルにできること・できないこと](https://nf-startup.jp/report/details/2526/)
* [社会的インパクト・マネジメント・イニシアチブ (201X) ロジックモデル解説](https://simi.or.jp/tool/logic_model)
* [社会的インパクト・マネジメント・イニシアチブ (2017〜2019) ツールセット](https://simi.or.jp/tool/tool-set)
* [社会的インパクト・マネジメント・イニシアチブ (201X) 社会的インパクト・マネジメント・ガイドライン Ver.2](https://simi.or.jp/tool/practice_guide)
(渡辺美智子先生の講義から。)
### データの取得・収集・用意 (Data)
データの役割はいろいろ。
* 提言や提案に繋げるための素材、根拠、エビデンス。
* 現状の把握。
* 提言や提案の効果の評価。
データで語る。


オープンデータの活用は一案。オープンデータそのものについてはまず[総務省ICTスキル総合習得プログラム](https://www.soumu.go.jp/ict_skill/)のコース4で学んでほしい。
政府・行政のオープンデータ。
* [e-Stat 政府統計の総合窓口](https://www.e-stat.go.jp/)
* [RESAS 地域経済分析システム](https://resas.go.jp/)
* 政府CIRポータルの[オープンデータ](https://cio.go.jp/policy-opendata)
* デジタル庁の[オープンデータ](https://www.digital.go.jp/resources/open_data/)
* [データカタログ](https://www.data.go.jp/?lang=ja)
* [神奈川県オープンデータサイト](https://www.pref.kanagawa.jp/dst/index.html)
* [藤沢市オープンデータライブラリ](https://www.city.fujisawa.kanagawa.jp/dxs/shise/kekaku/kakushu/datalibrary.html)
* [東京都オープンデータカタログサイト](https://portal.data.metro.tokyo.lg.jp/)
* [埼玉県オープンデータポータル](https://opendata.pref.saitama.lg.jp/)
* [千葉県オープンデータサイト](https://www.pref.chiba.lg.jp/gyoukaku/opendata/index.html)
* [介護サービス情報の公表制度](https://www.mhlw.go.jp/stf/kaigo-kouhyou.html)
スポーツ。
* [Jリーグデータサイト](https://data.j-league.or.jp/SFTP01/)
* [野球のデータが見えるサイトまとめ](https://funfan-baseball.com/baseball-data-sites/)
* [SPAIA](https://spaia.jp/)
コンペティション・コンテスト:オープンなデータ。
* [統計データ分析コンペティション](https://www.nstac.go.jp/statcompe/), (過去受賞論文あり)
* [Kaggle](https://www.kaggle.com/)
* [SIGNATE](https://signate.jp/)
コンペティション・コンテスト:オープンではないデータ。
* [データビジネス創造ラボ・コンソーシアム(慶應SFC)](https://dmc-lab.sfc.keio.ac.jp/v2/) ([第15回データビジネス創造コンテスト 「寿命100歳時代を生き抜く知恵」 参加者募集中!](https://dmc-lab.sfc.keio.ac.jp/v2/?p=1329), [JMDCヘルスケアデータ概要](https://dmc-lab.sfc.keio.ac.jp/v2/?p=1327))
* [データ解析コンペティション](https://jasmac-j.jimdofree.com/%E3%83%87%E3%83%BC%E3%82%BF%E8%A7%A3%E6%9E%90%E3%82%B3%E3%83%B3%E3%83%9A%E3%83%86%E3%82%A3%E3%82%B7%E3%83%A7%E3%83%B3/)
* [スポーツデータ解析コンペティション](https://sports.ywebsys.net/about.html)
他に自ら対象を評価してデータを作成するのも一案。
* 中古住宅データを、住宅情報サイトから入手し、自ら評価して作成してもいい。
* 大学の立地条件と受験倍率の関係?
#### データの種類
* 介入研究 (データに現れる効果の大きさの差は条件の差。ただし統一にした条件の条件付きで、統一にしなかった因子と交絡の可能性あり。)
* 観察研究 (データに現れる効果の大きさは一般には条件の差ではない。)
### 分析 (Analysis)
回帰分析。
### 検討・考察・結論 (Conclusion)
ここで如何に、既存の研究例との差別化を図り、新規性を出すか。
---
## 今日のグループワーク
|目安|内容|
|---|---|
|5分|今日までの振り返り|
|15分|(各自からもしくは先週の打ち合わせに基づく)テーマの提案と意見のすり合わせ|
|10分|概念図を描いてみる|
|5分|どんなデータが欲しいかを議論する|
|5分|まとめ|
* グループワークは、誰かの提案に対する批判のみの発言はNGです。批判するぐらいなら、対案を提示して、ディスカッションの幅を広げましょう。
* グループワークは、周囲のディスカッションに乗っているだけもNGです。頑張ってアピールし合いましょう。その刺激し合いが、外へのアピールの素晴らしさに繋がります。
* miroやPowerPoint Onlineを使っている場合は、意見の書き込みを話しながら順番にやっていくといいです。(Round robin scheduling.)
* 最初のうちは恥ずかしがらず、何でも言ってみましょう。(Don't be shy.)
---
## 宿題
テーマに合わせたデータを探してみてくる。
次回に今日のグループワークの結果(テーマ、概念図)と、データの案または構想を提示してもらう。
---
## 参考
### 社会的インパクトマネジメントの実践ステップ
1. 社会的インパクト・マネジメントの目的設定 (計画)
2. 問題分析と課題の特定 (計画)
3. 戦略策定・検証 (計画)
4. 事業計画と評価計画の策定 (計画)
5. 事業実施とモニタリング (実行)
6. データ分析 (効果の把握)
7. 結果の報告と活用 (報告・活用)
データを使う場所が、計画のところと、効果の把握のところ、つまり事業の実施後にもある。
([社会的インパクトマネジメントの実践ステップ](https://simi.or.jp/guideline/6-1)より。)