Try   HackMD

QM FW2023 Week #2

tags: quality-management-2023

前回の振り返りと反省

前回は次のような内容を予定していましたが、いろいろあって、総崩れでした。

  1. 初めに
  2. 全員の自己紹介 (教員、TA、受講生、聴講生)
  3. この授業のガイダンス: クオリティマネジメント, 分析科目共通の目標, 成績評価について
  4. 回帰分析とは、回帰分析チェックシート
  5. JMP Proの導入と紹介、JMPを用いた回帰分析の一例 (ボストンの住宅価格のデータを例に)
  6. Slackの導入とSlackの使い方
  7. 過去の提出物の共有
  8. 回帰分析を用いた研究論文を探してきてまとめる(次回まで, 自分が興味を持っている分野の学術論文が望ましいです)お勧めとお願い
  9. 履修予定の人と様子見の人と聴講のみの人の名簿作り

前回は特に、JMP Proの導入に難儀しました。後期の科目から初めて受講する方々には、事前にJMP Proの導入はお願いするようにします。

  1. SFC CNSのアカウントの認知度の低さに驚きました。
  2. 孝養舎のWi-Fi(keiomobile2)の遅さが致命的でした。

また、レポートにモデル図の要求があったので、動画を急ぎ紹介しました。改めて今回、講義動画について紹介します。(高橋先生が今年もデータ対話型病院経営論にご登壇なさると聞いて、嬉しく思います。)

今回は教員は、教室での有線接続を試みます。これで学生の皆さんのトラフィックを奪わなくなるはず。

今日の内容

  1. 一部の人に宿題(回帰分析を用いた研究の紹介)を説明してもらう
  2. JMP Proによる回帰分析
  3. 改めて講義動画の紹介
  4. 回帰分析をもう少し深く知ってもらう(講義)
  5. グループワークの簡単な説明
  6. グループワークの幾つかのスタイルの紹介
  7. グループワーク1:過去レポを眺めながら、今後の予定を考える

宿題

何人かに説明してもらう。

講義動画の紹介

高橋武則先生の講義ビデオの紹介。特に第2回は、たぶん私はあまり説明しなくて良さそうな程です。来週以降のグループワークに入る前に、必ず1回は見て学んでおいてください。

回帰分析をもう少し理解してもらう

回帰分析の用語集を作成してみた。

データの作成例を作ってみた。

単回帰分析の例を作ってみたが、バッドエンドだった。

グループワークの簡単な説明

グループワークの目的

この科目でグループワークを導入する狙いは、グループワークの課題への取り組みを通した、サービスの科学的質向上のための要因分析の手法の理解と活用法の実践的な習得にある。

テーマは、データサイエンスに基づくサービス向上の新しいアプローチの提案、かな。要するに、データに基づかないと提案できない新しいことを提案して欲しい。

用いる分析手法は、重回帰分析に限る。

グループワークを次のステップで進行させてもらう。

  1. ターゲットとする商品・サービスの決定、決定に至る背景の説明
    • なぜ、これを対象とすることが社会にとって重要なのか、を説明する
    • 先行研究や研究仮説を含めた概念図を作成する
    • このステップでは、ロジックモデルを検討することが有効かもしれない
  2. ターゲットとした商品やサービスの価値を測る計量的指標
    Y
    の決定
    • 価格、販売額、利用者数、売上高、奏功率、満足度、いいね数、☆の数など
    • アウトカム
    • 重回帰分析の
      Y
      に用いる変数
    • 重回帰分析の変数
      Y
      はターゲット変数、目的変数、アウトカム変数、被説明変数、従属変数、予測変数など様々に呼ばれる
    • なぜその指標が、ターゲットの価値を表すのか、を記述できるように検討すること
    • 他の考えられる指標もいくつか挙げておき、最も相応しいものを選ぶこと
    • データの検討1: データの種類
      {観察研究, 介入研究}
    • データの検討2: データの種類
      {個表データ, 集計データ}
    • データの検討3: サンプリングの種類
      {単純無作為抽出, 層化無作為抽出, 2段抽出, 全数}
    • データの検討4: 介入の割り付けの種類
      {ランダム化, 非ランダム化}
    • データの種類5: 介入の有無
      {無, 有(制御、診断、判断)}
    • 症例研究はサンプルサイズが
      1
  3. ターゲットとした商品・サービスの間での、価値指標のばらつきが起こる要因の考察
    • Y
      の変動要因をどのような側面で捉えるかを検討する。
      Y
      の数字が定まるターゲットのプロセス、ターゲットの種類ごとのプロファイル、ユーザプロファイル、ものづくりなら4Mや5M+E、など。
    • コトづくり(Weblio)、サービスの価値創造の特徴量は?
    • 狩野モデル(ベリサーブ社の記事)
      Image Not Showing Possible Reasons
      • The image was uploaded to a note which you don't have access to
      • The note which the image was originally uploaded to has been deleted
      Learn More →
    • 特性要因図を作成する(他に概念図、ロジックモデル、要因関連図なども有効かも)
  4. ターゲットの価値
    Y
    の変動を説明する原因系指標(変数)の決定
    • 説明変数、独立変数、予測変数
  5. データの取得と構造化データへの整理
    • 構造化データを用意する (行列形式、スプレッドシート形式、リスト形式、ワイド形式(vs ロング形式、パネルデータ分析の基礎と応用(三輪, 2013)を参考)、矩形データ、観測対象が縦方向で変数が横方向の表)
  6. 重回帰分析とモデル選択
    • 採用した指標による商品サービスの価値モデルの構築 (データの収集、重回帰分析、モデル選択)
    • 回帰分析の種類は様々: アウトカムが計数値の場合は重回帰分析ではなく、ロジスティック回帰や対数線形回帰かも
    • 内生変数がある、また潜在変数を考える場合にはSEMも検討することになる (JMPでは手が届かない)
  7. 結果の解釈と考察
  8. ターゲットとした商品・サービスの価値創造(あるいは価値向上)のための提案
    • 提案のリコメンドのための可視化も必要
  9. 行った分析の限界の考察と今後の課題の明確化
  10. プレゼンテーション、抄録、ポスターの作成 (ポスターはプレゼンテーションをベースにしていい)

「多くの学生にとって,どの側面をとっても初めての経験でハードルの高さが感じられるかとも 思われますが,逆にいえば,どの側面も新しい新鮮な経験と受け止め,仲間と共に集団での学び の力を信じ,新しい知識や発見を得ることを楽しむ余裕を持つことが大切です。」(笑顔か真顔で)

役割決め

人数が多い時は、ファシリテータ(司会進行役)と記録役を立てる。人数が少ない時は、司会役だけ立てる。

  1. 会議のファシリテーションをするための準備
  2. 目的・ゴールを定める
  3. 質問のしやすい環境を整える
  4. 中立の立場を貫く (毎回、違う人をファシリテータに立てることも一案)
  5. 発表の場でのタイムコントロール (全体で40分)
  6. 発言者が偏らないようにする (一人の意見で討論が大きく動くときは他の人にも意見を求める)
  7. 発言が続かない場合は引き出す (順番を決めて発言してもらうなど)
  8. さまざまな意見を歓迎する (miroやGoogle Presentation, PowerPoint Onlineを使ってください)
  9. 話がわかりにくい場合は都度整理する (miroやGoogle Presentation, PowerPoint Onlineを使ってください)
  10. 合意事項を整理し、まとめる (miroやGoogle Presentation, PowerPoint Onlineを使ってください)

だいたいこんなことを気遣いながら、ファシリテータは討論を進める。ファシリテーションは物凄いスキルが必要なように、紹介されることが多い。例えばこちらなど。でも会議を上手に進めるポイント10選のように、実はやってみて上手くいったことを集めていったら、凄くなってしまったのかもしれない。

今回の目的とゴール

グループワークの目的を確認し、毎回のグループワークにその回の目標(マイルストーン)を設定する。

グループワークの 内容
意図 集団学習、実践的力量の向上
目的 サービスの科学的質向上のための要因分析の手法の理解と活用法の実践的な習得
目標 テーマの選定→計画の立案→データの入手→データの分析→結論、 というサイクルで進めるこの授業のグループワークの 第一ステップ(テーマの選定)の相談の計画を立案する。 来週のグループワークのためにメンバーにどんな準備が必要かを検討して、 各自の宿題を決める。

グループワークの時間配分の例

時間の目安 ワークの内容
5分 挨拶と短く自己紹介, 過去にこういうグループワークに参加した経験があれば共有, 司会の決め方の相談, 記録の取り方の相談.
10分 過去の資料を手分けして閲覧し, 設定されているテーマを確認する. テーマを要約して, ホワイトボードに書き出していく.
10分 自分が書き出した過去の資料のテーマごとに, 用いられているデータを確認する. テーマを要約して, ホワイトボードに書き出していく.
10分 テーマを決めるのに必要な要件を検討する
5分 次回のグループワークの内容がテーマの選定だとしたら, 次回までにどのような下準備が必要かを相談して決める.

記録の取り方はオプションが二つ。

オプション1 記録を取る人

  1. 司会
  2. (司会以外の)記録係
  3. 各自で発言しながら書き込む

オプション2 記録を取る先

  1. PowerPoint Online
  2. Google Slides
  3. miro

なるべく、議論しながらそのまま記録が残るのがいい。

Image Not Showing Possible Reasons
  • The image was uploaded to a note which you don't have access to
  • The note which the image was originally uploaded to has been deleted
Learn More →

実践的力量について

実践的力量評価は、次のように定られている。(ILUO基準)

レベル 基準
I 指導を受けながら作業ができる
L 1人で作業ができるが、指導を仰ぐ場合がある
U 1人で作業ができる
O 人に作業を指導できる・他の領域にも活用できる (skill transfer)

大学時代の同期に、いろいろ教えてくれる人がいたら、その人の力量は単にテストで満点を取るレベルを超えていた、ということになる。

解説

回帰分析

歴史的には、親子の身長の関係を調べたところ、親よりも子の方が平均に近くなるという傾向を見つけた、というエピソードに端を発している。このことを「平均への回帰」と呼んだ。

現在の回帰分析は、条件の変数を固定した時の結果の変数の平均のモデルを指して言う。

Y|x1,...,xp=g(x1,...,xp)+ϵE[Y|x1,...,xp]=g(x1,...,xp)

数式だとこのように書く。

ϵは誤差を表す変数。これをグラフで表すとこうなる。







%0



e

e



Y

Y



e--Y




g(x1, x2, ..., xp)

g(x1, x2, ..., xp)



g(x1, x2, ..., xp)--Y




x1

x1



x1--g(x1, x2, ..., xp)




x2

x2



x2--g(x1, x2, ..., xp)




...

...



...--g(x1, x2, ..., xp)




xp

xp



xp--g(x1, x2, ..., xp)




gを略記するとこうなる。







%0



g

g



Y

Y



g--Y




x1

x1



x1--g




x2

x2



x2--g




...

...



...--g




xp

xp



xp--g




e

e



e--Y




もう少し簡略化するとこうなる。







%0



x1

x1



Y

Y



x1--Y




x2

x2



x2--Y










xp

xp



xp--Y




e

e



e--Y




誤差を意識することを忘れなければ、モデル図に誤差を含めなくても誤りではない。







%0



x1

x1



y

y



x1--y




x2

x2



x2--y










xp

xp



xp--y




データに記録される変数を四角で囲む。回帰分析では、アウトカムの変数(目的変数という)、条件の変数(説明変数)、アウトカムを直接に測れず代替特性を計測した変数(代替変数)などがある。







%0



x1

x1



x2

x2




...
...




xp

xp




y

y




データに記録されない変数を楕円で囲む。







%0



e

e



線で結ぶのは、互いに関係のある変数同士。ここでいう関係は、相関がある、共変の関係にある、など。







%0



身長

身長



体重

体重



身長--体重




関係がなければ、線では結ばない。







%0



身長

身長



体重

体重



身長--体重




居住地

居住地




回帰分析の活用について

STROBE声明

von Elm, et. al. (2008) The Strengthening the Reporting of Observational Studies in Epidemiology (STROBE) statement: guidelines for reporting observational studies, Journal of Clinical Epidemiology, 61, pp. 344-349.

Strengthening the Reporting of Observational Studies in Epidemiology.

疫学における観察研究の報告の質改善のために、そのような報告が何を満たすべきかを宣言した声明。

「交絡調整のための多変量モデルによる調整解析は必須とされている。」(統計数理研究所 野間先生)

TRIPOD声明

個別の予後や診断に関する多変量予測モデルの透明性ある報告のためのガイドライン。
和訳あり。

他にも声明はたくさんある

研究法 報告ガイドライン
無作為化比較試験 CONSORT
観察研究 STROBE
系統的レビュー PRISMA
症例報告 CARE
質的研究 SRQR/COREQ
診断精度研究/予測モデル STARD/TRIPOD
医療の質向上の活動 SQUIRE
医療経済評価 CHEERS
動物による非臨床試験 ARRIVE
研究計画書 SPIRIT/PRISMA-P
診療ガイドライン AGREE/RIGHT

EQUATOR Networkにはもっとある。

AMEDも

研究公正高度化モデル開発支援事業 医系国際誌が規範とする研究の信頼性にかかる倫理教育プログラム
(研究開発代表者:信州大学 市川家國 特任教授)

医学系の説明の幾つかのテンプレート的なスタイル

アウトカムの種類

JMPでは3種類。

  1. 連続尺度
  2. 順序尺度
  3. 名義尺度

回帰分析の使用目的

予測 vs 影響分析

  • 条件変更の効果の大きさを測る
  • 比較に際して共変量交絡を取り除く

データの作成例

分析に用いるデータは、一箇所から一つのファイルをダウンロードすれば用意できるとは限らない。複数のデータを結合させて、分析用のデータを作ることもある。以下では、独立行政法人統計センターが提供しているSSDSE(教育用標準データセット)を例に、複数の調査データの調査年を揃えて結合する例を示す。

この中から2021年のSSDSE-B(様々な分野の都道府県別・時系列データを集めたデータセット)とSSDSE-C(都道府県庁所在市別の家計消費データを集めたデータセット)とSSDSE-D(都道府県別の自由時間活動・生活時間データを集めたデータセット)を例に説明する。両方のデータの説明は、こちらこちらを参照してほしい。

まずは最初のページの〔過去のSSDSE〕をクリックする。

このページの下の方にSSDSE-Bの2019年版とSSDSE-Cの2020年版がある。

SSDSE-2019BとSSDSE-2020CのEXCEL版をダウンロードする。

その下にSSDSE-Dの2021年版もある。

SSDSE-DのEXCEL版をダウンロードする。

Q. なぜこれらの組み合わせでダウンロードするか?

A. 調査年度をなるべく近く揃えたデータセットを作るため

  • 3つのEXCELファイルをダウンロードしたら、新しいEXCELファイルを一つ作成し、3つのEXCELファイルの内容を一つのワークシートに横に並べる。細かい作業はこちらを参考に。
  • それぞれの解説から、データの調査年を確認して、SSDSE-Dの調査年(2016年)に近くなるように、SSDSE-Bからフィルタを用いて2016年を抽出したり、SSDSE-Cは男女別ではなく総合のみをもらってきたり、全国合計は不要なので削除したりして、貼り付ける。
  • EXCELで作業するのは、JMPよりはEXCELの方が作業し易いと予想したため。JMPでできる方はJMPで行っても構わない。

あとの作業はこのような感じに進める。およその段取りは次のとおり。

  1. SSDSE-2019Bをダウンロードする
  2. SSDSE-2020Cをダウンロードする
  3. SSDSE-Dをダウンロードする
  4. SSDSE-Dの調査年が2016年なので、EXCELのフィルタを用いて、SSDSE-2019Bから2016年のレコードだけを選択する
  5. SSDSE-2020Cは2017年〜2019年までの3年間の平均なので、2016年とは交わりがないが、最も近い調査結果として代替する。
  6. 全国が入っているファイルでは、全国を消す (保存しなければ元ファイルからは消えない)
  7. 新しいEXCELファイルを作成して、一つのワークシートに三つのデータを順に貼り付けていく
  8. Prefecture(都道府県)などの列が合致しているか確認する
  9. 新しいEXCELファイル名前を付けて保存する
  10. SSDSE-2019B、SSDSE-2020C、SSDSE-Dは保存せずに閉じる

そうして出来上がったのが、このエクセルファイル。ダウンロードして使ってもいい。

なお、どのようなデータでも、分析に利用する前に必ず、データの出自や調査対象、調査方法、調査目的、調査時期、調査項目などを確認すること。

単回帰分析の(悪い)例

最小2乗法によるパラメータ推定

15歳〜64歳の人口と保育園在所児童数の関係について考えてみる。15歳〜64歳の人口は、生産年齢人口と呼ばれる。

  • 一般に生産活動に従事しうる年齢層の人口をいう。年齢層のくぎり方にはいろいろあるが、義務教育年限、平均寿命、社会保障制度などから、先進国では15~64歳、開発途上国では15~59歳とすることが多い。(コトバンク)

生産年齢人口が多いと、保育園在所児童数が多くなるのではないか、という安直な仮説を設定する。







G



生産年齢人口

生産年齢人口



保育園在所児童数

保育園在所児童数



生産年齢人口->保育園在所児童数


β1



誤差

誤差



誤差->保育園在所児童数


σ



=β0+β1×+

これをJMPで分析してみる。

回帰分析の結果

データの散布図に、推定したモデルを描いたグラフ。このグラフの赤線が予測線、赤線の上下方向(垂直方向)の打点との距離が誤差。

予測値と実測値の散布図。この散布図の打点が直線に近いほど、R2乗が1に近くなる。RMSEは、残差の2乗の平均で、予測誤差の大きさを表す指標。RMSEは、予測変数の単位に依存するので注意。

予測値と残差の散布図。予測値+残差=実測値の関係から、予測値と残差の間に関係がないかを読み取る。このグラフでは関係なさそう。

項目 数値
R2乗 0.949837
自由度調整R2乗 0.948722
誤差の標準偏差(RMSE) 9190.896
Yの平均 49633.32
オブザベーション(または重みの合計) 47
要因 自由度 平方和 平均平方 F値
モデル 1 7.1977e+10 7.198e+10 852.0795
誤差 45 3801265881 84472575 p値(Prob>F)
全体(修正済み) 46 7.5779e+10 <.0001*

てこ比プロット。信頼区間が異常に広がってないので大丈夫か。(単回帰分析なので、多重共線性は生じてるはずがない)

ここまで検討して、問題がなければやっと、結果を読み始める。

推定値 標準誤差 t値 p値(Prob>abs(t))
切片 12962.634 1837.246 7.06 <.0001*
15~64歳人口 0.0225118 0.000771 29.19 <.0001*

生産年齢人口が0人でも12962人の保育所等在所児数が予測される?それは幾らなんでも。この子供たちはどこから・・・。生産年齢人口の1人増加に対して、保育所等在所児数は0.0225人増加する?これも、なんか説明が付かない・・・。

回帰分析は、とりあえずデータを入手してみる、回帰分析をやってみる、だとこういうことに陥り易い。そもそもグラフ図を描けば、いい結果が得られるなら、人間いらない。

重回帰分析を行う前に

そもそも人口の内訳で考えると、こうなる。







G



生産年齢人口(15歳以上65歳未満)

生産年齢人口(15歳以上65歳未満)



年少人口(15歳未満)

年少人口(15歳未満)



生産年齢人口(15歳以上65歳未満)--年少人口(15歳未満)




幼稚園在園者数

幼稚園在園者数



年少人口(15歳未満)--幼稚園在園者数




保育所等在所児数

保育所等在所児数



年少人口(15歳未満)--保育所等在所児数




他にも関係ある変数が見つかる。







G



年少人口(15歳未満)

年少人口(15歳未満)



幼稚園数

幼稚園数



年少人口(15歳未満)--幼稚園数




保育所等数

保育所等数



年少人口(15歳未満)--保育所等数




保育所等定員数

保育所等定員数



保育所等数--保育所等定員数




適当に

Yを決めてはいけない。行き当たりばったりは不幸の元。

概念図で考え、特性要因図で攻める

チョコレートの消費量が増えるとノーベル賞受賞者が増えるなどの謎分析はNG。


高橋武則先生のシリーズ講義「データサイエンスにおける可視化と模型化」の第1回と第2回は一度、見ておいてください。