quality-management-2023
前回は次のような内容を予定していましたが、いろいろあって、総崩れでした。
前回は特に、JMP Proの導入に難儀しました。後期の科目から初めて受講する方々には、事前にJMP Proの導入はお願いするようにします。
また、レポートにモデル図の要求があったので、動画を急ぎ紹介しました。改めて今回、講義動画について紹介します。(高橋先生が今年もデータ対話型病院経営論にご登壇なさると聞いて、嬉しく思います。)
今回は教員は、教室での有線接続を試みます。これで学生の皆さんのトラフィックを奪わなくなるはず。
何人かに説明してもらう。
高橋武則先生の講義ビデオの紹介。特に第2回は、たぶん私はあまり説明しなくて良さそうな程です。来週以降のグループワークに入る前に、必ず1回は見て学んでおいてください。
回帰分析の用語集を作成してみた。
データの作成例を作ってみた。
単回帰分析の例を作ってみたが、バッドエンドだった。
この科目でグループワークを導入する狙いは、グループワークの課題への取り組みを通した、サービスの科学的質向上のための要因分析の手法の理解と活用法の実践的な習得にある。
テーマは、データサイエンスに基づくサービス向上の新しいアプローチの提案、かな。要するに、データに基づかないと提案できない新しいことを提案して欲しい。
用いる分析手法は、重回帰分析に限る。
グループワークを次のステップで進行させてもらう。
「多くの学生にとって,どの側面をとっても初めての経験でハードルの高さが感じられるかとも 思われますが,逆にいえば,どの側面も新しい新鮮な経験と受け止め,仲間と共に集団での学び の力を信じ,新しい知識や発見を得ることを楽しむ余裕を持つことが大切です。」(笑顔か真顔で)
人数が多い時は、ファシリテータ(司会進行役)と記録役を立てる。人数が少ない時は、司会役だけ立てる。
だいたいこんなことを気遣いながら、ファシリテータは討論を進める。ファシリテーションは物凄いスキルが必要なように、紹介されることが多い。例えばこちらなど。でも会議を上手に進めるポイント10選のように、実はやってみて上手くいったことを集めていったら、凄くなってしまったのかもしれない。
グループワークの目的を確認し、毎回のグループワークにその回の目標(マイルストーン)を設定する。
グループワークの | 内容 |
---|---|
意図 | 集団学習、実践的力量の向上 |
目的 | サービスの科学的質向上のための要因分析の手法の理解と活用法の実践的な習得 |
目標 | テーマの選定→計画の立案→データの入手→データの分析→結論、 というサイクルで進めるこの授業のグループワークの 第一ステップ(テーマの選定)の相談の計画を立案する。 来週のグループワークのためにメンバーにどんな準備が必要かを検討して、 各自の宿題を決める。 |
時間の目安 | ワークの内容 |
---|---|
5分 | 挨拶と短く自己紹介, 過去にこういうグループワークに参加した経験があれば共有, 司会の決め方の相談, 記録の取り方の相談. |
10分 | 過去の資料を手分けして閲覧し, 設定されているテーマを確認する. テーマを要約して, ホワイトボードに書き出していく. |
10分 | 自分が書き出した過去の資料のテーマごとに, 用いられているデータを確認する. テーマを要約して, ホワイトボードに書き出していく. |
10分 | テーマを決めるのに必要な要件を検討する |
5分 | 次回のグループワークの内容がテーマの選定だとしたら, 次回までにどのような下準備が必要かを相談して決める. |
記録の取り方はオプションが二つ。
オプション1 記録を取る人
オプション2 記録を取る先
なるべく、議論しながらそのまま記録が残るのがいい。
実践的力量評価は、次のように定られている。(ILUO基準)
レベル | 基準 |
---|---|
I | 指導を受けながら作業ができる |
L | 1人で作業ができるが、指導を仰ぐ場合がある |
U | 1人で作業ができる |
O | 人に作業を指導できる・他の領域にも活用できる (skill transfer) |
大学時代の同期に、いろいろ教えてくれる人がいたら、その人の力量は単にテストで満点を取るレベルを超えていた、ということになる。
歴史的には、親子の身長の関係を調べたところ、親よりも子の方が平均に近くなるという傾向を見つけた、というエピソードに端を発している。このことを「平均への回帰」と呼んだ。
現在の回帰分析は、条件の変数を固定した時の結果の変数の平均のモデルを指して言う。
数式だとこのように書く。
gを略記するとこうなる。
もう少し簡略化するとこうなる。
誤差を意識することを忘れなければ、モデル図に誤差を含めなくても誤りではない。
データに記録される変数を四角で囲む。回帰分析では、アウトカムの変数(目的変数という)、条件の変数(説明変数)、アウトカムを直接に測れず代替特性を計測した変数(代替変数)などがある。
データに記録されない変数を楕円で囲む。
線で結ぶのは、互いに関係のある変数同士。ここでいう関係は、相関がある、共変の関係にある、など。
関係がなければ、線では結ばない。
von Elm, et. al. (2008) The Strengthening the Reporting of Observational Studies in Epidemiology (STROBE) statement: guidelines for reporting observational studies, Journal of Clinical Epidemiology, 61, pp. 344-349.
Strengthening the Reporting of Observational Studies in Epidemiology.
疫学における観察研究の報告の質改善のために、そのような報告が何を満たすべきかを宣言した声明。
「交絡調整のための多変量モデルによる調整解析は必須とされている。」(統計数理研究所 野間先生)
個別の予後や診断に関する多変量予測モデルの透明性ある報告のためのガイドライン。
和訳あり。
研究法 | 報告ガイドライン |
---|---|
無作為化比較試験 | CONSORT |
観察研究 | STROBE |
系統的レビュー | PRISMA |
症例報告 | CARE |
質的研究 | SRQR/COREQ |
診断精度研究/予測モデル | STARD/TRIPOD |
医療の質向上の活動 | SQUIRE |
医療経済評価 | CHEERS |
動物による非臨床試験 | ARRIVE |
研究計画書 | SPIRIT/PRISMA-P |
診療ガイドライン | AGREE/RIGHT |
EQUATOR Networkにはもっとある。
研究公正高度化モデル開発支援事業 医系国際誌が規範とする研究の信頼性にかかる倫理教育プログラム
(研究開発代表者:信州大学 市川家國 特任教授)
JMPでは3種類。
予測 vs 影響分析
分析に用いるデータは、一箇所から一つのファイルをダウンロードすれば用意できるとは限らない。複数のデータを結合させて、分析用のデータを作ることもある。以下では、独立行政法人統計センターが提供しているSSDSE(教育用標準データセット)を例に、複数の調査データの調査年を揃えて結合する例を示す。
この中から2021年のSSDSE-B(様々な分野の都道府県別・時系列データを集めたデータセット)とSSDSE-C(都道府県庁所在市別の家計消費データを集めたデータセット)とSSDSE-D(都道府県別の自由時間活動・生活時間データを集めたデータセット)を例に説明する。両方のデータの説明は、こちらとこちらを参照してほしい。
まずは最初のページの〔過去のSSDSE〕をクリックする。
このページの下の方にSSDSE-Bの2019年版とSSDSE-Cの2020年版がある。
SSDSE-2019BとSSDSE-2020CのEXCEL版をダウンロードする。
その下にSSDSE-Dの2021年版もある。
SSDSE-DのEXCEL版をダウンロードする。
Q. なぜこれらの組み合わせでダウンロードするか?
A. 調査年度をなるべく近く揃えたデータセットを作るため
あとの作業はこのような感じに進める。およその段取りは次のとおり。
そうして出来上がったのが、このエクセルファイル。ダウンロードして使ってもいい。
なお、どのようなデータでも、分析に利用する前に必ず、データの出自や調査対象、調査方法、調査目的、調査時期、調査項目などを確認すること。
15歳〜64歳の人口と保育園在所児童数の関係について考えてみる。15歳〜64歳の人口は、生産年齢人口と呼ばれる。
生産年齢人口が多いと、保育園在所児童数が多くなるのではないか、という安直な仮説を設定する。
これをJMPで分析してみる。
データの散布図に、推定したモデルを描いたグラフ。このグラフの赤線が予測線、赤線の上下方向(垂直方向)の打点との距離が誤差。
予測値と実測値の散布図。この散布図の打点が直線に近いほど、R2乗が1に近くなる。RMSEは、残差の2乗の平均で、予測誤差の大きさを表す指標。RMSEは、予測変数の単位に依存するので注意。
予測値と残差の散布図。予測値+残差=実測値の関係から、予測値と残差の間に関係がないかを読み取る。このグラフでは関係なさそう。
項目 | 数値 |
---|---|
R2乗 | 0.949837 |
自由度調整R2乗 | 0.948722 |
誤差の標準偏差(RMSE) | 9190.896 |
Yの平均 | 49633.32 |
オブザベーション(または重みの合計) | 47 |
要因 | 自由度 | 平方和 | 平均平方 | F値 |
---|---|---|---|---|
モデル | 1 | 7.1977e+10 | 7.198e+10 | 852.0795 |
誤差 | 45 | 3801265881 | 84472575 | p値(Prob>F) |
全体(修正済み) | 46 | 7.5779e+10 | <.0001* |
てこ比プロット。信頼区間が異常に広がってないので大丈夫か。(単回帰分析なので、多重共線性は生じてるはずがない)
ここまで検討して、問題がなければやっと、結果を読み始める。
項 | 推定値 | 標準誤差 | t値 | p値(Prob>abs(t)) |
---|---|---|---|---|
切片 | 12962.634 | 1837.246 | 7.06 | <.0001* |
15~64歳人口 | 0.0225118 | 0.000771 | 29.19 | <.0001* |
生産年齢人口が0人でも12962人の保育所等在所児数が予測される?それは幾らなんでも。この子供たちはどこから・・・。生産年齢人口の1人増加に対して、保育所等在所児数は0.0225人増加する?これも、なんか説明が付かない・・・。
回帰分析は、とりあえずデータを入手してみる、回帰分析をやってみる、だとこういうことに陥り易い。そもそもグラフ図を描けば、いい結果が得られるなら、人間いらない。
そもそも人口の内訳で考えると、こうなる。
他にも関係ある変数が見つかる。
適当に
チョコレートの消費量が増えるとノーベル賞受賞者が増えるなどの謎分析はNG。
高橋武則先生のシリーズ講義「データサイエンスにおける可視化と模型化」の第1回と第2回は一度、見ておいてください。