Try   HackMD

QM FW2023 Week #4

tags: quality-management-2023

今日のアジェンダ

  1. 各グループの報告とコンサルティング
  2. データの種類
  3. 回帰分析の例
  4. グループワーク

グループからの報告とコンサルティング

グループA

自殺の要因を調べる。
自殺率に関連するところ。
どのぐらいをXにおけばいいのか。

死亡率。

厚労省の自殺統計。
都道府県別、10万人あたりの自殺死亡者数。

47都道府県別は年単位。
全国の月別。

率は2種類あります。

グループB

前回はPokemon Goと運動習慣の関係を考えていた。
取得できるデータで考え直すことにした。

笹川スポーツ財団のスポーツライフデータ。

男女3000人を300地点で調査したデータ。
アプリ・ゲームの利用を取っていた。
スポーツ習慣の結果を元に。

取扱注意。

グループC

救急搬送者数 (都道府県別)

到着時間と所要時間

人口動態
経済的要因
環境要因

データの種類

データの単位はそのまま、データに基づいて語れる単位になる。

データの単位 分析の単位
個票 調査単位の間の差異に関する分析が可能だが、 調査単位がサンプルであることを忘れてはならない
集計 集計単位の間の差異に関する分析が可能だが、 集計が推計であることを忘れてはならない
推計 推計単位の間の差異に関する分析が可能だが、推計誤差を考慮に入れる必要がある

個票データ

公的統計調査、アンケート調査などの個々の回答データのこと。調査単位の回答がそのまま利用可能なのが、個票データである。研究への活用が最も期待されるが、個人情報のデータでもあるため、利活用の敷居は少し高い。また、無作為抽出されていないと、統計的な分析には使い辛い。

集計データ

公的統計調査、アンケート調査などの個々の回答データの集計結果のこと。都道府県単位や市区町村単位の統計がこれに当たる。

他のデータの分析をしていて、共変量を追加したくなった際に、こちらから住環境や生活に関する変量を作ってみるとか。

代表点データ

すべてを調査するのではなく、サンプルとして選んだ点のみのデータ。無作為に選んでいれば、個票データとなるが、抽出に作為があると、集計し難い。


回帰分析

ダミー変数を含むデータの回帰分析

土地公示価格のデータ

まず変数一覧を作成して、概念図を描く

土地の公示価格は大まかに「どこの土地か」「駅にどれぐらい近いか」「何に使える土地か」「どれぐらいの大きさか」ぐらいで決まるような印象を抱いた。

このデータを分析する目的の設定

  • 公示価格のばらつきの構造を探る。

データの構造を確認する

  • 市区町村と用途区分はダミー変数
  • 他の変数も多くがダミー変数
  • 連続変数は地積、間口、奥行、当年価格、前面道路の幅員、交通施設までの道路距離、指定建蔽率、指定容積率
  • 整数変数は地上階、地下階

連続変数(比尺度、間隔尺度)は傾きを調べることができる。ダミー変数(順序尺度、名義尺度)は、水準の差を調べることができる。ダミー変数を用いる際には、たくさんの種類の水準を持つダミー変数を導入すると、水準ごとの水準値(効果、差の効果など)を推定に用いるサンプル数が小さくなり、精度が悪くなることに注意する。ダミー変数を複数用いる際には、各変数それぞれの水準値の推定と、変数間の水準値の組み合わせの水準値の推定とのバランスを考える。(後ほど、出てくる)

アウトカム変数を作成する

土地単価を作成する。

各変数の分布を確認する

  • 回帰分析に用いる変数の当たりを付ける。
  • 分析から取り除くレコードの候補を見つけておく。

単回帰分析を行う

土地単価, Log土地単価を作成する。
グラフで符号(傾き)とばらつきを確認するぐらい。

重回帰分析を行う #1

外れ値を見出す

  • 単価が異様に高いレコードがある
  • 単価が異様に低いレコードがある

アウトカム変数を作成する

Log土地単価を作成する。

重回帰分析を行う #2

外れ値を取り除く

  • 単価が異様に高いレコードも分析対象から除外する。

住所を見るだけで、ああ、あそこ、と分かる有名な場所ばかり。分析に用いる変数では説明できないプレミアが付いていると感じた。(ダミー変数を導入して分析に含めても良いが、ここでは除外した。)

  • 単価が異様に低いレコードと島嶼地域のレコードを分析対象から除外する。

単価が異様に低いのは一部の工業用地であった。また島嶼地域はそもそも主な交通施設が存在しない。これらも分析に用いる変数では説明できない負のプレミアが付いていると感じた。(ダミー変数を導入して分析に含めても良いが、ここでは除外した。)

重回帰分析を行う #3

通常の最小二乗推定

ダミー変数を含むデータの重回帰分析で通常の最小二乗推定を用いると、水準ごとの効果の差を推定してくれる。こちらの結果を元に考察するのが、通常は説明しやすい。

モデル式を理解してみよう。

ステップワイズ法

ダミー変数を含むデータの重回帰分析でステップワイズ法を用いると、水準をグループにまとめてくれる。こちらの結果を元に考察してもいいが、たぶん説明が少々複雑になる。ただし、頻度が小さい水準が減るので、統計的にはこちらの方が確かな気がする。

どのようなモデルを推定したかは、モデル式を表示してみると良い。


データの加工

変数の加工

アウトカム変数に合わせて、他の説明変数も加工する必要が生じる場合がある。同じ量でも、平均を用いるか、合計を用いるか。平均の単位を揃えるか、揃えないか。

データのマージ

都道府県や市区町村などの名義尺度の変数は、それに対応する統計データを用いて、いくつかの連続尺度の変数で置き換えることが可能となる場合がある。その際には、手元のデータに名義尺度変数の各水準値に対応した別のデータを横に並べる(マージする)操作を行う。


グループワークの続き

時間 ワークの内容
5分 これまでの振り返り
10分 目的とアウトカム変数の相談
10分 データの加工の方針の相談
10分 試しに加工してみて作業時間の見積り
5分 今日のワークのまとめと次回までのアクションアイテムの整理
  • そろそろスライドは作り始めた方がいいようです。
  • 分析も始めて頂いて、分析の練り上げと、結論のイメージの相談も、開始するぐらいの方が良さそうです。

最終的な提出物は、次の4点だそうです。

  1. 抄録 (WordかPDF、2段組)
  2. ポスター (PDF、GIMPやPhotoshop、InkscapeやIllustratorなどで作成?PowerPointで作成する人もいるかも?)
  3. スライド (PowerPoint)
  4. データ (形式自由ですが、ExcelかCSVでしょうか)

提出期限は7月末と考えています。成績報告を考えると、7月一杯かな、という意味です。