quality-management-2023
自殺の要因を調べる。
自殺率に関連するところ。
どのぐらいをXにおけばいいのか。
死亡率。
厚労省の自殺統計。
都道府県別、10万人あたりの自殺死亡者数。
47都道府県別は年単位。
全国の月別。
率は2種類あります。
前回はPokemon Goと運動習慣の関係を考えていた。
取得できるデータで考え直すことにした。
笹川スポーツ財団のスポーツライフデータ。
男女3000人を300地点で調査したデータ。
アプリ・ゲームの利用を取っていた。
スポーツ習慣の結果を元に。
取扱注意。
救急搬送者数 (都道府県別)
到着時間と所要時間
データの単位はそのまま、データに基づいて語れる単位になる。
データの単位 | 分析の単位 |
---|---|
個票 | 調査単位の間の差異に関する分析が可能だが、 調査単位がサンプルであることを忘れてはならない |
集計 | 集計単位の間の差異に関する分析が可能だが、 集計が推計であることを忘れてはならない |
推計 | 推計単位の間の差異に関する分析が可能だが、推計誤差を考慮に入れる必要がある |
公的統計調査、アンケート調査などの個々の回答データのこと。調査単位の回答がそのまま利用可能なのが、個票データである。研究への活用が最も期待されるが、個人情報のデータでもあるため、利活用の敷居は少し高い。また、無作為抽出されていないと、統計的な分析には使い辛い。
公的統計調査、アンケート調査などの個々の回答データの集計結果のこと。都道府県単位や市区町村単位の統計がこれに当たる。
他のデータの分析をしていて、共変量を追加したくなった際に、こちらから住環境や生活に関する変量を作ってみるとか。
すべてを調査するのではなく、サンプルとして選んだ点のみのデータ。無作為に選んでいれば、個票データとなるが、抽出に作為があると、集計し難い。
土地の公示価格は大まかに「どこの土地か」「駅にどれぐらい近いか」「何に使える土地か」「どれぐらいの大きさか」ぐらいで決まるような印象を抱いた。
連続変数(比尺度、間隔尺度)は傾きを調べることができる。ダミー変数(順序尺度、名義尺度)は、水準の差を調べることができる。ダミー変数を用いる際には、たくさんの種類の水準を持つダミー変数を導入すると、水準ごとの水準値(効果、差の効果など)を推定に用いるサンプル数が小さくなり、精度が悪くなることに注意する。ダミー変数を複数用いる際には、各変数それぞれの水準値の推定と、変数間の水準値の組み合わせの水準値の推定とのバランスを考える。(後ほど、出てくる)
土地単価を作成する。
土地単価, Log土地単価を作成する。
グラフで符号(傾き)とばらつきを確認するぐらい。
Log土地単価を作成する。
住所を見るだけで、ああ、あそこ、と分かる有名な場所ばかり。分析に用いる変数では説明できないプレミアが付いていると感じた。(ダミー変数を導入して分析に含めても良いが、ここでは除外した。)
単価が異様に低いのは一部の工業用地であった。また島嶼地域はそもそも主な交通施設が存在しない。これらも分析に用いる変数では説明できない負のプレミアが付いていると感じた。(ダミー変数を導入して分析に含めても良いが、ここでは除外した。)
ダミー変数を含むデータの重回帰分析で通常の最小二乗推定を用いると、水準ごとの効果の差を推定してくれる。こちらの結果を元に考察するのが、通常は説明しやすい。
モデル式を理解してみよう。
ダミー変数を含むデータの重回帰分析でステップワイズ法を用いると、水準をグループにまとめてくれる。こちらの結果を元に考察してもいいが、たぶん説明が少々複雑になる。ただし、頻度が小さい水準が減るので、統計的にはこちらの方が確かな気がする。
どのようなモデルを推定したかは、モデル式を表示してみると良い。
アウトカム変数に合わせて、他の説明変数も加工する必要が生じる場合がある。同じ量でも、平均を用いるか、合計を用いるか。平均の単位を揃えるか、揃えないか。
都道府県や市区町村などの名義尺度の変数は、それに対応する統計データを用いて、いくつかの連続尺度の変数で置き換えることが可能となる場合がある。その際には、手元のデータに名義尺度変数の各水準値に対応した別のデータを横に並べる(マージする)操作を行う。
時間 | ワークの内容 |
---|---|
5分 | これまでの振り返り |
10分 | 目的とアウトカム変数の相談 |
10分 | データの加工の方針の相談 |
10分 | 試しに加工してみて作業時間の見積り |
5分 | 今日のワークのまとめと次回までのアクションアイテムの整理 |
最終的な提出物は、次の4点だそうです。
提出期限は7月末と考えています。成績報告を考えると、7月一杯かな、という意味です。