# ボストンの住宅価格のデータ ###### tags: `quality-management` ## データの出自 データの入手先: [CMUのStatLib](http://lib.stat.cmu.edu/datasets/boston) データに付与されていた説明: The Boston house-price data of Harrison, D. and Rubinfeld, D.L. 'Hedonic prices and the demand for clean air', J. Environ. Economics & Management, vol.5, 81-102, 1978. Used in Belsley, Kuh & Welsch, 'Regression diagnostics ...', Wiley, 1980. N.B. Various transformations are used in the table on pages 244-261 of the latter. 変数(上のファイルの中の記載順): |Variable|Details| |---|---| |CRIM|per capita crime rate by town| |ZN|proportion of residential land zoned for lots over 25,000 sq.ft.| |INDUS|proportion of non-retail business acres per town| |CHAS|Charles River dummy variable (= 1 if tract bounds river; 0 otherwise)| |NOX|nitric oxides concentration (parts per 10 million)| |RM|average number of rooms per dwelling| |AGE|proportion of owner-occupied units built prior to 1940| |DIS|weighted distances to five Boston employment centres| |RAD|index of accessibility to radial highways| |TAX|full-value property-tax rate per $10,000| |PTRATIO|pupil-teacher ratio by town| |B|1000(Bk - 0.63)^2 where Bk is the proportion of blacks by town| |LSTAT|% lower status of the population| |MEDV|Median value of owner-occupied homes in $1000's| |Variable|Details|JMP| |---|---|---| |CRIM|町別の「犯罪率」|犯罪率| |ZN|25,000平方フィートを超える区画に分類される住宅地の割合=「広い家の割合」|区画| |INDUS|町別の「非小売業の割合」|産業| |CHAS|チャールズ川のダミー変数(区画が川に接している場合は1、そうでない場合は0)|川| |NOX|「NOx濃度(0.1ppm単位)」=一酸化窒素濃度(parts per 10 million単位)|窒素酸化物| |RM|1戸当たりの「平均部屋数」|部屋数| |AGE|1940年より前に建てられた持ち家の割合|築年| |DIS|5つあるボストン雇用センターまでの加重距離|距離| |RAD|「主要高速道路へのアクセス性」の指数|高速道路| |TAX|10,000ドル当たりの「固定資産税率」|税| |PTRATIO|町別の「生徒と先生の比率」|先生と生徒の比| |B|「1000(Bk - 0.63)」の二乗値。Bkは「町ごとの黒人の割合」|-| |LSTAT|「低所得者人口の割合」|低所得者| |MEDV|「住宅価格」(1000ドル単位)の中央値。通常はこの数値が目的変数として使われる|住宅価格| Chales Riverはボストンの中心が河口で、ケンブリッジとの境界を流れる川。 [![](https://hackmd.io/_uploads/Bky_GEzO5.png)](https://ja.wikipedia.org/wiki/チャールズ川) 1900年のチャールズ川。 ![](https://hackmd.io/_uploads/B1osYQm_c.jpg) Employment centresはいわゆるハローワーク?住宅街にはなさそう。 ![](https://hackmd.io/_uploads/HyC5eVfdc.png) ![](https://hackmd.io/_uploads/Bymd5QmO9.png) Radial highwaysは放射状に伸びる高速道路。 [![](https://hackmd.io/_uploads/HkVCbNfd5.jpg)](https://www.aaroads.com/guides/i-095-ma/) 変数RADは実は順序尺度。 JMPのデータは、Bを除いてある。 ```graphviz graph concept { node [shape=box] 1 [label="犯罪率"] 2 [label="区画"] 3 [label="産業"] 4 [label="川"] 5 [label="窒素酸化物"] 6 [label="部屋数"] 7 [label="築年"] 8 [label="距離"] 9 [label="高速道路"] 10 [label="税"] 11 [label="生徒/先生"] 12 [label="低所得者"] 13 [label="住宅価格"] rankdir=LR 1 -- 13 2 -- 13 2 -- 6 3 -- 13 4 -- 13 5 -- 13 6 -- 13 7 -- 13 8 -- 13 9 -- 13 13 -- 10 3 -- 8 5 -- 8 9 -- 8 11 -- 13 12 -- 13 2 -- 11 } ``` ## データの分析の目的 目的変数について 1. 影響の大きい要因を特定する 2. 未来の値を予測する 3. 未来の値を操作する これらが(重)回帰分析の主な目的です。 誰の立場に立って、これらの目的を掲げるか、でも分析が異なります。 ## 分析のシナリオ 1. まずデータのテーブルを眺めます。 2. 次に変数がそれほど多くなければ概念図を描きます。 3. 目的が最適化であれば特性要因図も描きます。 4. やっと〔1変量の分布〕 5. そして〔2変量の関係〕 6. さらに〔相関係数行列〕 7. 最後にやっと〔モデルのあてはめ〕