# ボストンの住宅価格のデータ
###### tags: `quality-management`
## データの出自
データの入手先: [CMUのStatLib](http://lib.stat.cmu.edu/datasets/boston)
データに付与されていた説明:
The Boston house-price data of Harrison, D. and Rubinfeld, D.L. 'Hedonic prices and the demand for clean air', J. Environ. Economics & Management, vol.5, 81-102, 1978. Used in Belsley, Kuh & Welsch, 'Regression diagnostics ...', Wiley, 1980. N.B. Various transformations are used in the table on pages 244-261 of the latter.
変数(上のファイルの中の記載順):
|Variable|Details|
|---|---|
|CRIM|per capita crime rate by town|
|ZN|proportion of residential land zoned for lots over 25,000 sq.ft.|
|INDUS|proportion of non-retail business acres per town|
|CHAS|Charles River dummy variable (= 1 if tract bounds river; 0 otherwise)|
|NOX|nitric oxides concentration (parts per 10 million)|
|RM|average number of rooms per dwelling|
|AGE|proportion of owner-occupied units built prior to 1940|
|DIS|weighted distances to five Boston employment centres|
|RAD|index of accessibility to radial highways|
|TAX|full-value property-tax rate per $10,000|
|PTRATIO|pupil-teacher ratio by town|
|B|1000(Bk - 0.63)^2 where Bk is the proportion of blacks by town|
|LSTAT|% lower status of the population|
|MEDV|Median value of owner-occupied homes in $1000's|
|Variable|Details|JMP|
|---|---|---|
|CRIM|町別の「犯罪率」|犯罪率|
|ZN|25,000平方フィートを超える区画に分類される住宅地の割合=「広い家の割合」|区画|
|INDUS|町別の「非小売業の割合」|産業|
|CHAS|チャールズ川のダミー変数(区画が川に接している場合は1、そうでない場合は0)|川|
|NOX|「NOx濃度(0.1ppm単位)」=一酸化窒素濃度(parts per 10 million単位)|窒素酸化物|
|RM|1戸当たりの「平均部屋数」|部屋数|
|AGE|1940年より前に建てられた持ち家の割合|築年|
|DIS|5つあるボストン雇用センターまでの加重距離|距離|
|RAD|「主要高速道路へのアクセス性」の指数|高速道路|
|TAX|10,000ドル当たりの「固定資産税率」|税|
|PTRATIO|町別の「生徒と先生の比率」|先生と生徒の比|
|B|「1000(Bk - 0.63)」の二乗値。Bkは「町ごとの黒人の割合」|-|
|LSTAT|「低所得者人口の割合」|低所得者|
|MEDV|「住宅価格」(1000ドル単位)の中央値。通常はこの数値が目的変数として使われる|住宅価格|
Chales Riverはボストンの中心が河口で、ケンブリッジとの境界を流れる川。
[](https://ja.wikipedia.org/wiki/チャールズ川)
1900年のチャールズ川。

Employment centresはいわゆるハローワーク?住宅街にはなさそう。


Radial highwaysは放射状に伸びる高速道路。
[](https://www.aaroads.com/guides/i-095-ma/)
変数RADは実は順序尺度。
JMPのデータは、Bを除いてある。
```graphviz
graph concept {
node [shape=box]
1 [label="犯罪率"]
2 [label="区画"]
3 [label="産業"]
4 [label="川"]
5 [label="窒素酸化物"]
6 [label="部屋数"]
7 [label="築年"]
8 [label="距離"]
9 [label="高速道路"]
10 [label="税"]
11 [label="生徒/先生"]
12 [label="低所得者"]
13 [label="住宅価格"]
rankdir=LR
1 -- 13
2 -- 13
2 -- 6
3 -- 13
4 -- 13
5 -- 13
6 -- 13
7 -- 13
8 -- 13
9 -- 13
13 -- 10
3 -- 8
5 -- 8
9 -- 8
11 -- 13
12 -- 13
2 -- 11
}
```
## データの分析の目的
目的変数について
1. 影響の大きい要因を特定する
2. 未来の値を予測する
3. 未来の値を操作する
これらが(重)回帰分析の主な目的です。
誰の立場に立って、これらの目的を掲げるか、でも分析が異なります。
## 分析のシナリオ
1. まずデータのテーブルを眺めます。
2. 次に変数がそれほど多くなければ概念図を描きます。
3. 目的が最適化であれば特性要因図も描きます。
4. やっと〔1変量の分布〕
5. そして〔2変量の関係〕
6. さらに〔相関係数行列〕
7. 最後にやっと〔モデルのあてはめ〕