Try   HackMD

ボストンの住宅価格のデータ

tags: quality-management

データの出自

データの入手先: CMUのStatLib

データに付与されていた説明:

The Boston house-price data of Harrison, D. and Rubinfeld, D.L. 'Hedonic prices and the demand for clean air', J. Environ. Economics & Management, vol.5, 81-102, 1978. Used in Belsley, Kuh & Welsch, 'Regression diagnostics ', Wiley, 1980. N.B. Various transformations are used in the table on pages 244-261 of the latter.

変数(上のファイルの中の記載順):

Variable Details
CRIM per capita crime rate by town
ZN proportion of residential land zoned for lots over 25,000 sq.ft.
INDUS proportion of non-retail business acres per town
CHAS Charles River dummy variable (= 1 if tract bounds river; 0 otherwise)
NOX nitric oxides concentration (parts per 10 million)
RM average number of rooms per dwelling
AGE proportion of owner-occupied units built prior to 1940
DIS weighted distances to five Boston employment centres
RAD index of accessibility to radial highways
TAX full-value property-tax rate per $10,000
PTRATIO pupil-teacher ratio by town
B 1000(Bk - 0.63)^2 where Bk is the proportion of blacks by town
LSTAT % lower status of the population
MEDV Median value of owner-occupied homes in $1000's
Variable Details JMP
CRIM 町別の「犯罪率」 犯罪率
ZN 25,000平方フィートを超える区画に分類される住宅地の割合=「広い家の割合」 区画
INDUS 町別の「非小売業の割合」 産業
CHAS チャールズ川のダミー変数(区画が川に接している場合は1、そうでない場合は0)
NOX 「NOx濃度(0.1ppm単位)」=一酸化窒素濃度(parts per 10 million単位) 窒素酸化物
RM 1戸当たりの「平均部屋数」 部屋数
AGE 1940年より前に建てられた持ち家の割合 築年
DIS 5つあるボストン雇用センターまでの加重距離 距離
RAD 「主要高速道路へのアクセス性」の指数 高速道路
TAX 10,000ドル当たりの「固定資産税率」
PTRATIO 町別の「生徒と先生の比率」 先生と生徒の比
B 「1000(Bk - 0.63)」の二乗値。Bkは「町ごとの黒人の割合」 -
LSTAT 「低所得者人口の割合」 低所得者
MEDV 「住宅価格」(1000ドル単位)の中央値。通常はこの数値が目的変数として使われる 住宅価格

Chales Riverはボストンの中心が河口で、ケンブリッジとの境界を流れる川。

1900年のチャールズ川。

Employment centresはいわゆるハローワーク?住宅街にはなさそう。

Radial highwaysは放射状に伸びる高速道路。

変数RADは実は順序尺度。

JMPのデータは、Bを除いてある。







concept



1

犯罪率



13

住宅価格



1--13




2

区画



6

部屋数



2--6




11

生徒/先生



2--11




2--13




3

産業



8

距離



3--8




3--13




4





4--13




5

窒素酸化物



5--8




5--13




6--13




7

築年



7--13




8--13




9

高速道路



9--8




9--13




10





11--13




12

低所得者



12--13




13--10




データの分析の目的

目的変数について

  1. 影響の大きい要因を特定する
  2. 未来の値を予測する
  3. 未来の値を操作する

これらが(重)回帰分析の主な目的です。

誰の立場に立って、これらの目的を掲げるか、でも分析が異なります。

分析のシナリオ

  1. まずデータのテーブルを眺めます。
  2. 次に変数がそれほど多くなければ概念図を描きます。
  3. 目的が最適化であれば特性要因図も描きます。
  4. やっと〔1変量の分布〕
  5. そして〔2変量の関係〕
  6. さらに〔相関係数行列〕
  7. 最後にやっと〔モデルのあてはめ〕