# QM FW2023 Week #5
###### tags: `quality-management-2023`
## 今日のアジェンダ
1. 進捗と相談
2. 予測変数の入れ方
3. 今週のグループワーク
## 進捗と相談
各グループからの発表と相談。
データを集めて、分析してみて、困ったことを相談してもらえるといいかな、と考えています。
* 概念図と特性要因図とデータと重回帰分析は、最終的には対応している必要があります。
* ロジックモデルの中にそれらがぱしっと嵌るとかっこいいです。
* この科目の狙いはそういうところにあるようです。
## 予測変数の入れ方
今日、使うデータは次の二つです。
* [広告費用と売上高のデータ](https://keio.box.com/s/mumphxco10kq0fz1oj6u0yd477z53i91 "Advertising Data")
* [ワインのデータ](https://keio.box.com/s/h862cojzcq0jfgy6ishbckm10llomjx9 "Wine Data")
### 広告データ
データの図。
```graphviz
digraph Adv {
node [shape=rectangle, style=rounded]
rankdir = LR
TV -> Sales
Radio -> Sales
Newspaper -> Sales
}
```
このデータの特性要因図はこれしかない。回帰モデルもこの3変数だけでいい?
### データを眺める
#### 1変量の分布
分布を見る。

* テレビは0から300まで満遍なく。
* ラジオは0から50まで満遍なく。
* 新聞は0から100に向けて単調に減少。
* 売上高は一山か二山。平均(菱形)は15付近、メディアンは少し上の16。
新聞は50ぐらいまでならラジオと変わらない?
ていうか、新聞に入れる広告って何?
#### 多変数分析
相関係数行列、共分散行列、相関係数行列の逆行列、偏相関係数、散布図行列、相関係数の信頼区間と検定を見ておく。

相関係数行列
* テレビはラジオ、新聞との相関が低い。
* ラジオと新聞の相関は弱い。
* 売上高はテレビ、ラジオ、新聞の順に相関が弱くなる。テレビとの相関は強い。
共分散行列
* ふーん・・・
相関係数行列の逆行列
* 大きい対角要素は、他の変数の線形結合との相関が大きい。
* テレビと売上高の対角要素が大きい(9.0389, 10.2660)から、これらの関係が強い?
* ラジオと新聞はあまり大きくない。
* 非対角の要素はよく分からない。
偏相関係数行列
* テレビと売上高の偏相関係数(0.9428)が大きい。
* ラジオと売上高の偏相関係数(0.6691)はまあまあ。
* 新聞と売上高の偏相関係数(0.0041)がとても小さい。
* 新聞は回帰分析に入れなくていいかも・・・?
偏相関係数の確率(p値)
* 新聞とテレビ、新聞の売上高の偏相関係数は有意ではない。
散布図行列
* テレビと売上高の散布図は綺麗に右肩上がり。単回帰分析の直線も綺麗に右肩上がり。
* ラジオと売上高の散布図も右肩上がりに見える。でもテレビと売上高の散布図よりも、縦方向の幅(ばらつき)が大きい。単回帰分析の直線も右肩上がり。
* 新聞と売上高の散布図は回帰分析をするのが申し訳ない気がする。単回帰分析の直線は右肩上がりでラジオと変わらないように見えて、横軸が2倍のスケールなことに注意すると、やっぱり傾きが低い。
#### 2変量の分布

* テレビと売上高の散布図は、先ほどと同じく、右肩上がりに見える。
* ラジオと売上高の散布図は、なんとなく潜在クラスが複数ありそう。
* 新聞と売上高の散布図は、大半の新聞の広告費が40以下に見える。

テレビの広告費が低い会社の、ラジオや新聞の広告費は、少ない訳ではない。むしろ満遍なく分布している。
#### 3次元の散布図
{%youtube w30RRQbD18g %}
* テレビとラジオと売上高が、薄っぺらい曲面の上に乗ってる。
* 曲面は2枚ありそう。
* テレビと売上高の傾きが、ラジオが増えると高くなってるように見える。
{%youtube ly-AYfEnETc %}
* 売り上げが少ない点、曲面が2枚に分かれている部分を色分けしてみた。
$$広告 = 定数 + テレビ (\beta_{テレビ} + ラジオ \beta_{ラジオ・テレビ}) + ラジオ \beta_{ラジオ} + 誤差$$
これがデータを読み解いた仮説。
#### 回帰分析

* テレビとラジオ、ラジオと新聞、テレビと新聞の「交差」の項を追加する
* ステップワイズ法で選んでもらう。

こうなった。
データの分析とも齟齬がないので、このモデルを採用する。
* 3次元散布図が2層に見えたことは、今回は置いておく。
#### 回帰分析

何もかも順調。
* てこ比プロットは孤立点が2,3個。
* すべての項が有意。
* 残差プロットで、マイナスが大きな点が1つ。
* 標準化残差でも4シグマ超えが1つ。
* R2乗は0.9以上。
* 残差の正規プロットは赤の範囲内。
* 交互作用プロットでやはり、傾きが異なってる。
### ワインのデータ (JMPのサンプルデータより)
[link text](https://www.jmp.com/support/help/ja/16.2/index.shtml#page/jmp/example-of-a-custom-design.shtml "title")
```graphviz
digraph Adv {
node [shape=rectangle, style=rounded]
rankdir = LR
"Rater (品評者)" -> Rating
"Variety (葡萄の種類)" -> Rating
"Field (畑)" -> Rating
"De-Stem (除梗)" -> Rating
"Yeast (酵母)" -> Rating
Temperature -> Rating
"Press (搾汁)" -> Rating
"Barrel Age (樽齢)" -> Rating
"Barrel Seasoning (樽の乾燥)" -> Rating
"Filtering (ろ過)" -> Rating
}
```

予測変数のRating以外のすべての説明変数が名義尺度か順序尺度。

平均が等しいかどうかの検定をしたくなりそう。
これらの変数はすべてダミー変数に置き換えられる。
* ダミー変数を含む回帰分析は、ダミー変数に関しては水準ごとの平均、また平均の差を推定している。
* ダミー変数に限らず、変数同士を組み合わせた効果が存在しそうかを、変数を整理しながら考える。
* ダミー変数の係数の推定精度は、その水準を持つデータの個数に依存する。例えば性別の差がダミー変数に入っている場合に、性の水準ごとのデータの個数の差が大きいと、それぞれの水準の効果、また効果の差の推定精度が悪くなることがある。
* 交互作用(複数の変数の水準の組み合わせの効果ーそれぞれの水準の効果)の推定精度は、水準組み合わせごとのデータの個数に依存する。
## グループワーク
あと3回なので、グループごとに分析、または分析の相談をしてみる感じがいいです。
* ビッグピクチャー(大きな絵、ビジョン)の設定:何のために何を狙うか、それが社会にどう貢献できるかを[ロジックモデル](https://hackmd.io/bYtIJPtKSsG9NxzS-ytY9A#講義が目指すところ渡辺先生のメッセージ:2021年度まで)で展開
* 回帰分析による攻め手の継続