Try   HackMD

QM FW2023 Week #5

tags: quality-management-2023

今日のアジェンダ

  1. 進捗と相談
  2. 予測変数の入れ方
  3. 今週のグループワーク

進捗と相談

各グループからの発表と相談。
データを集めて、分析してみて、困ったことを相談してもらえるといいかな、と考えています。

  • 概念図と特性要因図とデータと重回帰分析は、最終的には対応している必要があります。
  • ロジックモデルの中にそれらがぱしっと嵌るとかっこいいです。
  • この科目の狙いはそういうところにあるようです。

予測変数の入れ方

今日、使うデータは次の二つです。

広告データ

データの図。







Adv



TV

TV



Sales

Sales



TV->Sales





Radio

Radio



Radio->Sales





Newspaper

Newspaper



Newspaper->Sales





このデータの特性要因図はこれしかない。回帰モデルもこの3変数だけでいい?

データを眺める

1変量の分布

分布を見る。

Image Not Showing Possible Reasons
  • The image was uploaded to a note which you don't have access to
  • The note which the image was originally uploaded to has been deleted
Learn More →

  • テレビは0から300まで満遍なく。
  • ラジオは0から50まで満遍なく。
  • 新聞は0から100に向けて単調に減少。
  • 売上高は一山か二山。平均(菱形)は15付近、メディアンは少し上の16。

新聞は50ぐらいまでならラジオと変わらない?
ていうか、新聞に入れる広告って何?

多変数分析

相関係数行列、共分散行列、相関係数行列の逆行列、偏相関係数、散布図行列、相関係数の信頼区間と検定を見ておく。

Image Not Showing Possible Reasons
  • The image was uploaded to a note which you don't have access to
  • The note which the image was originally uploaded to has been deleted
Learn More →

相関係数行列

  • テレビはラジオ、新聞との相関が低い。
  • ラジオと新聞の相関は弱い。
  • 売上高はテレビ、ラジオ、新聞の順に相関が弱くなる。テレビとの相関は強い。

共分散行列

  • ふーん・・・

相関係数行列の逆行列

  • 大きい対角要素は、他の変数の線形結合との相関が大きい。
  • テレビと売上高の対角要素が大きい(9.0389, 10.2660)から、これらの関係が強い?
  • ラジオと新聞はあまり大きくない。
  • 非対角の要素はよく分からない。

偏相関係数行列

  • テレビと売上高の偏相関係数(0.9428)が大きい。
  • ラジオと売上高の偏相関係数(0.6691)はまあまあ。
  • 新聞と売上高の偏相関係数(0.0041)がとても小さい。
  • 新聞は回帰分析に入れなくていいかも・・・?

偏相関係数の確率(p値)

  • 新聞とテレビ、新聞の売上高の偏相関係数は有意ではない。

散布図行列

  • テレビと売上高の散布図は綺麗に右肩上がり。単回帰分析の直線も綺麗に右肩上がり。
  • ラジオと売上高の散布図も右肩上がりに見える。でもテレビと売上高の散布図よりも、縦方向の幅(ばらつき)が大きい。単回帰分析の直線も右肩上がり。
  • 新聞と売上高の散布図は回帰分析をするのが申し訳ない気がする。単回帰分析の直線は右肩上がりでラジオと変わらないように見えて、横軸が2倍のスケールなことに注意すると、やっぱり傾きが低い。

2変量の分布

Image Not Showing Possible Reasons
  • The image was uploaded to a note which you don't have access to
  • The note which the image was originally uploaded to has been deleted
Learn More →

  • テレビと売上高の散布図は、先ほどと同じく、右肩上がりに見える。
  • ラジオと売上高の散布図は、なんとなく潜在クラスが複数ありそう。
  • 新聞と売上高の散布図は、大半の新聞の広告費が40以下に見える。

Image Not Showing Possible Reasons
  • The image was uploaded to a note which you don't have access to
  • The note which the image was originally uploaded to has been deleted
Learn More →

テレビの広告費が低い会社の、ラジオや新聞の広告費は、少ない訳ではない。むしろ満遍なく分布している。

3次元の散布図

Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →

  • テレビとラジオと売上高が、薄っぺらい曲面の上に乗ってる。
  • 曲面は2枚ありそう。
  • テレビと売上高の傾きが、ラジオが増えると高くなってるように見える。

Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →

  • 売り上げが少ない点、曲面が2枚に分かれている部分を色分けしてみた。

=+(β+β)+β+

これがデータを読み解いた仮説。

回帰分析

Image Not Showing Possible Reasons
  • The image was uploaded to a note which you don't have access to
  • The note which the image was originally uploaded to has been deleted
Learn More →

  • テレビとラジオ、ラジオと新聞、テレビと新聞の「交差」の項を追加する
  • ステップワイズ法で選んでもらう。

Image Not Showing Possible Reasons
  • The image was uploaded to a note which you don't have access to
  • The note which the image was originally uploaded to has been deleted
Learn More →

こうなった。
データの分析とも齟齬がないので、このモデルを採用する。

  • 3次元散布図が2層に見えたことは、今回は置いておく。

回帰分析

Image Not Showing Possible Reasons
  • The image was uploaded to a note which you don't have access to
  • The note which the image was originally uploaded to has been deleted
Learn More →

何もかも順調。

  • てこ比プロットは孤立点が2,3個。
  • すべての項が有意。
  • 残差プロットで、マイナスが大きな点が1つ。
  • 標準化残差でも4シグマ超えが1つ。
  • R2乗は0.9以上。
  • 残差の正規プロットは赤の範囲内。
  • 交互作用プロットでやはり、傾きが異なってる。

ワインのデータ (JMPのサンプルデータより)

link text







Adv



Rater (品評者)

Rater (品評者)



Rating

Rating



Rater (品評者)->Rating





Variety (葡萄の種類)

Variety (葡萄の種類)



Variety (葡萄の種類)->Rating





Field (畑)

Field (畑)



Field (畑)->Rating





De-Stem (除梗)

De-Stem (除梗)



De-Stem (除梗)->Rating





Yeast (酵母)

Yeast (酵母)



Yeast (酵母)->Rating





Temperature

Temperature



Temperature->Rating





Press (搾汁)

Press (搾汁)



Press (搾汁)->Rating





Barrel Age (樽齢)

Barrel Age (樽齢)



Barrel Age (樽齢)->Rating





Barrel Seasoning (樽の乾燥)

Barrel Seasoning (樽の乾燥)



Barrel Seasoning (樽の乾燥)->Rating





Filtering (ろ過)

Filtering (ろ過)



Filtering (ろ過)->Rating





Image Not Showing Possible Reasons
  • The image was uploaded to a note which you don't have access to
  • The note which the image was originally uploaded to has been deleted
Learn More →

予測変数のRating以外のすべての説明変数が名義尺度か順序尺度。

Image Not Showing Possible Reasons
  • The image was uploaded to a note which you don't have access to
  • The note which the image was originally uploaded to has been deleted
Learn More →

平均が等しいかどうかの検定をしたくなりそう。

これらの変数はすべてダミー変数に置き換えられる。

  • ダミー変数を含む回帰分析は、ダミー変数に関しては水準ごとの平均、また平均の差を推定している。
  • ダミー変数に限らず、変数同士を組み合わせた効果が存在しそうかを、変数を整理しながら考える。
  • ダミー変数の係数の推定精度は、その水準を持つデータの個数に依存する。例えば性別の差がダミー変数に入っている場合に、性の水準ごとのデータの個数の差が大きいと、それぞれの水準の効果、また効果の差の推定精度が悪くなることがある。
  • 交互作用(複数の変数の水準の組み合わせの効果ーそれぞれの水準の効果)の推定精度は、水準組み合わせごとのデータの個数に依存する。

グループワーク

あと3回なので、グループごとに分析、または分析の相談をしてみる感じがいいです。

  • ビッグピクチャー(大きな絵、ビジョン)の設定:何のために何を狙うか、それが社会にどう貢献できるかをロジックモデルで展開
  • 回帰分析による攻め手の継続