第2回主成分分析、アンケートの設計と試行まで

# 第2回主成分分析、アンケートの設計と試行まで ###### tags: `service-data-science-2023` ## 今日の内容 1. 主成分分析 (1時間？) 2. 主成分分析の練習 (30分？) 3. ラダリング法 (30分？) 4. グループワーク (1時間？) ## 主成分分析 ### 主成分分析の手順 1. データを読み込む 2. 一変量の分布を見る 3. 散布図行列とカーネル密度推定を見る 4. 三次元の散布図も見られるようにしておく 5. 層別するか否かを決める 6. 主成分分析を実施する 7. 外れ値を検討する 8. 主成分の数を決める 9. 主成分負荷量と主成分スコアの分布から主成分の意味を解釈する 10. 元のデータに戻って主成分の意味を確認する 11. 主成分分析を確定させる ### 主成分分析の報告に必要なもの ![](https://hackmd.io/_uploads/BydbeXz7j.png) 1. スクリープロット 2. 負荷量行列 3. 主成分軸の解釈 4. 因子負荷量プロット 5. 主成分得点(スコア)プロット ### 主成分分析の実質を忘れない元の変数からの合成変数を作っているだけ。相関係数行列$R$の固有値$\lambda_1, \ldots, \lambda_p$ は各主成分の分散、固有ベクトル$\boldsymbol{w}_1, \ldots, \boldsymbol{w}_p$は各主成分への変換の重みである。 $$ Y_k = \boldsymbol{w}_k^\top \boldsymbol{X} = w_{k1}X_1+w_{k2}X_2+\cdots+w_{kp}X_p, k=1, 2, \ldots, K $$ データの変換も同様。 $$ y_{ki} = \boldsymbol{w}_k^\top \boldsymbol{x}_i = w_{k1}x_{1i}+w_{k2}x_{2i}+\cdots+w_{kp}x_{pi}, k=1, 2, \ldots, K $$ 因子負荷量は第$k$主成分と第$i$変数の相関係数であり、相関係数行列から出発した主成分分析の場合は、固有値の平方根と重みの積に等しい。 $$ l_{kj} = Cor(Z_k, X_j) = \sqrt{\lambda_k}w_{kj} $$ 因子負荷量は、すべての変数を平均$0$、分散$1$に基準化した後での、主成分への変換の重みである。 $$ Y_k = w_{k1}X_1+w_{k2}X_2+\cdots+w_{kp}X_p = l_{k1}Z_1+l_{k2}Z_2+\cdots+l_{kp}Z_p $$ ただし $$ Z_j = \frac{X_j-E\left[X_j\right]}{\sqrt{Var\left[X_j\right]}} $$ ### 主成分スコアのプロットを確認する 1次元の分布を見るヒストグラムには、次のような型を考えることが多い。 [![](https://hackmd.io/_uploads/BkPqlmzQs.png)](https://www.ceodata.com/excel-histogram/) ヒストグラムを用いると、中心とばらつきを見るだけでなく、分布の様子を探ることができる。中心とばらつきに特化したグラフは、箱ひげ図である。 [![](https://hackmd.io/_uploads/ryZS-Qz7s.jpg)](https://project.nikkeibp.co.jp/atcl21f/gdn/aoki/031400021/?P=3) JMPでは、ノンパラメトリック密度などで、二次元の散布図で山が二つ以上あるかどうかを探ることができる。ノンパラメトリック密度推定の表示前：〔分析〕→〔多変量〕→〔多変量〕 ![](https://hackmd.io/_uploads/r1iMGXMQs.png) ノンパラメトリック密度推定の表示後：〔分析〕→〔多変量〕→〔多変量〕→〔赤い▼〕→〔ノンパラメトリック密度推定〕 ![](https://hackmd.io/_uploads/r11XzQG7j.png) 島が複数あるのに、一組の主成分分析で要約するには、それなりの理由づけが必要となる。また、 ### 外れ値について現在行なっている分析に対して、よくない影響を与える可能性があるレコードが外れ値の候補となる。重回帰分析の際にもそうだった。 ### 欠測値について欠測値は、欠測についての仮説なしには、埋めることができない。 ### 主成分分析の練習 1. 成績 2. アンケート ## ラダリング法ラダリング法は「商品やサービスが持つ属性（特徴）が、機能ベネフィット、情緒ベネフィットを経由し、どのような生活価値観・生活信条に結び付くのかを論理的に明らかにすることが可能」な手法。参考文献は次のものを挙げておく。 * 丸岡吉人　（１９９６）　「[ラダリング法のブランド戦略への適用](https://www.jstage.jst.go.jp/article/acs1993/4/1/4_1_25/_article/-char/ja)」, 消費者行動研究, 第4巻1号, pp. 25-40. * 仁平京子 (2006) 「[広告表現戦略におけるラダリング法の意義一消費者の価値と属性との関連性一](https://meiji.repo.nii.ac.jp/records/12601)」, 明治大学社会科学研究所紀要, 第44巻第2号, pp. 319-332. * [ラダリング法](https://www.dm-insight.jp/various-analysis/laddering-method/) (電通マクロミルインサイト) 例えば飲食店の検索サービスを考えると、様々なサービスが既に存在する。地図に紐づいているGoogle地図は言うに及ばず、食べログ、Retty、ヒトサラ、ぐるなび、トリップアドバイザー、ホットペッパーグルメ等々。これら既存のサービスについて、下記のことをとても繰り返す、ラダリングを行う。 * 印象を属性として掲げる、たくさん掲げる * 属性がもたらしているベネフィットを機能という切り口に変換する * 機能的ベネフィットを情緒的ベネフィットに変換する * 情緒的ベネフィットを生活価値観、生活心情に変換するラダリング法を用いる目的は、新しい製品・サービスを企画するための準備としてのアンケートの網羅性の確保にある。寂しいラダリングの結果からは、既存の製品・サービスの再発見しかできないことがある。 ### 手段目的連鎖モデルブランドや商品の属性が、より抽象的な目的のための手段となり、その抽象的な目的がさらに究極的な価値観を目的としたときの手段になっているという考え方が、手段目的連鎖モデル(Gutman, 1982)である。このモデルは、ある属性の差異がより抽象的なレベルの差異に繋がることを、モデル化する階層的に取り扱う。階層の数と各階層の定義は、研究者によってさまざまある。ここではラダリング法の標準的な手法を示したRaynolds and Gutman (1988)等を参考に、4つの階層への分類を示す。 ```graphviz digraph MeanEndChainModel { "価値観" -> "情緒的・心理的ベネフィット" [style=tapered, arrowhead=none, penwidth=7] "情緒的・心理的ベネフィット" -> "機能的ベネフィット" [style=tapered, arrowhead=none, arrowtail=back, penwidth=7, dir=back] "機能的ベネフィット" -> "属性" [style=tapered, arrowhead=none, arrowtail=back, penwidth=7, dir=back] "家族を大事にしたい" -> "安心して運転できる" [style=tapered, arrowhead=none, penwidth=7] "安心して運転できる" -> "衝突しても安全" [style=tapered, arrowhead=none, arrowtail=back, penwidth=7, dir=back] "衝突しても安全" -> "エアバッグ装備" [style=tapered, arrowhead=none, arrowtail=back, penwidth=7, dir=back] } ``` 商品属性から価値観までの抽象化のレベルを、属性、ベネフィット、価値観の３つに分類する。そしてベネフィットを、機能的ベネフィットと情緒的・心理的ベネフィットに分ける。低いレベルの階層ほど、商品やサービス寄りで具体的な概念、高井レベルの階層になるにつれて、消費者寄りで抽象的な概念になる。 |階層|意味| |---|---| |価値観|究極的目的。ベネフィット群を評価するガイドラインとなる| |情緒的・心理的ベネフィット|商品・サービス・ブランドの購買、使用によって得られる情緒面、心理面の便益| |機能的ベネフィット|商品・サービス・ブランドの購買、使用によって得られる機能面の便益| |属性|商品・サービス・ブランドの持つ特徴| なお、渡辺美智子先生はベネフィットを便益、属性を商品属性・設計因子、価値観をライフスタイル・価値・信条と呼んでいる。 ### ラダリング法手段目的連鎖モデルの枠組みにそって、属性 - ベネフィット - 価値観のつながりを、消費者調査で明らかにする手法がラダリング調査である。ラダリングとは「梯子をのぼる」という意味である。消費者が選好する商品やサービス、ブランドが持つ属性を出発点として、調査対象者に「なぜ、その属性を持つことがあなたにとって重要なのか」と問うことがインタビューの基本である。そして、その回答に対してさらに「なぜ、そのことがあなたにとって重要なのか」尋ねるということを繰り返し、調査対象者の持つ価値観に迫る。ラダリングの名称の由来は、この過程に由来すると見られる。標準的なラダリング法の手順は、次の通りである。 1. 実査では1対1の個人インタビューを行う。次の手順を踏む。 1.1 対象間の差異の導出を行う 1.2 梯子登り(ラダリング)の出発点とする差異の選択 1.3 差異からの梯子登り(ラダリング) 1.4 差異と対象との対応の確認 1.5 1人と1組の差異からの出発で1本の手段目的連鎖モデルを作る1.2から1.4の手順を、調査対象者と差異を変えて繰り返す 2. 分析では、調査対象者の梯子登りの回答に対して、次のことを順に行う。 2.1 アフターコーディングによる発言のカテゴリ化 2.2 カテゴリ間の発言順序のカウントによる関連マトリックス作成 2.3 階層的価値マップ作図 2.4 (必要に応じて)対象者属性別の集計や作図、階層的価値マップ上へのブランド価値の表示なども行うラダリング法の詳細は[この文献](https://www.jstage.jst.go.jp/article/acs1993/4/1/4_1_25/_article/-char/ja/)を一読して欲しい。 ## アンケートの設計 ### アンケートの設計この講義でのラダリング法の活用の目的は、手段目的連鎖モデルによる階層的価値マップを作図することにある。単に「どの商品が好きですか？」と尋ねても、その商品が特に好まれる理由が分からない。そこで「なぜこの商品を購入するのか？」と尋ねたり、サンプル商品を２つずつ提示して「どちらが好きか？」と尋ね、「なぜそちらが好きか？」「・・・だから」「なぜ・・・と思うのか？」「・・・だから」という問いかけを繰り返すなどのグループインタビューから、商品が持っている潜在的価値を構造化していく。一般には、後者の問答の繰り返しがラダリング法である。しかし渡辺美智子先生は、グループでディスカッションをしながら、次の階層的価値マップ図を作ることをラダリング法と呼んでいるかもしれない。この場合でも、最初の商品属性(差異)を見つけるところは、一通りブレインストーミング的に行なってから、ラダリングを始めると良い。 ![](https://hackmd.io/_uploads/Hk5TbGMmj.png) ラダリング法の結果をもとに、既存の商品やサービスに関するアンケート項目を決定する。 <table> <tr> <th>ID</th> <th>変数</th> <th>変数型</th> </tr> <tr> <td colspan="2">消費者属性</td> </tr> <tr> <td>A1</td> <td>性別</td> <td>多肢選択 (男性 / 女性 / その他)</td> </tr> <tr> <td>A2</td> <td>年齢</td> <td>整数</td> </tr> <tr> <td>A3</td> <td>セパレートタイプのナース服着用経験</td> <td>二値 (YES/NO)</td> </tr> <tr> <td>A4</td> <td>普段着用しているナース服のタイプ</td> <td>多肢選択 (ワンピースタイプ / セパレートタイプ・スカート / セパレートタイプ・スラックス)</td> </tr> <tr> <td colspan="2">評価対象サンプル</td> </tr> <tr> <td>B</td> <td>対象(商品)サンプル番号</td> <td>多肢選択 (サンプル番号)</td> </tr> <tr> <td colspan="2">評価項目</td> </tr> <tr> <td>X1</td> <td>清潔感がある</td> <td>整数 (5段階評価, 7段階評価など)</td> </tr> <tr> <td>X2</td> <td>仕事ができる感じがする</td> <td>整数 (5段階評価, 7段階評価など)</td> </tr> <tr> <td>X3</td> <td>オシャレである</td> <td>整数 (5段階評価, 7段階評価など)</td> </tr> <tr> <td>X4</td> <td>明るい</td> <td>整数 (5段階評価, 7段階評価など)</td> </tr> <tr> <td>X5</td> <td>長持ちしそう(耐久性・丈夫そう)</td> <td>整数 (5段階評価, 7段階評価など)</td> </tr> <tr> <td>X6</td> <td>かっこいい</td> <td>整数 (5段階評価, 7段階評価など)</td> </tr> <tr> <td>X7</td> <td>動きやすそう</td> <td>整数 (5段階評価, 7段階評価など)</td> </tr> <tr> <td>X8</td> <td>着用しやすい</td> <td>整数 (5段階評価, 7段階評価など)</td> </tr> <tr> <td>X9</td> <td>汗をかいても大丈夫そう</td> <td>整数 (5段階評価, 7段階評価など)</td> </tr> <tr> <td>X10</td> <td>体のラインが隠れそう</td> <td>整数 (5段階評価, 7段階評価など)</td> </tr> <tr> <td>X11</td> <td>着飽きることがなさそう</td> <td>整数 (5段階評価, 7段階評価など)</td> </tr> <tr> <td>X12</td> <td>シンプルである</td> <td>整数 (5段階評価, 7段階評価など)</td> </tr> <tr> <td>X13</td> <td>かわいい</td> <td>整数 (5段階評価, 7段階評価など)</td> </tr> <tr> <td>X14</td> <td>患者さんのウケがよさそう</td> <td>整数 (5段階評価, 7段階評価など)</td> </tr> <tr> <td colspan="2">総合評価項目</td> </tr> <tr> <td>Y1</td> <td>女性看護師の立場で個人的に購入したい</td> <td>整数 (5段階評価, 7段階評価など)</td> </tr> <tr> <td>Y2</td> <td>女性看護師の立場で制服として着用したい</td> <td>整数 (5段階評価, 7段階評価など)</td> </tr> </table> ### アンケートの目的このデータに主成分分析を行い、互いに相関があるかもしれない評価項目から、互いに独立な評価軸を抽出する。 ### アンケートの試作アンケートを実施するには、その仕組みを選定するのが第一歩。「アンケート調査フリー」などと選択すると、[こんなウェブページ](https://form.run/media/contents/form-creation-tools/web-questionnaire-form/)がたくさん見つかる。設問が上の例でも21個あり、また後の分析のためにCSVのダウンロードが必要なので、このことに注意して選定する。 * [CustomForm](https://customform.jp) HTMLタグの利用が有料 * [Googleフォーム](https://docs.google.com/forms/u/0/) 画像を追加できるが、変更ができないので、サンプルごとにフォームを作る？この講義のアンケートは、回答者に提示する商品やサービスのサンプルをすべて評価してもらう。商品やサービスのサンプルを提示することは、これらのいずれでも簡単ではないので、ExcelファイルやGoogleスプレッドシートを作成し、それに回答を記入してもらっても良い。またアンケートには、回答者に問い合わせを行うために、メールアドレスなどを登録してもらうと良い。サンプル数が多いと、回答し忘れなども生じるため。 ### アンケートの試行まずはクラス内で試行してみる。結構大変なはず。本格的に調査する際に協力してもらうので、まだクラス外の人はまだ温存しておく。 ## 今週からのグループワークなんか今日は忙しそうです。 ### グループの編成今学期は1グループあたり4人を想定している。サービスデータサイエンスと多変量因果解析は一と続きの科目で、サービスデータサイエンスで集めたデータを多変量因果解析でも利用する。ただし両科目で同じグループ構成とは限らないし、自分が集めたのではないデータを分析することもある。 ### 分析して改善したい商品・サービスなどの対象の相談と選定 |時間|内容| |---|---| |5分|[miro](https://www.miro.com/)などを用いて、アイディアを出し合う。| |10分|それぞれのアイディアを褒め合うコメントを追加していく(ブレインストーミングは基本、前向き、ノリツッコミ)| |5分|一旦、決めてみる| ### サンプル(画像)の収集 |時間|内容| |---|---| |10分〜15分|サンプル素材の収集と貼り付け| ### 一対比較による差異の抽出 |時間|内容| |---|---| |結構かかる|1組ずつ比較して差異を挙げていく| ### ラダリングの実施 |時間|内容| |---|---| |結構かかる|差異一つ一つを上に抽象化していく|