第6回：アンケートデータの分析

# 第6回：調査データの分析 ###### tags: `service-data-science-2023` ## 調査の例無作為に選んだ被調査者(客体)に協力を依頼し、リサーチクエスチョンに直接に関わる変数(調査項目)を尋ね、分析の際に必要となる変数(属性)と共に回答してもらうのが調査である。調査者(主体)にはそのリサーチクエスチョンを探求する正当性が必要であり、被調査者が協力したくなるような働きかけも必要である。例えば、インダストリアルデザインを研究する学生が、市場に出回っているスマートフォンから5台を選び、それらのデザインの評価を、15歳から35歳までの男女100人に依頼するような計画で調査することを考える。次の項目を各製品について、感じたことを尋ねる。 * 画面の大きさ * ボディの厚さ * カメラの位置 * ボタンの位置 * ボタンの有無 * 色 * 重さ * ボディの形状 * 画面の形状 * モデルの買替意欲(アウトカム1) * モデルの買替意欲の理由(アウトカム1) * モデルの推薦意欲(アウトカム2) * モデルの使いやすさ(アウトカム3) * モデルの携行のしやすさ(アウトカム4) また日常のスマートフォンの使い方を尋ねる。これは、使い方によって評価の仕方に差異があるかどうか、分析したいためである。 * スマートフォンの持ち歩き方（カバンの中、専用バッグ、胸ポケット、お尻のポケット、上着のポケット、手で握ったまま） * スマートフォンの操作の際の保持の仕方（握る、手のひらに載せる、テーブル等の上に置く、他） * スマートフォンの操作の手 (把持している方の手の指、反対の指、他) * スマートフォンの操作の仕方（指の腹、爪、スタイラス、他） * スマートフォンの買い替えの間隔（１年程度、２年程度、３年程度、４年以上） * FELICA機能の利用（利用している、していたがやめた、利用したことがない） * バーコード決済の利用（利用している、していたがやめた、利用したことがない） * １日のスマートフォンの使用時間（操作や閲覧を行っている時間、例えば待ち受けで時計等が表示されている時間は除く）（１時間以内、１〜２時間、２〜３時間、３時間以上）さらに基本的な属性も尋ねる。これも、層によって評価の仕方や基準に差異があるかどうか、分析したいためである。 * 年齢 * 性別（男性・女性） * 職業（高校、専門学校・短大・大学・大学院、会社員、自営業、他） * 住居（家族と同居、一人暮らし） * 通勤・通学時間 (片道) (30分以内、30分〜1時間、1時間〜1時間半、1時間半〜2時間、2時間以上) * 主要な通勤・通学手段 (通勤・通学時間の最も長い時間を占める手段) (徒歩、自転車、オートバイ、バス、電車、モノレール、他) * 1ヶ月のスマートフォンの使用料 (契約料、通信料、通話料、スマートフォンのローンなど、電話会社に支払う金額で、d払いなどの決済や、電話会社を通じたサービスの使用料は除く) * 1ヶ月のスマートフォンにかける金額 (アプリ購入、サービスのサブスクリプション、アプリ内の課金等で、上で尋ねた使用料を除く) * 1ヶ月のスマートフォンを利用した決済の金額 (FELICA、バーコードの総額) ## 最初の分析最初に集計するのは、スマートフォンそれぞれについての調査項目である。またどういう人に回答してもらったかも集計する。 * 5段階の評価なら、平均、標準偏差の単純集計。このようなデータには、積み上げ縦棒も一つの表現手段だが、数字で論じるために、必ず平均と標準偏差を併記する。 * 年齢はヒストグラムを描く。男女に分けた人口ピラミッドでも良い。 * 性別、職業等は分類の間に順序や優劣がないので、円グラフを用いても良い。 * 性別と職業の組み合わせを比較したい場合には、性別の職業棒グラフの併記か、レーダーチャートも一案。これらから、被調査者(回答者)の概要の報告と、そのような被調査者の回答の概要の報告が行える。通常、調査の報告はこのような項目ごとの集計から始まる。 ## 次の分析に行く前にそもそも、このような調査を行うには、先行研究や理論に基づいた仮説が必要である。 ```graphviz digraph Cellular { rankdir = BT ユーザ体験 -> 選好価格 -> 選好ブランド -> 選好 } ``` 例えばこのような概念図の下で、ユーザ体験を次のように掘り下げる。 ```graphviz digraph Cellular { rankdir = BT "外観" -> ユーザ体験角 -> "外観" 丸 -> 角鋭 -> 角グリップ -> "外観" あり -> グリップなし -> グリップ "把持のし易さ" -> ユーザ体験大きさ -> "把持のし易さ" 厚さ -> "把持のし易さ" 形状 -> "把持のし易さ" "操作のし易さ" -> ユーザ体験ボタンの有無 -> "操作のし易さ" ボタンの位置 -> "操作のし易さ" ボタンの数 -> "操作のし易さ" "手にかかる負荷" -> ユーザ体験重さ -> "手にかかる負荷" バランス -> "手にかかる負荷" "保護シール" -> ユーザ体験 "カメラ操作" -> ユーザ体験 "FELICA支払い" -> ユーザ体験ロック解除 -> ユーザ体験指紋 -> ロック解除顔 -> ロック解除 } ``` これで尽きているかを確認し、それぞれの要素がどのような価値に繋がるかをラダリングで分析する。その後に、選好の方向に予想をつけて、１回目の調査を実施する。 ## 次の分析次は層別分析。被調査者の属性の把握のために調査に加えた変数ごとに、調査項目の層別集計を行う。 * １日あたりの使用時間別の把持感覚の解析 (ホールド感が有用そうなら) * 年齢・職業別の使用時間の解析（使用時間の向こうにユーザ層が透けて見えるか） * 男女別の重さの感覚の解析 * 大きさと重さと把持感覚の解析 * 男女とデザイン性の解析 * 男女と機能性の解析 * 把持感覚とデザインと機能と選好との関係の解析このような分析を通じて、データに基づく仮説を構築していく。ただしこの仮説は、検証するのではなく、定量化するのが目的である。このレベルの解析で結論を説明することもしばしばである。 ## コンジョイント分析複数のモデル、製品、サービスを比較して、一意な選好順序を付与したデータを考える。選好順位を$R$とするとき、各属性の変数$X_1, \ldots, X_4$を説明変数(予測変数、モデル効果)、$R$を目的変数(Y)として回帰分析(モデルのあてはめ)を実施すると、各変数の水準効果を推定できる。 ```graphviz digraph ConjointModel { X1, X2, X3, X4 [shape=square] R [shape=circle] X1 -> R X2 -> R X3 -> R X4 -> R } ``` ここで推定したパラメータを部分効用値という。この回帰分析の方法は全部で3通りある。 1. $Y$にする目的変数の尺度を連続尺度に、モデル効果に入れる説明変数の尺度を名義尺度に設定して、モデルのあてはめを実施する。(標準最小２乗による重回帰分析) 2. $Y$にする目的変数の尺度を順序尺度に、モデル効果に入れる説明変数の尺度を名義尺度に設定して、モデルのあてはめを実施する。(順序ロジスティック回帰) 3. 消費者行動の中の選択モデル。これは省略。方法1は線形回帰分析を用いる。これで推定した部分効用値は、順位そのものに関する効用値である。各属性の水準の、順位が高くなる($R$は小さくなる)ような組み合わせを選ぶことになる。方法2は順序ロジスティック回帰を用いる。これは、ある順位以上となる確率$p_k=Pr[R\leq k]$を $$ \log \frac{p_k}{1-p_k} = \beta_{0i} + \beta_1 x_1 + \cdots + \beta_k x_k $$ と表すモデルである。各データを$R\leq k$または$R>k$の二つの場合に読み替え、二項分布(ベルヌーイ分布とも)を仮定してパラメータを推定する。ここでも各属性の水準の、順位が高くなる(対数オッズ比は低くなる)ような組み合わせを選ぶことになる。方法3はプロファイルカードの作成からJMPに手伝ってもらうので、今回は省略。方法1または方法2による分析の結果は、[先週の資料の推定のあたり](https://hackmd.io/@watalu/ryYTA_Ezp#効用値の推定)からまとめていく。 ## その次の分析やっと相関や因果についての分析を始める。ここまで、各変数の分布の様子、変数間のおよその関係、そして回答の構造を記述的に検討してきた。どの変数がどの変数にどのように影響を及ぼしているかも、集計から見てきた。これを定量的なモデルに仕上げていくのが、次の分析である。高橋先生はこちらの型を念頭に置かれている。四角は主成分分析。 ```graphviz digraph Model { X1, X2, X3, X4, Y1, Y2 [shape=square] X3 -> G2 X4 -> G2 X1 -> G1 X2 -> G1 G1 -> H [style=dashed] G2 -> H [style=dashed] H -> Y1 [dir=back] H -> Y2 [dir=back] subgraph cluster_1 { color=blue X1 X2 G1 } subgraph cluster_2 { color=blue X3 X4 G2 } subgraph cluster_3 { color=blue Y1 Y2 H } } ``` 変数の群は仮説に基づいて自分で決める。主成分は少なくて大丈夫。渡辺先生はこちらの型を念頭に置かれている。四角は因子分析。 ```graphviz digraph Model { X1, X2, X3, X4, Y1, Y2 [shape=square] X1 -> G2 [dir=back style=dotted color=gray] X2 -> G2 [dir=back style=dotted color=gray] X3 -> G2 [dir=back] X4 -> G2 [dir=back] X1 -> G1 [dir=back] X2 -> G1 [dir=back] X3 -> G1 [dir=back style=dotted color=gray] X4 -> G1 [dir=back style=dotted color=gray] G1 -> H1 [style=dashed] G2 -> H1 [style=dashed] G1 -> H2 [style=dashed] G2 -> H2 [style=dashed] H1 -> Y1 H1 -> Y2 H2 -> Y1 H2 -> Y2 subgraph cluster_1 { color=blue X1 X2 X3 X4 G1 G2 } subgraph cluster_2 { color=blue Y1 Y2 H1 H2 } } ``` 変数の群は因子分析で見つける。主成分分析を行ってから因子分析を行なっても良いが、通常はどちらか一つしかしない。私も変数を群分けするなら、因子分析と回転の活用をお勧めする。ただし変数に関する事前知識に基づいて、少ない変数群に主成分分析を実施する前のアプローチよりは、一般に大きめのサンプルサイズを必要とする。これで各説明変数と各アウトカム変数の間の構造を推定する。 ## オプション分析：層別男女別、あるいは年齢を二分して年齢別に、同じ分析を行なってみる。 ## そのまた次の分析ここまでに構築したモデルをベースにして、共分散構造分析(構造方程式モデリング, SEM)を行ってみる。 ```graphviz digraph Model { e1, e2, e3, e4 [shape=circle] e1 -> X1 e2 -> X2 e3 -> X3 e4 -> X4 X1, X2, X3, X4, Y1, Y2 [shape=square] X1 -> G2 [dir=back style=dotted color=gray] X2 -> G2 [dir=back style=dotted color=gray] X3 -> G2 [dir=back] X4 -> G2 [dir=back] X1 -> G1 [dir=back] X2 -> G1 [dir=back] X3 -> G1 [dir=back style=dotted color=gray] X4 -> G1 [dir=back style=dotted color=gray] G1 -> H1 [style=dashed] G2 -> H1 [style=dashed] G1 -> H2 [style=dashed] G2 -> H2 [style=dashed] H1 -> Y1 H1 -> Y2 H2 -> Y1 H2 -> Y2 e5, e6 [shape=circle] Y1 -> e5 [dir=back] Y2 -> e6 [dir=back] subgraph cluster_1 { style=dashed color=blue G1, G2, H1, H2 } } ``` 前の分析で男女別、あるいは年齢を二分して年齢別に、同じ分析を行なった結果で、２群でパラメータが大きく異なった場合には、共分散構造分析も２群に分けて行ってみると良い。 ## 別のアプローチ潜在クラス分析。