# 第6回:調査データの分析
###### tags: `service-data-science-2023`
## 調査の例
無作為に選んだ被調査者(客体)に協力を依頼し、リサーチクエスチョンに直接に関わる変数(調査項目)を尋ね、分析の際に必要となる変数(属性)と共に回答してもらうのが調査である。調査者(主体)にはそのリサーチクエスチョンを探求する正当性が必要であり、被調査者が協力したくなるような働きかけも必要である。
例えば、インダストリアルデザインを研究する学生が、市場に出回っているスマートフォンから5台を選び、それらのデザインの評価を、15歳から35歳までの男女100人に依頼するような計画で調査することを考える。
次の項目を各製品について、感じたことを尋ねる。
* 画面の大きさ
* ボディの厚さ
* カメラの位置
* ボタンの位置
* ボタンの有無
* 色
* 重さ
* ボディの形状
* 画面の形状
* モデルの買替意欲(アウトカム1)
* モデルの買替意欲の理由(アウトカム1)
* モデルの推薦意欲(アウトカム2)
* モデルの使いやすさ(アウトカム3)
* モデルの携行のしやすさ(アウトカム4)
また日常のスマートフォンの使い方を尋ねる。これは、使い方によって評価の仕方に差異があるかどうか、分析したいためである。
* スマートフォンの持ち歩き方(カバンの中、専用バッグ、胸ポケット、お尻のポケット、上着のポケット、手で握ったまま)
* スマートフォンの操作の際の保持の仕方(握る、手のひらに載せる、テーブル等の上に置く、他)
* スマートフォンの操作の手 (把持している方の手の指、反対の指、他)
* スマートフォンの操作の仕方(指の腹、爪、スタイラス、他)
* スマートフォンの買い替えの間隔(1年程度、2年程度、3年程度、4年以上)
* FELICA機能の利用(利用している、していたがやめた、利用したことがない)
* バーコード決済の利用(利用している、していたがやめた、利用したことがない)
* 1日のスマートフォンの使用時間(操作や閲覧を行っている時間、例えば待ち受けで時計等が表示されている時間は除く)(1時間以内、1〜2時間、2〜3時間、3時間以上)
さらに基本的な属性も尋ねる。これも、層によって評価の仕方や基準に差異があるかどうか、分析したいためである。
* 年齢
* 性別(男性・女性)
* 職業(高校、専門学校・短大・大学・大学院、会社員、自営業、他)
* 住居(家族と同居、一人暮らし)
* 通勤・通学時間 (片道) (30分以内、30分〜1時間、1時間〜1時間半、1時間半〜2時間、2時間以上)
* 主要な通勤・通学手段 (通勤・通学時間の最も長い時間を占める手段) (徒歩、自転車、オートバイ、バス、電車、モノレール、他)
* 1ヶ月のスマートフォンの使用料 (契約料、通信料、通話料、スマートフォンのローンなど、電話会社に支払う金額で、d払いなどの決済や、電話会社を通じたサービスの使用料は除く)
* 1ヶ月のスマートフォンにかける金額 (アプリ購入、サービスのサブスクリプション、アプリ内の課金等で、上で尋ねた使用料を除く)
* 1ヶ月のスマートフォンを利用した決済の金額 (FELICA、バーコードの総額)
## 最初の分析
最初に集計するのは、スマートフォンそれぞれについての調査項目である。またどういう人に回答してもらったかも集計する。
* 5段階の評価なら、平均、標準偏差の単純集計。このようなデータには、積み上げ縦棒も一つの表現手段だが、数字で論じるために、必ず平均と標準偏差を併記する。
* 年齢はヒストグラムを描く。男女に分けた人口ピラミッドでも良い。
* 性別、職業等は分類の間に順序や優劣がないので、円グラフを用いても良い。
* 性別と職業の組み合わせを比較したい場合には、性別の職業棒グラフの併記か、レーダーチャートも一案。
これらから、被調査者(回答者)の概要の報告と、そのような被調査者の回答の概要の報告が行える。通常、調査の報告はこのような項目ごとの集計から始まる。
## 次の分析に行く前に
そもそも、このような調査を行うには、先行研究や理論に基づいた仮説が必要である。
```graphviz
digraph Cellular {
rankdir = BT
ユーザ体験 -> 選好
価格 -> 選好
ブランド -> 選好
}
```
例えばこのような概念図の下で、ユーザ体験を次のように掘り下げる。
```graphviz
digraph Cellular {
rankdir = BT
"外観" -> ユーザ体験
角 -> "外観"
丸 -> 角
鋭 -> 角
グリップ -> "外観"
あり -> グリップ
なし -> グリップ
"把持のし易さ" -> ユーザ体験
大きさ -> "把持のし易さ"
厚さ -> "把持のし易さ"
形状 -> "把持のし易さ"
"操作のし易さ" -> ユーザ体験
ボタンの有無 -> "操作のし易さ"
ボタンの位置 -> "操作のし易さ"
ボタンの数 -> "操作のし易さ"
"手にかかる負荷" -> ユーザ体験
重さ -> "手にかかる負荷"
バランス -> "手にかかる負荷"
"保護シール" -> ユーザ体験
"カメラ操作" -> ユーザ体験
"FELICA支払い" -> ユーザ体験
ロック解除 -> ユーザ体験
指紋 -> ロック解除
顔 -> ロック解除
}
```
これで尽きているかを確認し、それぞれの要素がどのような価値に繋がるかをラダリングで分析する。その後に、選好の方向に予想をつけて、1回目の調査を実施する。
## 次の分析
次は層別分析。被調査者の属性の把握のために調査に加えた変数ごとに、調査項目の層別集計を行う。
* 1日あたりの使用時間別の把持感覚の解析 (ホールド感が有用そうなら)
* 年齢・職業別の使用時間の解析(使用時間の向こうにユーザ層が透けて見えるか)
* 男女別の重さの感覚の解析
* 大きさと重さと把持感覚の解析
* 男女とデザイン性の解析
* 男女と機能性の解析
* 把持感覚とデザインと機能と選好との関係の解析
このような分析を通じて、データに基づく仮説を構築していく。ただしこの仮説は、検証するのではなく、定量化するのが目的である。このレベルの解析で結論を説明することもしばしばである。
## コンジョイント分析
複数のモデル、製品、サービスを比較して、一意な選好順序を付与したデータを考える。選好順位を$R$とするとき、各属性の変数$X_1, \ldots, X_4$を説明変数(予測変数、<font color="blue">モデル効果</font>)、$R$を目的変数(<font color="blue">Y</font>)として回帰分析(<font color="blue">モデルのあてはめ</font>)を実施すると、各変数の水準効果を推定できる。
```graphviz
digraph ConjointModel {
X1, X2, X3, X4 [shape=square]
R [shape=circle]
X1 -> R
X2 -> R
X3 -> R
X4 -> R
}
```
ここで推定したパラメータを部分効用値という。
この回帰分析の方法は全部で3通りある。
1. $Y$にする目的変数の尺度を<font color="blue">連続尺度</font>に、<font color="blue">モデル効果</font>に入れる説明変数の尺度を<font color="blue">名義尺度</font>に設定して、<font color="blue">モデルのあてはめ</font>を実施する。(<font color="blue">標準最小2乗</font>による重回帰分析)
2. $Y$にする目的変数の尺度を<font color="blue">順序尺度</font>に、<font color="blue">モデル効果</font>に入れる説明変数の尺度を<font color="blue">名義尺度</font>に設定して、<font color="blue">モデルのあてはめ</font>を実施する。(<font color="blue">順序ロジスティック回帰</font>)
3. <font color="blue">消費者行動</font>の中の<font color="blue">選択モデル</font>。これは省略。
方法1は線形回帰分析を用いる。これで推定した部分効用値は、順位そのものに関する効用値である。各属性の水準の、順位が高くなる($R$は小さくなる)ような組み合わせを選ぶことになる。
方法2は順序ロジスティック回帰を用いる。これは、ある順位以上となる確率$p_k=Pr[R\leq k]$を
$$
\log \frac{p_k}{1-p_k} = \beta_{0i} + \beta_1 x_1 + \cdots + \beta_k x_k
$$
と表すモデルである。各データを$R\leq k$または$R>k$の二つの場合に読み替え、二項分布(ベルヌーイ分布とも)を仮定してパラメータを推定する。ここでも各属性の水準の、順位が高くなる(対数オッズ比は低くなる)ような組み合わせを選ぶことになる。
方法3はプロファイルカードの作成からJMPに手伝ってもらうので、今回は省略。
方法1または方法2による分析の結果は、[先週の資料の推定のあたり](https://hackmd.io/@watalu/ryYTA_Ezp#効用値の推定)からまとめていく。
## その次の分析
やっと相関や因果についての分析を始める。ここまで、各変数の分布の様子、変数間のおよその関係、そして回答の構造を記述的に検討してきた。どの変数がどの変数にどのように影響を及ぼしているかも、集計から見てきた。これを定量的なモデルに仕上げていくのが、次の分析である。
高橋先生はこちらの型を念頭に置かれている。四角は主成分分析。
```graphviz
digraph Model {
X1, X2, X3, X4, Y1, Y2 [shape=square]
X3 -> G2
X4 -> G2
X1 -> G1
X2 -> G1
G1 -> H [style=dashed]
G2 -> H [style=dashed]
H -> Y1 [dir=back]
H -> Y2 [dir=back]
subgraph cluster_1 {
color=blue
X1
X2
G1
}
subgraph cluster_2 {
color=blue
X3
X4
G2
}
subgraph cluster_3 {
color=blue
Y1
Y2
H
}
}
```
変数の群は仮説に基づいて自分で決める。
主成分は少なくて大丈夫。
渡辺先生はこちらの型を念頭に置かれている。四角は因子分析。
```graphviz
digraph Model {
X1, X2, X3, X4, Y1, Y2 [shape=square]
X1 -> G2 [dir=back style=dotted color=gray]
X2 -> G2 [dir=back style=dotted color=gray]
X3 -> G2 [dir=back]
X4 -> G2 [dir=back]
X1 -> G1 [dir=back]
X2 -> G1 [dir=back]
X3 -> G1 [dir=back style=dotted color=gray]
X4 -> G1 [dir=back style=dotted color=gray]
G1 -> H1 [style=dashed]
G2 -> H1 [style=dashed]
G1 -> H2 [style=dashed]
G2 -> H2 [style=dashed]
H1 -> Y1
H1 -> Y2
H2 -> Y1
H2 -> Y2
subgraph cluster_1 {
color=blue
X1
X2
X3
X4
G1
G2
}
subgraph cluster_2 {
color=blue
Y1
Y2
H1
H2
}
}
```
変数の群は因子分析で見つける。主成分分析を行ってから因子分析を行なっても良いが、通常はどちらか一つしかしない。
私も変数を群分けするなら、因子分析と回転の活用をお勧めする。ただし変数に関する事前知識に基づいて、少ない変数群に主成分分析を実施する前のアプローチよりは、一般に大きめのサンプルサイズを必要とする。
これで各説明変数と各アウトカム変数の間の構造を推定する。
## オプション分析:層別
男女別、あるいは年齢を二分して年齢別に、同じ分析を行なってみる。
## そのまた次の分析
ここまでに構築したモデルをベースにして、共分散構造分析(構造方程式モデリング, SEM)を行ってみる。
```graphviz
digraph Model {
e1, e2, e3, e4 [shape=circle]
e1 -> X1
e2 -> X2
e3 -> X3
e4 -> X4
X1, X2, X3, X4, Y1, Y2 [shape=square]
X1 -> G2 [dir=back style=dotted color=gray]
X2 -> G2 [dir=back style=dotted color=gray]
X3 -> G2 [dir=back]
X4 -> G2 [dir=back]
X1 -> G1 [dir=back]
X2 -> G1 [dir=back]
X3 -> G1 [dir=back style=dotted color=gray]
X4 -> G1 [dir=back style=dotted color=gray]
G1 -> H1 [style=dashed]
G2 -> H1 [style=dashed]
G1 -> H2 [style=dashed]
G2 -> H2 [style=dashed]
H1 -> Y1
H1 -> Y2
H2 -> Y1
H2 -> Y2
e5, e6 [shape=circle]
Y1 -> e5 [dir=back]
Y2 -> e6 [dir=back]
subgraph cluster_1 {
style=dashed
color=blue
G1, G2, H1, H2
}
}
```
前の分析で男女別、あるいは年齢を二分して年齢別に、同じ分析を行なった結果で、2群でパラメータが大きく異なった場合には、共分散構造分析も2群に分けて行ってみると良い。
## 別のアプローチ
潜在クラス分析。