# 第5回:アンケート調査の考え方 ###### tags: `service-data-science-2023` ## 今週の献立 1. 各グループの状況の共有とディスカッション 2. 少し追加情報(この資料) 3. グループワークの時間 ## 図について 健マネの研究によくあるもの。 1. 概念図 : 研究のフレームワークを表す図。最初に描いて研究を進めるが、研究の進展に応じて、当初に勘案していなかった概念を追加したり、粒度を調整したりする。コンセプトマップとも呼ばれる。博士課程の方々のスライド、修士の先輩のスライド、この科目の過去の提出物を参考にして、作っていくといい。 2. 特性要因図 : リサーチ・クエスチョンのアウトカムに関する仮説に基づいてデータを集め、それをエビデンスとして仮説を立証する際に、先行研究や専門知識に基づいてアウトカムに影響を与える要因を構造的な図に整理する。研究の進展に応じて、更新されていくべき図でもある。 3. モデル図 : データを分析して、要因と特性の関係の定量的な表現を得たら、これを数式ではなく図に表す。アウトカム変数があるデータの分析では、アウトカムに向かって矢線が伸びる図が望ましい。相関関係は矢印のない線で表す。主成分を作成した場合には観測変数から主成分に向かって矢線を引くが、因子を抽出した場合には因子から観測変数に向かって矢線を引くこと。 どの図も研究の一定の段階で作成され、最終的には研究発表で用いられたり、論文執筆時に提示されたりする。研究発表は、研究プロセスの報告ではなく研究の成果の報告である。当初に作成したままでは、プロセスの報告となってしまうため、最終報告である発表や論文では、内容が整合している必要がある。 <font color="brown">特性要因図</font>は[高橋先生](https://keio.box.com/s/vl1khx43369kfuyfanutgichiip8qenb)の講義に詳しい。<font color="brown">概念図</font>と<font color="brown">モデル図</font>は、もう少し強いテンプレートになっている。特に<font color="brown">概念図</font>は、世の中ではもう少し広い描き方が許されているので、あくまでもひとつの描き方と覚えてほしい。概念図はピラミッド型に描くものではなく、これから報告する研究の全体像と、若干の詳細を同時に一枚の図にして整理した図ならばすべて概念図と読んで構わない。研究の概要を説明するにあたり、単なる箇条書きを読み上げるよりは、重要語句や領域の名称などを枠で囲んで並べ、関係性を描いた図を用いて説明する方が、プレゼンテーションとして効果的であろう。<font color="brown">モデル図</font>も、無向グラフや有向グラフを用い、係数を矢線の上に描くだけでなく、関係の強さに応じて線を太くしたり、色を濃くするなどの工夫があると良い。 データ分析に用いるソフトウェアが半自動的に描いてくれる図は、主張を支える証拠に過ぎない。主成分分析や因子分析のプロセスにはそれらの図が必要だが、報告の際には取捨選択することが望ましい。またどの図をどのレベルの提出物に含めるかの意思決定も重要である。一般にポスターやスライドよりは、8ページ以上の要旨の方が多くの情報を含めることができる。4ページ以内など要旨の枚数制限が厳しい場合には、要旨<スライドやポスター・実際の発表での説明となることもある。 またプレゼンテーションに$X$、$Y$、$Z$、$U$などアルファベットのみの変数や、$X_1$、$X_2$などアルファベットに番号を加えただけの変数を含めてはいけない。5分から30分のプレゼンテーションにおいて、記号の用い方は十分に工夫する必要がある。当該分野の常識に合わせることで、オーディエンスが覚えないといけない記号の数を減らす。これはオーディエンスの短期記憶を、プレゼンテーションのより重要な部分に用いてもらうための工夫である。特に学会発表や学位審査など、自らが評価される場では、直前のスライドで提示した記号や項目の一覧表、少し前のスライドで定義した記号などを、オーディエンスが記憶していることを前提にしてはいけない。$X_1$は$X_2$よりも$Y$への効果が大きい、というぐらいなら、学生の人数を増やすより土曜日に授業を行う方が難関校への合格者を増やす効果が高い、と説明するのが良い。 ### 概念図の例 ![](https://hackmd.io/_uploads/HJDPCApfa.png) ![](https://hackmd.io/_uploads/rkTDCATzT.png) ![](https://hackmd.io/_uploads/Hkl_CCpMT.png) ![](https://hackmd.io/_uploads/r18k71RzT.png) ### 特性要因図の例 ![](https://hackmd.io/_uploads/HJkHk1Czp.png) ![](https://hackmd.io/_uploads/ryYJ71AGT.png) ### モデル図の例 ![](https://hackmd.io/_uploads/r1gyGk0fT.png) ![](https://hackmd.io/_uploads/HJyi-yAMp.png) ### ロジックモデル ![](https://hackmd.io/_uploads/HkbxXJCMT.png) ## 高橋先生のヘルスデータサイエンス 製品・サービスの立案・改善のために高橋先生が提案しているアプローチ。 ### 多群質問紙調査 選抜型多群主成分回帰分析は,多群質問紙調査に有効な解析手法である。多群質問紙調査とは,複数の概念群で構成された多くの質問項目が含まれるアンケート調査のことである。多群質問紙調査の構造をビジネスホテルの満足度調査票の一例を用いて図1に示す。左は概念群ごとに質問項目を整理して並べた多群質問紙調査票であり,右は構造化されていない調査票である。これは多群質問紙の構造を理解してもらうための例示であり,調査を行う上で重要となる回答者の属性やビジネスホテルの利用目的を確認する項目は省略している。 ![](https://hackmd.io/_uploads/By_UXaTEj.png) 総合満足度に影響を与える原因系の概念群には,それぞれ複数の質問項目が含まれており,3 群の質問項目を合計すると11 項目になる。また,結果系の総合満足度には,利便度,コスパ度,再利用度合いを評価する3つの質問項目が用意されている。構造化されていない調査票と比べると,1つの概念群に複数の質問項目が含まれている多群質問紙調査票は質問数が多くなりやすいため,回答者の負担には注意が必要である。しかし,宿泊客に何度も調査を行うことは困難である。よって,可能な限り漏れなく調査したい質問項目を含めて調査票を準備することが望ましい。 複数の質問項目によって構成される多群質問紙調査では,同じ概念群に含まれる質問項目同士は相関が高くなることが一般的である。これらの相関の高い質問項目をすべて用いて因果関係の分析を行なおうとすると,似たような項目が複数あることで統計的な処理に混乱が生じ,正しい分析結果が得られないことになる。このような事象は,重回帰分析における多重共線性(Yoo,2014)の問題として議論され,解析においてこれを回避する方法は先行研究によって複数報告されている。 * [ (2017) インターネット調査における多群質問項目の解析と提案, 情報システム学会誌, 12巻, pp. 1-16. ](https://www.jstage.jst.go.jp/article/jissj/12/2/12_1/_article/-char/ja/) * [川﨑・高橋 (2018) 宿泊施設の顧客満足度調査に基づく解析と施策設計, 日本マーケティング協会 カンファレンス](https://www.j-mac.or.jp/oral/dtl.php?os_id=135) * [川﨑先生の博士論文](https://core.ac.uk/download/pdf/288191383.pdf) * [高橋武則・川﨑昌 (2019) アンケートによる調査と仮想実験, 日科技連出版](https://www.juse-p.co.jp/products/view/660) ### 多群質問紙調査に関して生じる問題とその解決へのアイディア #### 問題 * 聞きたい項目が多い状況での、アンケートの作成 * 質問数が大きいので、変数間の相関が生じる可能性が高い * 多くの変数からの主要な変数の抽出 #### 解決策1 ![](https://hackmd.io/_uploads/SymU8yAVi.png) ![](https://hackmd.io/_uploads/HJVO8JCVi.png) ![](https://hackmd.io/_uploads/ryUAU1RNi.png) ![](https://hackmd.io/_uploads/BkZ3LyCNi.png) #### 解決策2 主成分を用いて次元を縮約する。高橋先生は多重共線性を回避するためにまず、変数を概念群ごとの主成分分析で合成することを提案している。 * 第一主成分はサイズファクター (情報の総合:身体の大小、学力の高低、等) * 第二主成分はシェイプファクター (タイプ分け:体型の太痩、文理、等) * 第三主成分はあまり使わない ![](https://hackmd.io/_uploads/By9SukREi.png) ![](https://hackmd.io/_uploads/rybUuJCVs.png) なお、主成分分析の第二主成分までの累積寄与率が大きくなければ、主成分分析を用いた合成を採用せず、変数をそのまま、次の段階で用いる。 #### 解決策3 主成分同士の回帰分析からの重要項目の抽出。 ![](https://hackmd.io/_uploads/B1RUdyCVo.png) ![](https://hackmd.io/_uploads/rku3Dx0Eo.png) ![](https://hackmd.io/_uploads/r1pudyAVs.png) ![](https://hackmd.io/_uploads/Hy8hu1AEi.png) ### 層別の使いどころ ![](https://hackmd.io/_uploads/HkDnbeRNs.png) ![](https://hackmd.io/_uploads/Bkjn-gCEs.png) ![](https://hackmd.io/_uploads/rJl1Gl04o.png) ![](https://hackmd.io/_uploads/SkhJfeCVi.png) ![](https://hackmd.io/_uploads/ByUeGgCNi.png) ![](https://hackmd.io/_uploads/H1gZMlAVo.png) ![](https://hackmd.io/_uploads/r1VBfxREi.png) ### 因子分析の使いどころ ![](https://hackmd.io/_uploads/r1trfeANs.png) ![](https://hackmd.io/_uploads/HypBflCVs.png) ![](https://hackmd.io/_uploads/Bke8zeCVs.png) ![](https://hackmd.io/_uploads/SkGIGlA4s.png) ![](https://hackmd.io/_uploads/ry4vzgRNj.png) ![](https://hackmd.io/_uploads/rJswGl04j.png) ![](https://hackmd.io/_uploads/rybuzx04o.png) ## ヘルスデータサイエンスとサービスデータサイエンス ### 高橋先生のアプローチ (ヘルスデータサイエンス) 1. <font color="purple">最初に概念図を描く</font> 2. <font color="purple">アンケートの設計を概念図を掘り下げるように行う</font> 3. アンケートを実施し、<font color="purple">概念ごとに</font>主成分分析で主な方向を抽出する (互いに独立な成分に合成し直して、累積寄与率で選択してしまう) 4. <font color="purple">抽出した主成分</font>からアウトカムを得る回帰分析を行う (主成分の中からアウトカムに寄与するものを選択する) (層別が必要かどうかも検討する) 5. 選好ベクトルに基づいて、コンジョイント分析のための因子を設定する 6. 直交表を用いて、プロファイルを作成する 7. 複数のアウトカムを目的変数とするアンケートを実施する 8. コンジョイント分析のための回帰分析を実施して、各変数の効用値を推定する (<font color="purple">分散分析を行っていたかもしれない</font>) 9. 新規の商品・サービスのコンセプトを固める 10. 新規の商品・サービスを設計するために、<font color="purple">設計した商品・サービスのパラメータを決める実験(追加アンケート)を計画する</font> 11. <font color="purple">実験の結果の分析に基づいて、新規の商品・サービスの設計を固める</font> (分散分析) 12. まとめる 実験の詳細は表6のように、全因子による要因実験に加えて、中央の点を一つ設ける。 ### 渡辺先生のアプローチ (サービスデータサイエンス) 1. <font color="brown">概念図を描く代わりにラダリング法を用いて分析する</font> 2. <font color="brown">ラダリング法による分析の結果に基づいてアンケート項目を設定する</font> 3. アンケートを実施して主成分分析を行う (層別が必要かどうかも検討する) 4. <font color="brown">主成分の回転を用いて変数をいくつかの群に分ける</font> 5. <font color="brown">回転した主成分</font>からアウトカムを得る回帰分析を行う (回転で得た変数群からアウトカムに寄与する変数群を選択する) 6. 選好ベクトルに基づいて、コンジョイント分析のための因子を設定する 7. 直交表を用いて、プロファイルを作成する 8. 複数のアウトカムを目的変数とするアンケートを実施する 9. ダミー回帰を実施して、各変数の効用値を推定する 10. 新規の商品・サービスのコンセプトを固める 11. 新規の商品・サービスを設計する 12. 新規の商品・サービスの目標達成度を検証するために再度、アンケートを実施する 13. まとめる ### 両先生のアプローチの融合案 1. 既存の製品・サービスの事例を集める 2. ブレーンストーミングの方法としてラダリング法を用いて分析する 3. 概念図を描き、詳細項目の案を検討する 4. アンケート項目を設定する 5. アンケートを実施して主成分分析を行うと共に、概念ごとの主成分分析も行っておく (層別が必要かどうかも検討する) 6. 主成分の回転を用いて変数をいくつかの群に分けることと、概念ごとの主成分分析とを比較する 6. 前段から得た成分を説明変数として、アウトカムを得る回帰分析を行う 7. 選好ベクトルに基づいて、コンジョイント分析のための因子を設定する 8. 直交表を用いて、プロファイルを作成する 9. 複数のアウトカムを目的変数とするアンケートを実施する 10. ダミー回帰を実施して、各変数の効用値を推定する 11. 新規の商品・サービスのコンセプトを固める 12. 新規の商品・サービスを設計するために、<font color="purple">設計した商品・サービスのパラメータを決める実験(追加アンケート)を計画する</font> 13. <font color="purple">実験の結果の分析に基づいて、新規の商品・サービスの設計を固める</font> (分散分析) 14. まとめる ### サービスデータサイエンスの全体像 ```graphviz digraph SDS { "製品・サービスの企画" -> "情報収集" -> "事前分析" -> "アンケートの設計" -> "アンケートの実施" -> "成分への分解・層への分割" -> "回帰分析による構造抽出" -> "設計変数の抽出" -> "概念設計の着手" -> "コンジョイントカードの作成と提示" -> "コンジョイント分析" -> "設計変数の評価" -> "概念設計の確定" -> "詳細設計の着手" -> "変数の水準決定" -> "検証と設計の最適化のための調査・実験" -> "回帰分析・分散分析" -> "詳細設計の確定" } ```