Try   HackMD

探索的な定型データのデータサイエンスのフロー(の例)

目標未達
不均質
不均質
不十分
範囲変更
範囲変更
要汎化
目標達成
リセット
リセット
リサーチクエスチョンの設定
データの収集
分析開始
概念図、変数連関図、特性要因図等の作成
各変数の意味と役割の確認
要因、アウトカム、共変量等
変数の並べ替え
アウトカム→要因→共変量
各変数の総覧
変数間の関係の総覧
シナリオ作成
相関分析と偏相関分析
回帰分析
次元縮約
グラフ探索
予測分析
シナリオ評価
シナリオ見直し
層別
層生成
特徴量追加
チューニング
変数選択
モデル選択
ハイパーパラメータ調整
報告書起草
考察のメモ起草
概念図、変数連関図、特性要因図等の改訂
モデル図やモデル表の準備
その他の図や表の準備

リサーチクエスチョンの設定

リサーチクエスチョン(データ分析の目的と目標)を設定する。

総覧・鳥瞰・俯瞰

  • 1変量の分析・ヒストグラム
  • 2変量の分析・散布図・クロス集計

相関分析

  • 変数間の線形関係の分析
  • 線形性を仮定

重回帰分析

  • アウトカム変数と共変量の関係を分析
  • 線形近似の下での推論を提供

次元縮約

すべての変数、あるいは一部の変数を、それらよりも低次元の変数に合成して要約すること。

  • 主成分分析は線形変換
  • 多次元尺度構成法も線形変換
  • カーネル主成分分析は非線形変換
  • 多様体学習は非線形変換 (多変量埋め込み)
  • 対応分析 (コレスポンデンス分析)

グラフ探索・検証

変数間の関係(構造)を探索したり検証したりすること。

  • 線形性を仮定
  • 変数間の関係を探索
  • 因子分析
  • 共分散構造分析 (構造方程式モデリング)

予測分析

重回帰分析の拡張。

一次モデル。

  • 期待値予測
    • 重回帰分析
    • ロジスティック回帰分析
    • ポアソン回帰分析
    • 指数回帰分析
    • 生存時間回帰分析
  • 判別分析
  • 決定木分析 (交互作用許容)
  • サポートベクトルマシン、サポートベクトル回帰
  • ニューラルネットワーク

一次モデルのアンサンブル学習。

  • 回帰、決定木
    • ブースティング
      • XG-Boost
      • LightGBM
    • バギング
    • RandomForest
    • AutoML

注意点

  • データの発生時点に注意する。
    • 相関で予測していいか検討する。
    • 結果で予測しない。
  • モデルの学習のための仮定を検討する。
    • 残差分析
    • 推定に逆行列を用いる
      多重共線性
    • 外れ値、てこ比

層別

BY

  • 母集団に異質性が予見される場合は、その異質性を規定する要因で層別して分析する
  • 層生成や層別探索の手法を層別に用いる場合は、アウトカム変数を入れないと、得られた層別が因果関係の「因」の候補となる
  • アウトカム変数も含めて層別するのは、原因系と結果系の変数がいずれも、異なる範囲で異なるモデルが得られそうなとき (結果系を含めると後ろ向き研究になる)

層生成・層別探索

データに層別を提案させる。

  • 階層クラスタリング:N数が少ない場合(N数が多いと計算量と表現の観点から使い物にならなくなる)
  • k-means法:N数が多い場合
  • 潜在クラス分析:変数がすべて名義尺度か順序尺度の場合(N数が千や万のオーダーになると計算量や解釈に少し苦労する、最適なクラス数が多くても解釈に苦労する)
  • 正規混合分布(潜在プロファイル分析):N数がある程度多い場合(最適なクラス数が多いと解釈に苦労する)
  • 決定木・回帰木(二項分布や正規分布の層別探索に相当)

汎化能力の向上

  • 期待損失最小化のためのハイパーパラメータの調整
  • 変数選択
  • モデル選択
  • スパース回帰(LASSO)

評価

  • 予測能力
    • MSE, RMSE
    • エントロピー損失
  • 当てはまりの良さ
    • 決定係数,
      R2
    • 寄与率
    • 分散分析
  • 単純構造
  • 解釈
  • 説明能力
  • モデル選択基準
    • AIC
    • BIC
    • AICc
    • CIC
  • リサーチクエスチョンに解(の候補)が得られたか