# 付録 データアナリティクス ###### tags: `service-data-science` ![](https://hackmd.io/_uploads/r1AlrzvSj.png) ## 今日の内容 1. グループワークの発表と討議 2. データアナリティクスとは。 ## CRISP-DM CRISP-DM (Cross-Industry Standard Process for Data Mining) は、業界で実証されている、データ・マイニングの指針となる手法です。 CRISP-DM には、方法論として、プロジェクトの典型的なフェーズの記述、各フェーズに含まれるタスク、およびこれらのタスク間の関係の説明が含まれています。 CRISP-DM は、プロセス・モデルとして、データ・マイニングのライフサイクルの概要を提供します。 ![](https://hackmd.io/_uploads/HkMTUzwro.jpg) 図 1. データ・マイニングのライフサイクル データ・マイニングのライフサイクル ライフサイクル・モデルは、6 つのフェーズから構成されています。矢印は、最も重要かつ高い頻度で発生するフェーズ間の依存関係を示しています。 各フェーズの順序は厳密ではありません。 実際、大半のプロジェクトでは、必要に応じてフェーズ間を行き来して作業を行います。 CRISP-DM モデルは、柔軟性を備えており、簡単にカスタマイズできます。 例えば、組織がマネー・ロンダリングの検出を目標にしている場合は、特定のモデリング目標を定めずに大量のデータを取捨選択するでしょう。 この場合は、モデリングを行うのではなく、財務データ中の疑わしいパターンを検出するためのデータ検討および視覚化に焦点が当てられます。 CRISP-DM では、特定のニーズに適合したデータ・マイニング・モデルを作成できます。 このような状況の場合、モデリング、評価、および展開の各フェーズは、データの理解フェーズとデータの準備フェーズよりも関連性が低くなることがあります。 しかし、その場合でも、これらの後のフェーズで生じた問題のいくつかを検討することは、長期計画や将来のデータ・マイニングの目標を達成するために重要です。 詳細な説明は[CRISM-DMの概要](https://www.ibm.com/docs/ja/spss-modeler/saas?topic=guide-introduction-crisp-dm)に譲ります。 ## データアナリティクス ![](https://hackmd.io/_uploads/B11n2mvSo.png) [アクセンチュア](https://www.accenture.com/jp-ja/services/data-analytics-index) ![](https://hackmd.io/_uploads/Sy-M6XDri.png) [PwC Japan](https://www.pwc.com/jp/ja/services/consulting/analytics.html) ### データアナリティクスとは データアナリティクスとは、データを調査、変換、分析して、トレンドやパターンを特定することで、重要なインサイトを明らかにし、意思決定の効率性を高めるためのプロセスです。最新のデータアナリティクス戦略は、システムや組織がリアルタイムの自動分析に基づいてアクションを起こすことを可能にし、インパクトのある成果をすばやくもたらします。([alteryx](https://www.alteryx.com/ja/glossary/data-analytics)より) ### データアナリティクスのプロセス データアナリティクスのプロセスは、複数のステップとフェーズから構成されます。後のフェーズで得た学びをもとに、前のフェーズに戻って再構築を行うこともあるため、そのプロセスは直線的ではなく、循環的なものとなります。データアナリティクスのプロセスの成功は、これらの各ステップの再現性と自動化に左右されます。 分析プロセスは、次のステップとフェーズから構成されます。 ![](https://hackmd.io/_uploads/B1ZyyEvBo.png) データ入力: 要件を定め、その要件に合うデータを収集します。これには、ステークホルダーとの対話、データ所有者の特定、データへのアクセス権の取得などの、調査的な作業も含まれます。 ![](https://hackmd.io/_uploads/rJNlyEvBj.png) データ準備: 分析的洞察の獲得という最終目的のために、データを準備するプロセスです。このプロセスでは、生データをクリーニングして統合し、分析可能な構造化データへと変換させます。次に、準備プロセスの各段階で結果をテストし、分析が望ましい結果をもたらすかどうかを確認します。 ![](https://hackmd.io/_uploads/HkxW14vBi.png) データ探索: データ探索 (探索的データ分析) とは、サンプリング、統計分析、パターン識別、プロファイリングの可視化などにより、大規模なデータセットを調査するプロセスです。これらの手法は必ずしも科学的ではなく、結論を出すものでもありません。データへの理解を深め、より多くの情報に基づいたデータ変換を実現することを目的としています。 ![](https://hackmd.io/_uploads/HJ2b14DSj.png) データのエンリッチ化: 追加の入力情報やデータセットを用いてデータをエンリッチ化および増強し、分析のための情報を充実させますデータアナリティクスのプロセスにおけるこのステップは、データを違った視点から見ることで、新たなインサイトを明らかにできるため、非常に重要です。 ![](https://hackmd.io/_uploads/B1df1VPBj.png) データサイエンス: より高度なデータ手法を用いて、初歩的なデータ処理手法では取得できない (または取得することが困難な)、より深い意味やインサイトを獲得します。これには、アルゴリズム、モデルトレーニング、機械学習 (ML)、人工知能 (AI) などが含まれます。 ![](https://hackmd.io/_uploads/HkWXyEDHs.png) ビジネスインテリジェンス: 組織のデータ、ソフトウェア、インフラ、ビジネスプロセス、人間の直感などを組み合わせることで得られる成果です。これらの成果から実用的なインサイトを獲得し、レポート、ダッシュボード、可視化などで共有することで、ビジネス上の意思決定を支援します。 ![](https://hackmd.io/_uploads/ryx4k4PHs.png) レポーティング: データアナリティクスで得た結果は、効果的に共有し、有益な知識を維持させていく必要があります。レポーティングとは、そうした知識や成果を整理し、分かりやすい形式に落とし込むことです。 ![](https://hackmd.io/_uploads/HJvN1NvSs.png) 最適化: 変数は時間の経過とともに変化するため、当初の目的を達成し続けたり、新しい入力内容や特性の変化に基づいて目的を進化させたりするには、モデルを最適化および改善する必要があります。 ### データアナリティクスのタイプ ![](https://hackmd.io/_uploads/HkJCAmDSs.png) データアナリティクスには、さまざまなタイプがあります。具体的には以下のとおりです。 * 記述的分析: 「何が起きたのか」という質問に答えます (過去 1 週間の売上は ?)。 * 診断分析: 「なぜ起きたのか」という質問に答えます (前週から売上が増加したのはなぜか?)。 } 予測分析: 「何が起こるのか」という質問に答えます (ホリデーシーズンにおける同店舗の売上はどうなるのか?)。 * 処方的分析: 「何をすべきか」という質問に答えます (在庫切れを回避するために、特定の製品の出荷数を増やすことを推奨します)。 記述的分析と診断分析では、データアナリストやリーダーは段階に応じて分析を行うことができます。また、これらの分析は、より高度なインサイトを得られる予測分析や処方的分析のための基盤となります。 ## JMP メニューとウィザードで構成されたインタラクティブかつビジュアルなインタフェースが特徴のデータ分析ソフトウェア。 ![](https://hackmd.io/_uploads/BJcPuGvBs.png) メニューで〔ファイル〕、〔実験計画(DOE)〕、〔分析〕、〔グラフ〕の間を行ったり来たりしながら、分析を進めていきます。データの操作には〔テーブル〕、〔行〕、〔列〕も使います。 JMP® 世界中の多くのデータ探索を行う人々に選ばれているデータ分析のためのソフトウェア。 対話的かつビジュアルなJMPにより、単なる数値が並んだ表や静的なグラフからは得られない洞察を得ることが可能です。 * 強力な統計ツールを使って、データをフル活用する。 * データをさらに深く分析することで有益な情報を発見する。 * 分析結果をインタラクティブに共有する。 ![](https://hackmd.io/_uploads/rkfu_MvSj.png) JMP® Live インタラクティブなレポートを介して**アナリティクス**を共有できるソフトウェアです。JMP Liveは、組織内の誰とでもデータや調査結果を共有し、分析結果を共有するためのセキュアなオンラインポータルを用意します。 * インタラクティブなレポートをセキュアに共有できます。 * 安全で一元管理された場所で、最新のデータをいつでも閲覧できます。 * レポートの管理に手間がかからず、共同作業に集中することができます。 ![](https://hackmd.io/_uploads/HkgBOfDHi.png) JMP® Pro 統計的発見を次のレベルに引き上げる予測分析のためのソフトウェア。JMPに搭載されているすべての機能のほか、さらに洗練された分析を行うための高度な機能が備わっています。 ![](https://hackmd.io/_uploads/SJW8dfwro.png) JMP® Clinical 臨床試験データの分析と報告を合理化することによって医薬品開発プロセスを短縮する臨床データ分析ソフトウェア。 ## KNIME KNIMEは、データ連携・統合・分析を行うことができるエンドツーエンドのデータ分析プラットフォームです。 * Excelの集計業務に時間がかかっており、自動化したい * 点在するデータを集約し、分析のための前処理を行いたい * 機械学習を活用し、予測やシミュレーションを行いたい など、データ分析だけでなく、データの統合や分析のための前処理など様々な用途で利用されているそうです。データアナリティクスのプロセスをアイコンとアイコンで結んだビジュアルワークフローで表現することが最大の特徴です。ただしこのようなヴィジュアルファークフローはKNIMEが初めてではなく、[IBM SPSS Modeler](https://www.ibm.com/products/spss-modeler)の、Clementineという名称だった頃からの特徴であり、KNIMEは後発に当たります。 ![](https://hackmd.io/_uploads/SJa-9fvHi.jpg) KNIMEを使えば、データの理解や分析フローの設計、分析構成要素の可視化などが可能になります。具体的な流れは以下のとおりです。 ![](https://hackmd.io/_uploads/SkNYaMvrj.png) 1.ワークフローの構築 ![](https://hackmd.io/_uploads/BkyEcMvSs.jpg) ノーコード・直感的なGUI操作でワークフローを構築します。データの読み取りや加工、機械学習、AWSやGoogleといったクラウドサービス、またはApache Sparkへのコネクタ、R&Pythonで作成したスクリプトの取り込みなど、あらゆるワークフローを構築するために4000以上のモジュール(ノード)が用意されています。 2.データのブレンド ![](https://hackmd.io/_uploads/rkmEcfwSo.jpg) 単純なテキストフォーマット(CSV、PDF、XLS、JSON、XMLなど)、非構造化データタイプ(画像、ドキュメント、ネットワーク、分子など)、時系列データ等をフロー内で結合出来ます。Oracle、Microsoft SQL、Apache Hiveなど多数のデータベースおよびデータウェアハウスに接続してデータを統合します。HDFS、S3、またはAzureからAvro、Parquet、ORCファイルもロード可能です。Twitter、AWS S3、Google Sheets、Azureなどのソースへのアクセス機能も用意しています。 3.データ整形 ![](https://hackmd.io/_uploads/SkY4cfvrs.jpg) 平均値、分位数、標準偏差などの統計量の算出、また統計的検定を適用して仮説を検証出来ます。次元削減、相関分析などもワークフローに組込めます。正規化、データ型変換、および欠損値処理によってデータをクリーニングします。異常値検出アルゴリズムを使用して、範囲外の値を検出します。機械学習用にデータセットを準備するために、特徴を抽出して選択します。(または新しいものを作成します) 4.機械学習とAIの活用 ![](https://hackmd.io/_uploads/r16N9GDrs.jpg) ディープラーニング、、ロジスティック回帰などの高度なアルゴリズムを使用して、分類、回帰、次元削減、またはクラスタリングのための機械学習モデルを構築出来ます。ハイパーパラメーターの最適化、ブースティング、バギング、スタッキング、または複雑なアンサンブルの構築でモデルのパフォーマンスを最適化します。Accuracy、R2、AUC、ROCなどのパフォーマンスメトリクスを適用してモデルの検証が出来ます。 5.洞察の発見・共有 ![](https://hackmd.io/_uploads/Byzr5fvBj.jpg) 棒グラフや散布図などと、並行座標やネットワークグラフ、ヒートマップ等を使用してデータを視覚化します。視覚化したデータの内容はカスタマイズ可能で、レポートをPDFや 従来のチャート(棒グラフ、散布図等)と高度なチャート(平行座標、サンバースト、ネットワークグラフ、ヒートマップ等)を使用してデータを視覚化し、ニーズに合わせてカスタマイズ出来ます。関係者に結果を共有するために、レポートをPDF、PowerPoint、またはその他の形式としてエクスポート可能です。 6.動的な規模拡張 ![](https://hackmd.io/_uploads/B1urcMvBj.jpg) インメモリストリーミングとマルチスレッドデータ処理によってワークフローのパフォーマンスを向上出来ます。さらに計算パフォーマンスを向上させるには、Apache Sparkでデータベース内処理または分散コンピューティングの機能が利用出来ます。 KNIMEで利用できるファイル形式やデータプレパレーション、分析手法、アウトプット方式などについては、KNIME紹介サイトにある機能紹介ページをチェックするといいです。 ![](https://hackmd.io/_uploads/rksFnMvro.png) KNIME Analytics PlatformがJMPやJMP Proに相当し、KNIME ServerがJMP Liveに相当します。単なるデータ分析ソフトウェアに留まらず、企業や組織の中のデータアナリティクスを司る情報インフラを志向しているので、データ分析の部分を無償にする、という戦略です。 [この本](https://bookplus.nikkei.com/atcl/catalog/18/269130/)ぐらいしか、日本語の書籍はありません。 ## IBM SPSS Modeler 高いのでここでは省略します。 ## Orange 同じくビジュアルワークフローをインタフェースとするデータマイニングソフトウェアです。Pythonで開発されています。 ![](https://hackmd.io/_uploads/Sk8Tpzwrj.png) ![](https://hackmd.io/_uploads/rJ5HAfwBi.png) ![](https://hackmd.io/_uploads/SJ5_0MPSj.png) [この本](https://www.kindaikagaku.co.jp/book_list/detail/9784764906310/)ぐらいしか、日本語の書籍はない。 ## Python プログラミング言語です。深層学習には必須です。かっこいいグラフ描画のためのライブラリもあります。ワークフローをプログラムとして記述します。 [matplotlib](https://matplotlib.org/stable/gallery/index.html) ![](https://hackmd.io/_uploads/S1KSmQPHo.png) [seaborn](https://seaborn.pydata.org/examples/index.html) ![](https://hackmd.io/_uploads/Sy3S7mPBi.png) [plotly](https://plotly.com/python/) ![](https://hackmd.io/_uploads/ryW8m7wHs.png) [bokeh](https://docs.bokeh.org/en/latest/docs/gallery.html) ![](https://hackmd.io/_uploads/S1rU77Pro.png) [Anaconda](https://www.anaconda.com/products/distribution)をダウンロードしてインストールするか、[Google Colaboratory](https://colab.research.google.com/)を利用するのが、最も簡単な入門の第一歩です。 ## R プログラミング言語です。統計的なデータ分析で、よく用いられます。ワークフローをプログラムとして記述します。 [ggplot2](https://ggplot2.tidyverse.org) ![](https://hackmd.io/_uploads/SJIPEXvHs.png) ![](https://hackmd.io/_uploads/By2tNQDro.png) ![](https://hackmd.io/_uploads/HkO54QPri.png) 日本では[EZR](https://www.jichi.ac.jp/saitama-sct/SaitamaHP.files/statmed.html)という、RにRコマンダーの日本語版を同梱したパッケージが始め易いです。 ## Excel 現在の標準的な表計算ソフトウェアです。データの保存に適しています。簡単なグラフ描画も可能です。 ![](https://hackmd.io/_uploads/H1Yj9Qvri.png) 上級者にも初級ユーザーにも役立つインテリジェンス Excel がユーザーのパターンを学習してデータを整理するので、時間を節約できます。 スプレッドシートをテンプレートから簡単に作成することも、自分で作成することもできます。計算に使えるモダンな数式がそろっています。 ![](https://hackmd.io/_uploads/BJopcXwHi.png) データをより正確に把握 新しいグラフやグラフィックスが追加され、データを魅力的に表現できます。書式設定、スパークライン、テーブルを活用すると、データがよりわかりやすくなります。傾向を推測するための予測の作成を、クリック 1 回で簡単に実行できます。1 ![](https://hackmd.io/_uploads/HkWa5mvSi.png) チームワークでより良い成果を 作成したブックを他の人と共有し、常に最新版で作業します。リアルタイムのコラボレーションで、仕事の完了に要する時間を短縮します。Microsoft 365 なら、Excel ファイルでの作業をモバイル、デスクトップ、Web で行うことができます。2 ![](https://hackmd.io/_uploads/rylAqXPSi.jpg) アナログのスプレッドシートをカメラでデジタル化 写真から直接、データを Excel に追加できるようになりました。Excel アプリを使って、印刷物のデータ表を Android デバイスまたは iPhone で撮影するだけで、写真が自動的に表に変換されて Excel でのあらゆる編集が可能になります。この新しい画像認識機能を利用すれば、紙のデータを手作業で入力する必要はなくなります。 ![](https://hackmd.io/_uploads/HkBAcXvHi.jpg) ## データアナリティクスのプロセスを学んでください 1. データの事前検討(概念図、特性要因図) 2. データの読み込み 3. データの可視化(グラフ作成) 4. データの理解 5. データのクレンジング(外れ値の分離、層別等) 6. データの前処理(コード化、変換、変形、結合等) 7. データの分析(回帰分析、主成分分析、因子分析等) 8. データのモデル化(より高度な手法) 9. データの考察 10. データの活用 ![](https://hackmd.io/_uploads/HkMTUzwro.jpg) これらのプロセスのどの部分をどのソフトウェアで実施するか、だけの問題です。