スキル定義委員会-076

--- tags: スキル定義委員会, アプローチ設計, データ蓄積, 推定・検定 --- # スキル定義委員会-076 ## DE-76 データ蓄積 - データ蓄積技術 ⭐️⭐️⭐️ ### データストア選定の際にリレーショナルDBだけでなく、要件に応じてNoSQL、グラフDB・時系列DBなどの適切なデータ蓄積機能を選定できる NoSQL、グラフ、時系列データベースのデータストアを選択する際には、以下の要素を考慮する必要があります。 1. **Scalability（拡張性）** データストアが大量のデータを処理し、時間の経過とともに増加するデータを処理する能力 2. **Flexibility** Key-Value、Document、Columnar、Graphなど、異なるフォーマットでデータを保存・取得する能力 3. **Performance** 低レイテンシーと高スループットで、データを素早く取得・更新できること 4. **Data modeling** 階層型、グラフ、時系列データなど、アプリケーションの特定のニーズに合った方法でデータをモデル化する機能 5. **Query capabilities** SQLなどのクエリ言語を使用してデータを照会・分析する機能、およびクエリのパフォーマンスを向上させるためのデータインデックス機能 6. **Data partitioning and replication** 複数のサーバーにデータを分割・複製し、スケーラビリティとフォールトトレランスを向上させる機能 7. **Security** セキュリティデータへのアクセスを制御し、不正アクセスやデータ漏洩から保護する機能。 8. **Ease of use and management** 使いやすさ、管理のしやすさ。データストアの設定、管理、監視が簡単にできること。 9. **Cost** データストアにかかる費用。ライセンス料やサブスクリプション料、データストアを運用するためのハードウェアやインフラストラクチャの費用など。データストアを選択する際には、アプリケーションの具体的な要件を考慮することが重要です。ここでは、さまざまなタイプのデータストアを選択する際に考慮すべき主な要因があります。 ### NoSQL 　大量の非構造化データに対する高いスケーラビリティとパフォーマンス性があり、柔軟なデータモデルで、スキーマを簡単に変更できます。そのため、半構造化データ、非構造化データの取り扱いに適している一方で、複雑な複数テーブルの結合やトランザクションにはあまり適していない ### 種類 * ドキュメントベースの（MongoDB、Couchbase） JSONドキュメントなどの半構造化データを格納するのに適している。 * Key-Value store（Redis、Riakなど）キャッシュデータやセッションデータなど、大量の単純なデータを格納するのに適している。 * column family store（Cassandra、Hbaseなど）大量の構造化データを高い書き込みスループットで保存するのに適している * graph DBグラフデータベース（Neo4j、JanusGraphなど）複雑な関係を持つデータの保存とクエリに最適 ### graphDB NoSQLの一種です。 * アプリケーションのデータモデルとクエリ要求のタイプ * アプリケーションのパフォーマンスとスケーラビリティの必要性 * 必要なデータの整合性と一貫性のレベル * コストとvendor lock-in * SNSやrecomendation systemなど、高度に接続されたデータの取り扱いに適している * データポイント間の関係性のクエリーをサポート * 大量の非構造化データの取り扱いにはあまり適していない vendor lock-in: 依存性が高く、ほかのシステムに移行できない・困難なこと。 ### Time Series DB * 時間ベースのクエリ、アグリゲーション、ダウンサンプリングなど、クエリに関する要件 * センサーデータ、財務データ、ログデータなど、保存する必要があるデータの種類 * アプリケーションのパフォーマンスとスケーラビリティの必要性 * タイムスタンプ付きデータの処理に最適化されている * 時間範囲に基づくデータのクエリをサポート * センサーデータや金融データなど、大量の時系列データの取り扱いに適している * コストとvendor lock-in * 高度に接続されたデータの取り扱いには不向き ### Relational DB * 構造化データの取り扱いに優れ、複雑な複数テーブルの結合やトランザクションに適している * 高度なクエリおよびインデックス作成機能をサポート * 大量の非構造化データの処理にはあまり適していない データストアにはそれぞれ長所と短所があるため、特定の要件を慎重に評価し、そのニーズに最も適したデータストアを選択することが重要です。このほかにも、"大規模データベース(large-scale database)"があるので、調べたい。。。 ------------------------------------------------------------------------ ## DS-76 推定・検定 - 推定・検定 ⭐️ ## 点推定と区間推定の違いを説明できる点推定と区間推定は、どちらも統計的推論において、データのサンプルに基づいて母集団のパラメーターの値を推定するために用いられる手法です。両者の主な違いは、推定値の不確実性の度合いをどのように表現するかである。点推定と区間推定は、データの標本から母集団のパラメータを推定する2つの方法である ## 点推定母集団のパラメータを推定するために使用される単一の値です。 * 点推定値は通常、標本平均値または標本割合である * 点推定値は，母集団のパラメータを推定するために使われる * 計算が早く、簡単 * 点推定では推定値の不確実性のレベルは考慮されない * 点推定値は単純で計算しやすいが，推定値の精度や母集団のパラメーターの取り得る値の範囲についての情報は得られない > [点推定について: https://bellcurve.jp/statistics/course/8608.html](https://bellcurve.jp/statistics/course/8608.html) ## 区間推定パラメータがその中に入る可能性のある値の範囲を提供するものです。母集団のパラメータを推定するために使用される値の範囲（区間）と下限・上限で定義され，標本平均，標本割合，および標準誤差を用いて計算されます。また、区間推定は平均の信頼区間や割合の信頼区間があります。 * 母集団パラメータが区間内に入るという確実性のレベルを提供する * この確実性のレベルは，通常，95％や99％などの信頼度で表現される * 推定値の不確実性のレベルを考慮に入れており、よりロバストな推定方法と考えられている * 母集団パラメーターのもっともらしい値の範囲を与えることで，推定の精度や母集団パラメーターの取り得る値の範囲に関する情報を提供する * 点推定よりも多くのデータを必要とし，より計算コストがかかる * 区間推定は点推定よりも精度が低く，母数パラメーターのもっともらしい値の範囲が大きくなることを意味する * 点推定よりも情報量が多いが、計算もより複雑である * これは，点推定値の周りの不確実性の尺度を提供するいずれの手法にも利点と欠点があり、どの手法を選択するかは、特定の問題、利用可能なデータ、分析の目標によって決まる [点推定と区間推定の違い](https://ai-trend.jp/basic-study/basic/statistical-estimation/) ------------------------------------------------------------------------ ## BZ-76 アプローチ設計 - 分析アプローチ設計 ⭐️⭐️ ### 解くべき課題がフレーミングされていれば、必要なデータ取得のあり方、粒度、サンプリングのあり方などを設計できる 1. **問題** 研究課題、目的、制約や限界など、解決すべき問題を明確に定義する 2. **母集団** 対象集団を定義する(サイズ、場所、構成など、関連するあらゆる特性を含む) 3. **標本** サンプル母集団の特徴や研究の目的を考慮し、適切なサンプルサイズとサンプリング方法を決定する。母集団を代表するサンプルを提供する適切なサンプリング戦略を選択する 4. **粒度** データに必要な詳細度と精度を特定する。これは、研究課題と利用可能なリソースに依存する個々の観測データまたは集計データなど、データに必要な詳細レベルを決定する 5. **データ収集** 必要な機器、手順、プロトコルなど、データ収集の計画を立て、一貫した信頼性の高い方法でデータを収集することを確認する 6. **研究課題を明確化** 解決すべき問題と、それに対処するために必要な情報を明確にする 7. **必要なデータの粒度の決定** データに必要な詳細度や精度を特定し、適切な測定手法とサンプルサイズを決定することができる 8. **適切なサンプリング方法の選択** 無作為抽出、層別抽出、クラスター抽出など、母集団を代表するサンプルを得られるような抽出方法を選択する 9. **データ収集の計画必要な方法** ツール、機器など、データ収集の計画を立てる 10. **品質管理の確立** データの正確性と精度を確保するため、品質管理および検証の手順を確立する検証やエラーチェックなど、データの品質と正確性を確保するための方法を実施するデータの保管と管理を計画し、データのアクセス性と安全性を確保するこれらの要素を考慮することで、データの取得、粒度、サンプリング方法を、リサーチクエスチョンと目的を最もよくサポートし、収集したデータが正確かつ適切であることを保証する方法で設計することができます。 ------------------------------------------------------------------------ # Quote - [スキル定義委員会 from データサイエンティスト協会](https://twitter.com/jdss_skill) <style> .att0 {color: #eb4034;} .att1 {color: #3465eb;} </style>