--- tags: スキル定義委員会, データ加工, 推定, 検定, アプローチ設計 --- # スキル定義委員会-077 ## DE-77 データ蓄積 - 検索技術 ⭐️⭐️⭐️ ### Q.Apache Solr、Elasticsearchなどの全文検索エンジンを用いて、テキストキーワードやログの検索用DBを構築することができる * **Indexing** 文書を効率的に検索・取得できるデータ構造を作成する。 データを効率的に検索・取得できるように、まず検索エンジンにデータをインデックスする。 非構造化データを検索可能な構造化された形式に変換すること。 * **Tokenization** テキストをより小さな単位(トークン)に分解し、索引付けや検索を容易にする。 テキストデータを個々の単語やフレーズにトークン化し、検索処理を容易にします。 * **Normalization** トークンを小文字などの標準的な形式に変換し、一貫したマッチングを可能にする。 * **Stemming**: 単語を基本形に還元する処理 検索範囲を広げるために単語から接尾辞を除去し、同じ単語の異形語のマッチングを可能にします。 * **Stop Words**: ある言語で検索処理では無視される最も一般的な単語 (例:"the"、"is") * **Field Mapping** データ中のフィールドを特定のデータ型にマッピングし、ソートやファセットなど特定の目的のために分析する。 * **Relevance Scoring** 検索エンジンは様々なアルゴリズムを用いて、特定の検索クエリに対する各文書の関連性をスコアリングする。より高いスコアを持つ文書が最初に表示される。 ------------------------------------------------------------------------ ## DS-77 推定・検定 - 推定・検定 ⭐️ ### Q.統計的仮説検定において帰無仮説と対立仮説の違いを説明できる 帰無仮説と対立仮説は、統計的仮説検定において母集団のパラメータについて対立する2つの記述である。 * 帰無仮説($H_0$): 観測値と期待値の間に有意な差がないという既定の仮定 母集団のパラメータに関する記述で、データによって証明されない限り、真であると仮定される。 サンプルデータで観察された差は偶然によるものであり、実際の効果ではない。 * 対立仮説($H_a$): 帰無仮説の反対 観測値と期待値の間に有意差があるとする。仮説が棄却されるかどうかを判断するために検証されるものである。 統計的仮説検定の目的は、2つの仮説のうちどちらがデータによって最も支持されているかを判断し、その証拠に基づいて帰無仮説を棄却するか否かを決定することである。 ------------------------------------------------------------------------ ## BZ-77 アプローチ設計 - 分析アプローチ設計 ⭐️⭐️ 🔥必須🔥 ### Q.解くべき課題がフレーミングされていれば、必要な分析手法、可視化などを適切に選択できる * **Identify the research question** 分析によって答えたい問題や質問を明確に定義する。 分析の課題、目標、および望ましい結果を明確に理解する。 * **Determine the appropriate data** 使用するデータが、研究的疑問に答えるために適切かつ十分であることを確認する。 * **Select appropriate analysis method** データや研究的疑問に最適な統計手法や機械学習手法を選択する。 * **Prepare the data** データのクリーニングと前処理、欠損値の処理、分析手法に使用できるデータ形式であることを確認する。 * **visualization** 分析結果を効果的に伝達するために、最適な可視化のタイプを選択する。 * **Validate the results** 結果の正確性と信頼性を検証し、外れ値、異常値、または分析の妥当性に影響を与える可能性があるその他の問題をチェックします。 ------------------------------------------------------------------------ # Quote - [スキル定義委員会 from データサイエンティスト協会](https://twitter.com/jdss_skill)
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up