(#lecture 0) # 講義概要 📄 **[授業概要PDFはこちら](https://www.dropbox.com/scl/fi/qb7bjmvw70vtb3anuqcsa/IDM-Organization-Workflow.pdf?rlkey=qb7j04yj1l99noar9oa4i2els&dl=0)** ## 授業名 **Introduction to Data Management (FU15)** **開講大学:** 会津大学コンピュータ理工学部 ## 担当教員 - Evgeny Pyshkin 上級准教授 - Maxim Mozgovoy 上級准教授 --- ## 授業の目的と内容 ### 目的 - データ管理を研究・技術領域として紹介します。 - 現代の情報システムで利用されるデータモデルやモデリングアプローチを解説します。 - データモデリング、保存、検索といった実社会のシナリオについて、実践的な「ノウハウ」を学びます。 - この授業は、「データベース管理システム」や「オペレーティングシステム」といった後続の専門科目の基礎となります。 ### 内容 - データ管理の基本原則(情報、データ、知識)について学びます。 - データモデリングのアプローチ、実装、実践的な利用方法を扱います。 - データの保存、バージョン管理、配布、バックアップに関する手法と実用的な課題を取り上げます。 - データベースシステムや専門的なデータ管理システムを用いたデータのアクセスと保存について学びます。 --- ## 授業の進め方 - **講義:** 週に2回、合計4時限(通常:火曜日1・2限、金曜日1・2限) - **演習:** 週に1回、2時限(通常:金曜日3・4限) - **お知らせ:** 緊急連絡はメールで通知。講義資料などはLMS(Moodle)で提供されます。 --- ## 主な活動 ### クイズ - 各講義の直後にMoodleで公開されます。 - 提出期限:通常、次の講義の前日の23:55まで。 - 制限時間:15〜20分、解答は1回限り。 ### 演習 - 1つのテーマに約1週間取り組みます。 - 提出期限:次の演習の前日の23:55まで。 #### 演習の進め方(9ページより) **準備:** - LMS(Moodle)にアクセスできることを確認。 - 講義資料をダウンロードし、内容を理解。 - 演習の説明を読み、指示に従って完了。 **提出:** - 提出形式:zipファイル。 - ファイル名形式:「あなたのID-e演習番号.zip」 - 例:`s1250033-e1.zip` - 締め切りは厳守。 **サポート:** - 問題が発生した場合は、担当教員またはTAに連絡。 --- ## 成績評価 - **テストとクイズ:** 40% - **演習(個人プロジェクト):** 30% - **最終テスト(オンラインクイズ形式):** 30% ### ボーナスポイント - 授業への積極的な参加や質の高い演習にはボーナスポイントが与えられる場合があります。 ### 最終テストの免除 - <u>演習とクイズの両方で最大スコアの70%以上を獲得するなど、特に優秀な成績を収めた学生は最終テストが免除され、満点が与えられる場合があります。</u> --- (#lecture 1) # 基礎概念のまとめ 📄 **[授業概要PDFはこちら](https://www.dropbox.com/scl/fi/0uocwfn95x2l1fgtgj7t8/IDM-Lecture-01-Foundation-Concepts.pdf?rlkey=iwq5uspaqxayrtk5b93ra31ik&e=1&dl=0)** データ管理の基本となる3つの重要なテーマについて解説します。 --- ## Unit 1: 「データ」「情報」「知識」― 点を線で結ぶように これらは似ていますが、明確な違いがあります。データは素材、知識は完成品のような関係です。この関係は、よく以下のようなピラミッドで表されます。 ![image](https://hackmd.io/_uploads/HJ8_xbHmlx.png) ### 🔰 分かりやすく ばらばらの点(データ)に意味づけをして線でつなぐと、形が見えてきます(情報)。 さらに、その形から法則やパターンを見つけることが知識です。講義ではトマトを例にしています。 - **データ:** 「1」という数字がある - **情報:** 「それはトマトが1個だ」とわかる - **知識:** 「トマトは果物だ」という分類を知る - **知恵:** 「だからフルーツサラダには入れない」という判断ができる ### ✅ 要点のまとめ - <span style="color: red; ">**データ (Data)** </span> コンピュータによって処理される、未加工で整理されていない事実。 客観的な事実や数値の羅列であり、それ自体では特定の意味を持ちません。 例えば、単独の数字や単語がこれにあたります。 - <span style="color: red; ">**情報 (Information)** </span> 人間が必要とし、特定の文脈の中で構造化され提示されたデータ。 データに意味や文脈が与えられたもので、古くなったり間違っていたりする可能性もあります。 例えば、ただの数字のリストも、それが「売上」や「気温」を表していると分かれば情報になります。 - <span style="color: red; ">**知識 (Knowledge)** </span> 情報を分析・適用することで得られるパターンや法則。 「どうすれば良いか」という行動指針につながります。 例えば、売上データ(情報)を見て、なぜ売上が高いのか、あるいは低いのかを理解し、次にとるべき行動を判断することが知識にあたります。 (ソース https://www.youtube.com/watch?v=sdzUfHwNCVQ) --- ### 📊 データライフサイクル データは、**収集 → 処理 → 分析 → 配布 → 保存** といった一連の流れ(ライフサイクル)で管理されます。 --- ### データ管理計画の基本質問 データ管理を始める前に、まず以下の基本的な問いについて考えることが重要です。 - 目標は何か? - 何を収集するのか? - 何を保管するのか? - どこに保管するのか? - 後で利用、変更、共有、再利用するために何が必要か? これらの問いは、バージョン管理(Versioning)、バックアップ(Backup)、保管(Storage) など、データ管理に不可欠な要素と密接に関わっています。 --- ## Unit 2: 「メタデータ」― データに付ける名札 データそのものを分かりやすくするための、重要な「付加情報」です。 ### 🔰 分かりやすく メタデータとは「データについてのデータ」、つまりデータに付ける「名札」や「説明書」のことです。 例えば、写真データに対して「いつ、どこで撮影したか」という情報を付けておけば、 後から探したり他の人に見せたりするときに非常に便利になります。 この名札を付けておく一手間が、後々の手間を大きく省きます。 ### ✅ 要点のまとめ - **定義:** メタデータは<u>「データに関するデータ」</u>です。 データはそれ自体では自己記述的ではないため、メタデータがその内容を説明します。 - **目的:** - 後からデータを見つけやすくする - データの内容を正しく理解する - 共同研究者や他のユーザーとデータを共有しやすくする - **種類(主な3タイプ):** - <span style="color: red; ">**記述メタデータ(Descriptive Metadata)</span>:** データが「何について」のもので、「誰が」作成したかを示す - <span style="color: red; ">**構造メタデータ (Structural Metadata)</span>:** データ要素の構成と相互関係を示す - <span style="color: red; ">**管理メタデータ(Administrative Metadata)</span>:** データの出所、種類、アクセス権などの管理情報 - **標準規格:** データの互換性や完全性を保つために、分野ごとに標準化されたメタデータ規格があります。 - FGDC: 地理空間データ向け。 - DDI: 社会科学、経済学、健康科学データ向け。 - Dublin Core: デジタル・物理リソース全般向け。 - Darwin Core: 生物多様性データ向け。 - その他、AVMS(天文学)など多数存在します。 - 継続的な管理: データは一度作ったら終わりではなく、「フォーマットはまだ利用可能か?」「バックアップは機能しているか?」といった項目を継続的に確認することが重要です。 (参考リンク https://www.nttdata-value.co.jp/blog/dataconsulY02) --- ## Unit 3: 「ERモデル」― データの設計図 大量のデータを扱う前に、その構造を整理するための「設計図」の作り方を学びます。 ### 🔰 分かりやすく <u>ERモデル(エンティティ・リレーションシップ・モデル)</u> とは、 現実世界のモノ(エンティティ)と、それらの関係性(リレーションシップ)を図で表現する手法です。 例えば、「学生」「科目」「プログラム」という3つのモノの関係を、 「学生はプログラムに所属する」「プログラムは科目を含む」といった形で図にすると、複雑な関係がひと目で分かります。 家を建てる前に設計図を描くように、データを扱う前にERモデルを作ることで、きれいで矛盾のないデータ管理が可能になります。 ![image](https://hackmd.io/_uploads/Hkj1bWBmxg.png) ### ✅ 要点のまとめ - <span style="color: red; ">**データモデル</span>:** データ構造、関係性、制約、操作などを定義するための一連の概念。 - <span style="color: red; ">**ERモデル (Entity-Relationship Model)</span>:** - 1976年に Peter Chen によって提唱 - 特定の領域における対象(エンティティ)と、それらの相互関係(リレーションシップ)を記述 - ビジネスプロセスに必要な情報の整理・可視化に役立つ - **作成ツール:** 授業では **[app.diagrams.net](https://app.diagrams.net)**(旧 draw.io)を使ってER図を作成します。 ### lecture 1 小テスト --- ### 問題 #### 問1. 次のうち、「データ」を最もよく説明しているものはどれですか? a) 文脈の中で構造化され、提示された事実 b) 未加工で整理されていない事実 c) 情報から得られるパターンや法則 d) 他のデータを説明するためのデータ --- #### 問2. ある店で、個々の商品のバーコードをスキャンしただけの記録(例:「4902102072625」)は、DIKWピラミッドにおいて主にどれに分類されますか? a) データ (Data) b) 情報 (Information) c) 知識 (Knowledge) d) 知恵 (Wisdom) --- #### 問3. 「データについてのデータ」と定義され、後でデータを見つけたり、理解したり、共有したりするのに役立つものは何ですか? a) ERモデル b) メタデータ c) データライフサイクル d) データ構造 --- #### 問4. メタデータにはいくつかの種類があります。リソースの作成者や内容に関する情報を追加するメタデータは何ですか? a) 管理メタデータ (Administrative Metadata) b) 構造メタデータ (Structural Metadata) c) 記述メタデータ (Descriptive Metadata) d) 標準メタデータ (Standard Metadata) --- #### 問5. 1976年にピーター・チェンによって提唱されたERモデル(エンティティ・リレーションシップ・モデル)の主な目的は何ですか? a) 大規模なデータセットを圧縮して保存すること b) 特定の知識領域における、関心のある事柄とそれらの相互関係を記述すること c) データのバックアップが正しく機能しているか確認すること d) 生物多様性データのための標準的な用語を提供すること --- ### ✅ 答えと解説 #### 問1. の答えと解説 **答え:** b) 未加工で整理されていない事実 **解説:** データは、まだ文脈や意味が与えられていない、生の事実や数値のことを指します。 選択肢aは「情報」、cは「知識」、dは「メタデータ」の説明に近いです。 --- #### 問2. の答えと解説 **答え:** a) データ (Data) **解説:** スキャンされたバーコードの数字の羅列は、それだけでは「何の商品が売れたか」という文脈がなく、未整理の事実です。 これが「コカ・コーラ 500ml」という商品情報と結びつくことで「情報」になります。 --- #### 問3. の答えと解説 **答え:** b) メタデータ **解説:** メタデータは「データについてのデータ」と定義され、データの内容を説明し、将来の利用を容易にするための重要な情報です。 --- #### 問4. の答えと解説 **答え:** c) 記述メタデータ (Descriptive Metadata) **解説:** 記述メタデータは、リソースが何であるか、何を含んでいるか、誰が作成したかといった、内容を説明するための情報を提供します。 --- #### 問5. の答えと解説 **答え:** b) 特定の知識領域における、関心のある事柄とそれらの相互関係を記述すること **解説:** ERモデルは、現実世界に存在するモノ(エンティティ)と、それらの関係性(リレーションシップ)をモデル化し、ビジネスプロセスなどで記憶すべき情報を表現するために使われます。 --- ## Quiz 1 問題1 このコースの名前は何ですか? a. Introduction to Date Management b. Data Management Technology c. Introduction to Data Management d. Information and Data Modeling e. Introduction to Information Management 問題2 このコースの範囲に含まれる主要なトピックを5つ選択してください。 a. Requirement engineering (要件工学) b. Data distribution (データ配布) c. C Programming (Cプログラミング) d. Data backup (データバックアップ) e. Business management and risk management (事業管理とリスク管理) f. Data storage (データ保管) g. Data analysis (データ分析) h. Data modeling (データモデリング) i. Operating Systems (オペレーティングシステム) j. Data archiving (データアーカイブ) k. Data versioning (データバージョン管理) 問題3 「情報は特定の時点のデータを捉えるものである。」 ○か×か? 問題4 「知識は、学習と指導のみによって得られる。」 ○か×か? 問題5 「情報システムは、特定の目的のためのERモデルを実装したものである。」 ○か×か? 問題6 「データセット作成者の名前と場所は、メタデータの一例である。」 ○か×か? 問題7 「情報システムとは、人々が有用なデータを収集、作成、配布するために作り、利用する、ハードウェア、ソフトウェア、通信ネットワークの組み合わせである。」 ○か×か? 問題8 「測定値がデータである場合、これらの測定値を時系列で表現したグラフは、単なる数値のリストと比較して、より多くの情報を私たちに提供する。」 ○か×か? 問題9 講義資料の例(パイプ圧力)に基づき、「データ」「情報」「知識」に当てはまるものをそれぞれ選択してください。 知識(Knowledge)の例はどれか? データ(Data)の例はどれか? 情報(Information)の例はどれか? 選択肢: Measured pipe pressure values. (測定されたパイプ圧力の値) Graph showing how the pressure changes in time. (圧力の時間変化を示すグラフ) What we need to do to keep normal pressure. (通常の圧力を保つために何をすべきか) (その他の選択肢...) 問題10 湿度の例に基づき、「データ」「情報」「役立つ知識」に当てはまるものをそれぞれ選択してください。 データ(Data)の例はどれか? 役立つ知識(Helpful knowledge)の例はどれか? 情報(Information)の例はどれか? 選択肢: Series of numbers ranged between 10 to 100. (10から100の範囲の数列) The numbers represents the growing measured humidity values against the time stamps. (その数字は、タイムスタンプに対する湿度の測定値の増加を表す) If the humidity is less than 30%, using a humidifying device is recommended. (湿度が30%未満の場合、加湿器の使用が推奨される) (その他の選択肢...) 問題11 研究データを管理する過程における、最も重要なチェック項目を選択してください。(一般的な概念を選ぶこと) a. トマトはまだ果物か? b. データはまだ取得可能か? c. フォーマットはまだ利用可能か? d. パイプの圧力は正常か? e. 適切に定義されたERモデルは存在するか? f. バックアップは計画通りに機能しているか? g. 扱うために必要なソフトウェアは利用可能か? h. メタデータはまだ利用可能か? 問題12 メタデータの種類と、その特性を正しく一致させてください。 記述メタデータ (Descriptive metadata) は... 管理メタデータ (Administrative metadata) は... 構造メタデータ (Structural metadata) は... 選択肢: defines the relashionship and the structure they exist in. (それらが存在する関係と構造を定義する) decribes access permissions and/or restrictions. (アクセス権や制限を記述する) may add information about when the resource was created. (リソースがいつ作成されたかの情報を追加することがある) 問題13 「データが正しく正確であれば、そのデータから得られる知識は常に信頼できる。」 ○か×か? 問題14 「データフォーマットの記述は、メタデータの一例である。」 ○か×か? 問題15 「ある数値の集合に対して、それをソートしたものはメタデータの一例である。」 ○か×か? 問題16 「私たちの知識は、収集したデータや情報に基づいて意思決定をするのに役立つ。」 ○か×か? 問題17 知識を得て、それを問題解決に応用するプロセスを説明する適切なキーワードを選択してください。 a. experience (経験) b. instruction (指導) c. archiving (アーカイブ) d. requirement elicitation (要件抽出) e. learning (学習) f. version control (バージョン管理) g. decision making (意思決定) h. study (研究・勉強) 問題18 「データは事実を表すため、主観的ではありえない。対照的に、データから導き出される情報は、人間に向けられたものであるため、常に主観的である。」 ○か×か? はい、承知いたしました。先ほどの小テストに、解答と簡単な解説を付け加えます。 --- ## Q1(解答・解説付き) <span style="color: red; "><u>**※答えが合っている保証はしません**</u></span> 問題1 このコースの名前は何ですか? c. Introduction to Data Management 問題2 このコースの範囲に含まれる主要なトピックを5つ選択してください。 b. Data distribution (データ配布) d. Data backup (データバックアップ) f. Data storage (データ保管) h. Data modeling (データモデリング) k. Data versioning (データバージョン管理) 【解説】 授業概要の資料4ページに、コースのアウトラインとして「data storage, versioning, distribution and backup」「Data modeling」が明記されています。 問題3 「情報は特定の時点のデータを捉えるものである。」 ○ (正) 【解説】 講義資料5ページに「Information captures data at a single point」と記載されています。 問題4 「知識は、学習と指導のみによって得られる。」 × (誤) 【解説】 講義資料4ページでは、知識は「investigation (調査), study (学習), or instruction (指導)」から得られるとされており、「学習と指導のみ」ではないため誤りです。 問題5 「情報システムは、特定の目的のためのERモデルを実装したものである。」 × (誤) 【解説】 ERモデルは情報システムを設計するための**モデル(設計図)**であり、情報システムそのものではありません。 問題6 「データセット作成者の名前と場所は、メタデータの一例である。」 ○ (正) 【解説】 作成者に関する情報は、リソースそのものを説明する「記述メタデータ (Descriptive Metadata)」の一例です。 問題7 「情報システムとは、人々が有用なデータを収集、作成、配布するために作り、利用する、ハードウェア、ソフトウェア、通信ネットワークの組み合わせである。」 ○ (正) 【解説】 これは情報システムの一般的な定義と一致します。 問題8 「測定値がデータである場合、これらの測定値を時系列で表現したグラフは、単なる数値のリストと比較して、より多くの情報を私たちに提供する。」 ○ (正) 【解説】 講義資料6ページのパイプ圧力の例が示す通り、単なる測定値(データ)をグラフ化することで、変化の傾向(情報)が分かり、より有益になります。 問題9 講義資料の例(パイプ圧力)に基づき、「データ」「情報」「知識」に当てはまるものをそれぞれ選択してください。 知識(Knowledge)の例はどれか? 答え: What we need to do to keep normal pressure. (通常の圧力を保つために何をすべきか) データ(Data)の例はどれか? 答え: Measured pipe pressure values. (測定されたパイプ圧力の値) 情報(Information)の例はどれか? 答え: Graph showing how the pressure changes in time. (圧力の時間変化を示すグラフ) 【解説】 講義資料6ページの例に記載の通りです。 問題10 湿度の例に基づき、「データ」「情報」「役立つ知識」に当てはまるものをそれぞれ選択してください。 データ(Data)の例はどれか? 答え: Series of numbers ranged between 10 to 100. (10から100の範囲の数列) 役立つ知識(Helpful knowledge)の例はどれか? 答え: If the humidity is less than 30%, using a humidifying device is recommended. (湿度が30%未満の場合、加湿器の使用が推奨される) 情報(Information)の例はどれか? 答え: The numbers represents the growing measured humidity values against the time stamps. (その数字は、タイムスタンプに対する湿度の測定値の増加を表す) 【解説】 データ(ただの数字)→情報(意味付け)→知識(行動指針)という流れに基づいています。 問題11 研究データを管理する過程における、最も重要なチェック項目を選択してください。(一般的な概念を選ぶこと) b. データはまだ取得可能か? c. フォーマットはまだ利用可能か? f. バックアップは計画通りに機能しているか? g. 扱うために必要なソフトウェアは利用可能か? h. メタデータはまだ利用可能か? 【解説】 講義資料19ページに記載されている、時間経過と共に確認すべき管理項目に合致します。 問題12 メタデータの種類と、その特性を正しく一致させてください。 記述メタデータ (Descriptive metadata) は... 答え: may add information about when the resource was created. (リソースがいつ作成されたかの情報を追加することがある) 管理メタデータ (Administrative metadata) は... 答え: decribes access permissions and/or restrictions. (アクセス権や制限を記述する) 構造メタデータ (Structural metadata) は... 答え: defines the relashionship and the structure they exist in. (それらが存在する関係と構造を定義する) 【解説】 講義資料14ページのそれぞれの定義に基づいています。 問題13 「データが正しく正確であれば、そのデータから得られる知識は常に信頼できる。」 × (誤) 【解説】 講義資料5ページにあるように、「情報は間違っている可能性」があり、正しいデータからでも解釈を誤れば、信頼できない知識が導かれることがあります。 問題14 「データフォーマットの記述は、メタデータの一例である。」 ○ (正) 【解説】 データフォーマットは、データがどのように構成されているかを示す「構造メタデータ」の一例です。 問題15 「ある数値の集合に対して、それをソートしたものはメタデータの一例である。」 × (誤) 【解説】 ソートされたものは、元のデータを処理した新たなデータ(情報)であり、「データに関するデータ」であるメタデータではありません。 問題16 「私たちの知識は、収集したデータや情報に基づいて意思決定をするのに役立つ。」 ○ (正) 【解説】 講義資料5ページの図が示す通り、知識は意思決定の基盤となります。 問題17 知識を得て、それを問題解決に応用するプロセスを説明する適切なキーワードを選択してください。 b. instruction (指導) e. learning (学習) g. decision making (意思決定) h. study (研究・勉強) 【解説】 知識は「学習」や「指導」から得られ、それを使って「意思決定」を行います。 問題18 「データは事実を表すため、主観的ではありえない。対照的に、データから導き出される情報は、人間に向けられたものであるため、常に主観的である。」 × (誤) 【解説】 この記述は両方の側面で断定しすぎています。どのデータを収集するかの選択には主観が入り得ますし、情報も客観的な事実を提示する場合があります。