# D05: list ###### tags: `sysprog2018` :::info 主講人: [jserv](http://wiki.csie.ncku.edu.tw/User/jserv) / 課程討論區: [2018 年系統軟體課程](https://www.facebook.com/groups/system.software2018/) :mega: 返回「[作業系統設計與實作](http://wiki.csie.ncku.edu.tw/sysprog/schedule)」課程進度表 ::: ## 預期目標 * 嘗試研讀大型軟體專案 * 學習 Linux 核心原始程式碼的資料結構 * 資料封裝和 C 語言程式設計技巧 * 複習機率統計,及早脫離鄉民口中的「文組^TM^」 * 兼顧理論和實務 ## 生日悖論 在街上你隨意找一人,兩人同一天生日的可能性有多大? 貌似很渺茫,直觀來說。考慮到閏年,一年共有 366 天,遇到同一天生日的機率為 `1/366`,或 `0.0027%`。但是如果把問題改為:在一個房間裡,至少有多少人,才能使其中兩個人的生日是同一天的可能性超過 50%?如果生日的分佈是隨機事件,在機率的推算,前述問題只要 23 個人在場,即可達到其中至少兩個人同一天生日,聽起來很怪吧? 這個有趣的數學現象被稱為生日悖論。這不是一個真正的邏輯悖論,因為它不是自相矛盾的,只是非常地不直觀。 先假設一年只有 365 天,每一天的生日機率相同。生日悖論會令人感到難以置信,因為人類傾向於從自己的角度看待問題。人們通常這樣想,如果一個房間裡加上自己共有 23 人,你會覺得在這 22 人裡頭跟你同一天生日的可能性太低了。365 天,現在卻只有 22 個人,你可能會想機率只有 `22/365`,所以很難在這 22 個人中遇上跟自己同一天生日。但這是錯的! —— 只是站在你自己的角度來思考有誰與你生日是一樣的。 事實上,生日問題指的是在任何 23 個人中,兩人生日相同的機率是多少。而不是你進入了一個有著 22 個人的房間,房間裡有人會和你有相同生日的機率。我們需要挨個比較房間裡每個人之間的生日。 >$其實\ 22\ 個人中遇上和自己同一天生日的人的機率不是\ \dfrac{22}{365}\ 而是 \\ 1 - 第一個人生日不同的機率\ \times\ 第二個人生日不同的機率\ \times\ ... \\ \begin{split} &= 1 - \dfrac{364}{365} \times \dfrac{363}{365} \times \dfrac{362}{365} \times\ ... \\ &= 1 - \dfrac{P_{22}^{364}}{365^{22}}\\ &=50.73\% \end{split}\\ 已經有超過一半的可能了$ [name=ryanpatiency][color=green] 把第一個人與其他 22 個比較,把第二個人與 21 個人比較,第三個人與其它 20 個人比較......直到最後第二個人與最後一個人比較。將 23 個人之間的所有這些比較加起來,產生 22 + 21 + 20 ... + 1 = 23 × 22/2 = 253種不同的搭配,所以產生一對成功匹配的生日並非不可思議。 為了計算出生日相同的機率,我們可以先計算所有人生日都不同的機率。那麼,第一人生日是唯一的機率為 `365/365`,第二個人生日是唯一的機率則下降到 `364/365`,以此類推,第 23 個人生日是唯一的機率為 `343/365`。 然後,把所有 23 個獨立機率相乘,即可得到所有人生日都不相同的機率為:(365/365) × (364/365) × ... × (343/365) ,得出結果為 `0.491`。那麼,再用 1 減去 `0.497`,就可以得到 23 個人中有至少兩個人生日相同的機率為 `0.509`,即 `50.9%`,超過一半的可能性。 通過公式可以看到,隨著房間中人數的增加,至少有兩人生日相同的機率也增加。例如,一個教室有 30 名學生,那麼兩個同學生日相同的機率為 70%。如果把人數增加到 70 個人,那麼至少有兩人生日是同一天的機率為 99.9%。 延伸閱讀: * [Birthday problem](https://en.wikipedia.org/wiki/Birthday_problem) * [Extensions of the birthday surprise](https://www.sciencedirect.com/science/article/pii/S0021980067800759) - [ ] 自我檢查事項 * 如何透過近似的運算式,估算上述機率計算呢?附上有效的 LaTeX 算式 * [Birthday problem](https://en.wikipedia.org/wiki/Birthday_problem) 對資訊安全的影響在哪些層面? * 像是 [Random Number Generator](http://stattrek.com/statistics/random-number-generator.aspx) 這樣的產生器,是否能產生「夠亂」的亂數呢? ## Linux 風格的 linked list 閱讀 [你所不知道的C語言: linked list 和非連續記憶體操作](https://hackmd.io/s/SkE33UTHf) 共筆和觀看解說錄影。 ```shell $ git clone https://github.com/sysprog21/linux-list $ cd linux-list $ make ``` 預期會得到以下輸出: ``` CC tests/containerof.o LD tests/containerof *** Validating tests/containerof *** [ Verified ] ... CC tests/list_cut_position.o LD tests/list_cut_position *** Validating tests/list\_cut\_position *** [ Verified ] ``` 其中 `include/list.h` 學習 Linux 核心原始程式碼的 linked list 資料結構實作程式碼。 - [ ] 自我檢查事項: * 為何 Linux 採用 macro 來實作 linked list?一般的 function call 有何成本? * Linux 應用 linked list 在哪些場合?舉三個案例並附上對應程式碼,需要解說,以及揣摩對應的考量 * GNU extension 的 [typeof](https://gcc.gnu.org/onlinedocs/gcc/Typeof.html) 有何作用?在程式碼中扮演什麼角色? * 解釋以下巨集的原理 ```Clike #define container_of(ptr, type, member) \ __extension__({ \ const __typeof__(((type *) 0)->member) *__pmember = (ptr); \ (type *) ((char *) __pmember - offsetof(type, member)); \ }) ``` * 除了你熟悉的 add 和 delete 操作,`list.h` 還定義一系列操作,為什麼呢?這些有什麼益處? * `LIST_POISONING` 這樣的設計有何意義? * linked list 採用環狀是基於哪些考量? * `list_for_each_safe` 和 `list_for_each` 的差異在哪?"safe" 在執行時期的影響為何? * for_each 風格的開發方式對程式開發者的影響為何? * 提示:對照其他程式語言,如 Perl 和 Python * 程式註解裡頭大量存在 `@` 符號,這有何意義?你能否應用在後續的程式開發呢? * 提示: 對照看 Doxygen * `tests/` 目錄底下的 unit test 的作用為何?就軟體工程來說的精神為何? * `tests/` 目錄的 unit test 可如何持續精進和改善呢? ## 針對 linked list 的排序演算法 研讀 [A Comparative Study Of Linked List Sorting Algorithms](https://www.researchgate.net/publication/2434273_A_Comparative_Study_Of_Linked_List_Sorting_Algorithms) - [ ] 自我檢查事項 * 對 linked list 進行排序的應用場合為何? * 考慮到 linked list 在某些場合幾乎都是幾乎排序完成,這樣貿然套用 quick sort 會有什麼問題?如何確保在平均和最差的時間複雜度呢? * 能否找出 Linux 核心原始程式碼裡頭,對 linked list 排序的案例? * 透過 [skiplist](https://en.wikipedia.org/wiki/Skip_list) 這樣的變形,能否加速排序? * 研讀 [How to find the kth largest element in an unsorted array of length n in O(n)?](https://stackoverflow.com/questions/251781/how-to-find-the-kth-largest-element-in-an-unsorted-array-of-length-n-in-on),比照上方連結,是否能設計出針對 linked list 有效找出第 k 大 (或小) 元素的演算法? * [linux-list](https://github.com/sysprog21/linux-list) 裡頭 `examples` 裡頭有兩種排序實作 (insertion 和 quick sort),請簡述其原理 ## 作業要求 * 回答上述「生日悖論」、「Linux 風格的 linked list」,和「針對 linked list 的排序演算法」裡頭「自我檢查清單」的所有問題,需要附上對應的參考資料和必要的程式碼 * 在 GitHub 上 fork [linux-list](https://github.com/sysprog21/linux-list),參考 `examples/insert-sort.c` 和 `examples/quick-sort.c` 的實作方式,實作 merge sort,並且在 `tests/` 目錄提供新的 unit test * 研讀「你所不知道的 C 語言」的 [函式呼叫篇](https://hackmd.io/s/SJ6hRj-zg) 和 [技巧篇](https://hackmd.io/s/HyIdoLnjl) 探討 [linux-list](https://github.com/sysprog21/linux-list) 的 `include/list.h` 的實作考量 (在上述檢查清單已提及部分) * 承上,實作測試程式,批次建立包含若干大小的 linked list,隨機放入數值為介於 1 到 366 之間 (包含) 的節點 (代表 [day number](https://www.epochconverter.com/daynumbers)) ,至少應該涵蓋 10^1^, 10^2^, 10^3^, ... 10^6^ 等數量,透過前述的 insert, quick, merge sort 進行排序,分析執行時間並解讀其行為 * 需要有檢驗的程式碼 * 承上,設計 deduplication 程式,將上述輸入中的數值挑出重複的節點並與刪除,透過統計分析,解讀執行時間分佈,以及探討 [data deduplication](https://en.wikipedia.org/wiki/Data_deduplication) 的效益 * 比照生日悖論,提出統計模型和數學分析 * 參照 [Remove duplicates from a sorted linked list](https://www.geeksforgeeks.org/remove-duplicates-from-a-sorted-linked-list/) * 延續 [A Comparative Study Of Linked List Sorting Algorithms](https://www.researchgate.net/publication/2434273_A_Comparative_Study_Of_Linked_List_Sorting_Algorithms) 的方式,量化分析上述步驟,並且提出效能改善機制 * 將你的觀察、上述要求的解說、應用場合探討,以及各式效能改善過程,善用 gnuplot 製圖,紀錄於「[作業區](https://hackmd.io/s/S1iCyyziG)」 ## 截止日期 * Apr 24, 2017 (含) 之前 * 越早在 GitHub 上有動態、越早接受 code review,評分越高
×
Sign in
Email
Password
Forgot password
or
Sign in via Google
Sign in via Facebook
Sign in via X(Twitter)
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
Continue with a different method
New to HackMD?
Sign up
By signing in, you agree to our
terms of service
.