2019q1 Homework1 (list)

###### tags: `linux2019` # 2019q1 Homework1 (list) contributed by < `ambersun1234` > ## 環境 ```shell $ uname -a Linux 4.15.0-45-generic #48~16.04.1-Ubuntu SMP Tue Jan 29 18:03:48 UTC 2019 x86_64 x86_64 x86_64 GNU/Linux $ gcc -v gcc version 5.4.0 20160609 (Ubuntu 5.4.0-6ubuntu1~16.04.11) ``` ## 說明 + [作業說明](https://hackmd.io/s/S12jCWKHN) ## Sorting algorithm: + 在 GitHub 上 fork [linux-list](https://github.com/sysprog21/linux-list) 並學習裡頭的技巧，包含裡頭 unit test 的設計，透過給定的 linked list 操作，進而實作出 merge sort + 附上你的修改過程，也需要讓 `qtest` 得以支援 + 可將 [dict](https://hackmd.io/s/B1Bq5Jat7) 裡頭的測試資料拿來作效能分析的輸入 + 思考提升排序效率的方法，需要做平均和最壞狀況的分析 + 排序演算法時間複雜度 |Case|Insertion sort|Quick sort|Merge sort| |--|--|--|--| |Average case|$O(n^2)$|$O(nlogn)$|$O(nlogn)$| |Worst case|$O(n^2)$|$O(n^2)$|$O(nlogn)$| ### Average case 實驗 + `make averagePlot` + ![](https://i.imgur.com/QBp0Ueo.png) + 其實可以發現，quick sort 以及 merge sort 在 average case 的表現下並不會差太多 ### Worst case 實驗 + `make worstPlot` + ![](https://i.imgur.com/iGoODo9.png) + 值得一提的是，當我在跑 worst case 的測試時，會出現 `segmentation fault`。後來在追蹤時發現到是在 quick sort 60000 的時候發生；結果是因為 stack size 不夠大所導致，使用 `ulimit -s 65536` 更改 stack size 即可解決 ## 自我檢查事項: ### 為何 Linux 採用 macro 來實作 linked list？一般的 function call 有何成本？ + macro 是在編譯階段進行展開的，根據 `man gcc` 裡面的提到 > `-E` Stop after the preprocessing stage; > do not run the compiler proper. > The output is in the form of preprocessed source code, > which is sent to the standard output. 在 compile 的時候加上 -E 這個參數即可以觀察到展開巨集之後的程式碼，就可以發現到說 macro 全部被展開到程式碼裡面( 我覺得是類似 find and replace ) + function call 編譯完成後並不會像 macro 一樣全部展開到程式碼之中，而是在記憶體中實際佔有空間的。在演算中有學到 , 每次的 function call 都是要對 stack 進行 push pop 的，而這樣的操作是很耗時間的 + 綜合以上， macro 不會發生 function call 的 push pop 的操作，可以減少時間成本，但相對的，由於是展開巨集，所以會造成空間的浪費 + 那 linux 會採用 macro 實做 linked list 我想很大的原因是要避免 stack 的 push pop 造成多消耗時間 ### Linux 應用 linked list 在哪些場合？舉三個案例並附上對應程式碼，需要解說，以及揣摩對應的考量 #### GNU extension 的 [typeof](https://gcc.gnu.org/onlinedocs/gcc/Typeof.html) 有何作用？在程式碼中扮演什麼角色？ + 先上程式碼 ```c=1 #define max(a,b) \ ({ __typeof__ (a) _a = (a); \ __typeof__ (b) _b = (b); \ _a > _b ? _a : _b; }) ``` `typeof` 是 gnu c extension，它可以取得參數的型態，比如說 ```=1 int a; typeof(a) b; ``` 則上述第二行會變成 `int b;`，typeof 會返回參數的類型，a 為 int 型態，因此 typeof(a) 會變成 int 上述 max 的 macro 即是可以針對各種型態的數字進行比較，傳回較大者，需要注意的是，實際上在用 typeof 的時候必須要寫成 \_\_typeof\_\_ 才可以編譯成功 ### 解釋以下巨集的原理 ```Clike #define container_of(ptr, type, member) \ __extension__({ \ const __typeof__(((type *) 0)->member) *__pmember = (ptr); \ (type *) ((char *) __pmember - offsetof(type, member)); \ }) ``` + 在解釋 container_of 之前必須要先看 offsetof >[offsetof macro](https://github.com/torvalds/linux/blob/6f0d349d922ba44e4348a17a78ea51b7135965b1/include/linux/stddef.h) ```c #define offsetof(TYPE, MEMBER) ((size_t)&((TYPE *)0)->MEMBER) ``` + offsetof 的 macro 是定義在 include/linux/stddef.h 中，其功用為計算 struct 成員在 struct 中的偏移量。 + 在 offsetof 的 macro 中，它會把 0 強制轉型至 TYPE 指標型態，以此為 TYPE 的起始位置，得到 MEMBER 的位置，由於 0 視為該 TYPE 的起點，因此就會得到 MEMBER 在 TYPE 中的偏移量。考慮以下程式碼: ```c=1 #include <stdio.h> #define offsetof(TYPE, MEMBER) ((size_t) &((TYPE *)0)->MEMBER) typedef struct mdata { int a, b, c; char *hello; struct mdata *next; } data; int main() { printf("-- a = %d --\n", offsetof(data, a)); printf("-- b = %d --\n", offsetof(data, b)); printf("-- c = %d --\n", offsetof(data, c)); printf("-- hello = %d --\n", offsetof(data, hello)); printf("-- next = %d --\n", offsetof(data, next)); return 0; } ``` 其輸出結果為 ```=1 -- a = 0 -- -- b = 4 -- -- c = 8 -- -- hello = 16 -- -- next = 24 -- ``` a 的偏移量是 0，因為他是該 TYPE 的起點，b 跟 c 的偏移量分別是 4, 8(int 大小為 4 byte)，hello 的偏移量為 16(char * 的大小為 8 byte, 位置 12 無法被 8 整除，所以要新增 padding 變成 16) > [struct alignment](https://stackoverflow.com/questions/4306186/structure-padding-and-packing) + 回到 container_of > [reference container_of](https://adrianhuang.blogspot.com/2010/01/linux-kernel-containerof.html) ```Clike #define container_of(ptr, type, member) \ __extension__({ \ const __typeof__(((type *) 0)->member) *__pmember = (ptr); \ (type *) ((char *) __pmember - offsetof(type, member)); \ }) ``` + \_\_extension\_\_ > GCC uses the __extension__ attribute when using the -ansi flag to avoid warnings in headers with GCC extensions. This is mostly used in glibc with function declartions using long long + 它宣告了一個型態為 `((type *)0)->member` 的指標變數 `__pmember` 並將 `ptr` 指派給 `__pmember` + 再將 \_\_pmember 扣掉 member 的偏移量，即可得到該 TYPE 的位置 ### 除了你熟悉的 add 和 delete 操作，`list.h` 還定義一系列操作，為什麼呢？這些有什麼益處？ + [linux/list.h](https://github.com/torvalds/linux/blob/2c45e7fbc962be1b03f2c2af817a76f5ba810af2/include/linux/list.h) + 多人開發時，為避免重造輪子，於是團隊開發出一系列 API 提供團隊自己使用。 ### `LIST_POISONING` 這樣的設計有何意義？ + `LIST_POISONING` 一系列定義於 [linux/poison.h](https://github.com/torvalds/linux/blob/master/include/linux/poison.h) 中。該檔案定義了許多的 magic number ，這些 magic number 被用在許多的地方 e.g. mm, arch, drivers, kernel 等。我有找到一篇 [what is the meaning of 0xdead000000000000?](https://stackoverflow.com/questions/27801360/what-is-the-meaning-of-0xdead000000000000/27806246) 是在探討這些 magic number 的設計考量點。 + 對於非法的 linked list 節點，一般的作法是將其設為 NULL；在龐大的系統中，一定不只有一個 linked list，如果要對其進行除錯的時候，會變得相對困難，因為全部都是 NULL；而有了 `LIST_POISONING`，可以很快速的辨別是哪裡出錯 ### linked list 採用環狀是基於哪些考量？ + circular linked list 在結構上是屬於環狀的，也就是說它沒有一個特定的頭尾，相比 singly 或 doubly linked list，circular 的結構較為單純；在實做上，可以不用考慮一些 corner case 比如刪掉頭或刪掉尾巴，circular 僅須考慮 linked list 是否沒有連接上的問題 ### 什麼情境會需要對 linked list 做排序呢？舉出真實世界的應用，最好在作業系統核心出現 + 作業系統實做上一定會面臨到排程問題，電腦上的任務也會時常進行刪減，所以是以 linked list 進行實做；排程工作又會面臨到執行先後順序的問題，因此排程也會需要進行排序的工作 ### 什麼情境會需要需要找到 [第 k 大/小元素](https://www.geeksforgeeks.org/kth-smallestlargest-element-unsorted-array/) 呢？又，你打算如何實作？ ### `list_for_each_safe` 和 `list_for_each` 的差異在哪？"safe" 在執行時期的影響為何？ ```c=1 #define list_for_each_safe(node, safe, head) \ for (node = (head)->next, safe = node->next; node != (head); \ node = safe, safe = node->next) ``` + safe 的版本相較於普通的 for_each 來說，最大的不同就是增加一個變數 `safe`，去紀錄當前 node 的下一個。直播中有提到，如果 head 不見了，那麼就會出錯，由於 linux kernel 的 linked list 是屬於 `circular` ，當 head 在執行的時候被刪除了，safe 這個變數可以先將 head 的下一個保存起來，確保執行順利 > [reference 你所不知道的 C 語言：linked list 和非連續記憶體操作 1:19:00](https://www.youtube.com/watch?v=0B0GNPv02zg&t=2404s) ### for_each 風格的開發方式對程式開發者的影響為何？ + 提示：對照其他程式語言，如 Perl 和 Python + 一般而言，如果要針對特定資料型態(e.g. binary tree，linked list)進行走訪，在程式上就必須要了解資料底層如何實做，才能寫出走訪。 + 在一些程式語言，如 python, c++ 都有提供 foreach 可以使用。對於特殊資料型態，都不需要對走訪的程式碼進行變動，很大的一個原因是他們都是 ADT(Abstract Data Type, 抽象資料型態)；我們可以不用考慮資料底層的實做方式，進而實現資料封裝。 ### 程式註解裡頭大量存在 `@` 符號，這有何意義？你能否應用在後續的程式開發呢？ + 提示: 對照看 Doxygen + `Doxygen` 是一個可以將程式裡的特定註解轉換成 Document 的產生工具 + `@` 是告訴 Doxygen 說這一行要轉換成為 Document，比方說 + @param a description + @param b description + @return return a + b + 在開發的過程中可以將註解與開發文件整合，我覺得是一個不錯的功能，在未來的開發過程中，我會試著將這一個工具實際應用在專案上面 > [Doxygen 簡介 reference](https://blog.xuite.net/jesonchung/scienceview/93545213-%E7%B0%A1%E4%BB%8BDoxygen) ### `tests/` 目錄底下的 unit test 的作用為何？就軟體工程來說的精神為何？ + unit test , 單元測試。測試是為軟體工程中相當重要的一個環節，它可以確保程式的行為是符合預期的，確保程式碼的品質。單元測試是針對程式中的最小單元，也就是 function 進行測試，通過了單元測試即表示該 function 的行為是合理的。 + 實務上軟體開發，每天都會收到各種的更新提交，程式碼的把關是每個團隊需要面對的事情，現在已經有很多服務可以整合測試這件事情，像是 travis-ci 與 jenkins 都有與 github 進行整合，在 push 之後立刻啟動相關測試，如此一來，可以節省許多在驗證程式碼的人力的這個部份 ### `tests/` 目錄的 unit test 可如何持續精進和改善呢？