2019q3 Homework1 (lab0)

--- tags: sysprog --- # 2019q3 Homework1 (lab0) contributed by < `yxguo2536` > ## 實驗環境作業系統： Ubuntu 18.04.3 gcc 編譯器：gcc 7.4.0 ## 實做根據 C Programming Lab 要求，修改 queue.c 的以下 function和 queue.h 的資料結構: 1. typedef struct queue_t 2. q_new 3. q_free 4. q_insert_head 5. q_insert_tail 6. q_remove_head 7. q_size 8. q_reverse ### sturct queue_t 原本的 queue_t 為： ```clike typedef struct { list_ele_t *head; } queue_t; ``` 而後為了實做 $O(1)$ 的 q_insert_tail 和 q_size，增加了2個成員 : ```clike typedef struct { list_ele_t *head; list_ele_t *tail; int size; } queue_t; ``` ### q_new * 初始化 queue 列表 * 注意要檢查 malloc 有沒有成功 ```clike queue_t *q_new() { queue_t *q = malloc(sizeof(queue_t)); if (!q) return NULL; q->head = NULL; q->tail = NULL; q->size = 0; return q; } ``` ### q_free * 釋放所有 queue 列表的 node 和 queue 本身 ```clike void q_free(queue_t *q) { if (!q) return; while (q->head) { list_ele_t *node = q->head; q->head = q->head->next; free(node->value); free(node); } free(q); } ``` ### q_insert_head * 新增一個 node 到 queue 開頭 * 如果第二次 malloc 失敗了，需要先釋放第一次 malloc 的空間再返回 * 如果 queue 是空的，那最後不只要把 head 指向新 node，也要把 tail 指向新 node ```clike bool q_insert_head(queue_t *q, char *s) { if (!q) return false; char *newStr = malloc(strlen(s) + 1); if (!newStr) return false; strcpy(newStr, s); list_ele_t *newh = malloc(sizeof(list_ele_t)); if (!newh) { free(newStr); return false; } newh->value = newStr; newh->next = q->head; if (!q->size) q->tail = newh; q->head = newh; q->size++; return true; } ``` ### q_insert_tail * 新增一個 node 到 queue 的結尾 * 同 q_insert_head，需要注意第二次 malloc 失敗時要釋放第一次 malloc 的空間後才能返回 * 不同於 q_insert_head，如果對空的 queue 下 it 指令，會造成 SIGSEGV，而自動評分系統沒考量到這種狀況。這個錯誤成因在於：當 q_new 的初始化 `q->tail = NULL;` 後碰到`q->tail->next = newh;`，要去存取 `NULL->next` 而導致錯誤。為解決此問題，需要根據「queue是否為初始狀態」做不同的處理。 ```clike bool q_insert_tail(queue_t *q, char *s) { if (!q) return false; char *newStr = malloc(strlen(s) + 1); if (!newStr) return false; strcpy(newStr, s); list_ele_t *newh = malloc(sizeof(list_ele_t)); if (!newh) { free(newStr); return false; } newh->value = newStr; newh->next = NULL; if (!q->size) { q->head = newh; q->tail = newh; } else { q->tail->next = newh; q->tail = q->tail->next; } q->size++; return true; } ``` ### q_remove_head * 調整 queue 列表，移除第一個 node。當然前提是至少有一個 node ```clike bool q_remove_head(queue_t *q, char *sp, size_t bufsize) { if (!q || !q->head) return false; list_ele_t *node = q->head; q->head = q->head->next; q->size--; if (sp) { strncpy(sp, node->value, bufsize - 1); sp[bufsize - 1] = '\0'; } free(node->value); free(node); return true; } ``` ### q_size * 回傳 queue 中的 node 數量 * 要特別判斷 queue 是否存在，不存在則當「 node 數為 0」處理 ```clike int q_size(queue_t *q) { if (!q) return 0; return q->size; } ``` ### q_reverse * 在不額外配置記憶體空間的情況下，反轉從 head 到 tail 的排序順序 * 在此使用 head 和額外 2 個指標進行排序反轉 ```clike void q_reverse(queue_t *q) { if (!q || !q->head) return; list_ele_t *prev = NULL; list_ele_t *cur = q->head; q->tail = q->head; while (cur) { q->head = cur; cur = cur->next; q->head->next = prev; prev = q->head; } } ``` 參考資料： 1. [afcidk的共筆](https://hackmd.io/@afcidk/ry4VZS9SN#q_reverse) ## 自動評分系統運作原理 ## 巨集的使用當初在開發的時候，我曾以 gdb 去查看 back trace，那時發現程式碼中應該呼叫 malloc 的中斷點，竟然是先跳到 test_malloc ，然後才又跳到 malloc。於是找了一下這 test_malloc 到底從哪來的，後來發現在 harness.h 裡面有這幾行巨集： ```clike #ifdef INTERNAL . . . #else #define malloc test_malloc #define free test_free #define strdup test_strdup #endif ``` 也就是說，在編譯時的 preprocessor 階段，當你沒有定義 INTERNAL，這 3 個標準函式就會通過字串處理被調包成其他函式。所以就要繼續找找看，到底有哪些地方有引入 harness.h、有哪些地方的 malloc 是有被調包的： * qtest.c ``` #define INTERNAL 1 #include "harness.h" ``` * queue.c ``` #include "harness.h" ``` * harness.c ``` #define INTERNAL 1 #include "harness.h" ``` 可以看到，雖然引入了 harness.h 的程式碼有三處，但其中 qtest.c 和 harness.c 都不會被調包，因為他們有事先宣告 INTERNAL。再來，我們進入 harness.c 的實做，看看 test_malloc / free 到底都多幫我們做了些什麼事： ```clike /* Value at start of every allocated block */ #define MAGICHEADER 0xdeadbeef /* Value when deallocate block */ #define MAGICFREE 0xffffffff /* Value at end of every block */ #define MAGICFOOTER 0xbeefdead /* Byte to fill newly malloced space with */ #define FILLCHAR 0x55 ``` ```clike typedef struct BELE { struct BELE *next; struct BELE *prev; size_t payload_size; size_t magic_header; /* Marker to see if block seems legitimate */ unsigned char payload[0]; /* Also place magic number at tail of every block */ } block_ele_t; ``` ### test_malloc ```clike void *test_malloc(size_t size) { if (noallocate_mode) { report_event(MSG_FATAL, "Calls to malloc disallowed"); return NULL; } if (fail_allocation()) { report_event(MSG_WARN, "Malloc returning NULL"); return NULL; } block_ele_t *new_block = malloc(size + sizeof(block_ele_t) + sizeof(size_t)); if (new_block == NULL) { report_event(MSG_FATAL, "Couldn't allocate any more memory"); error_occurred = true; } new_block->magic_header = MAGICHEADER; new_block->payload_size = size; *find_footer(new_block) = MAGICFOOTER; void *p = (void *) &new_block->payload; memset(p, FILLCHAR, size); new_block->next = allocated; new_block->prev = NULL; if (allocated) allocated->prev = new_block; allocated = new_block; allocated_count++; return p; } static block_ele_t *allocated = NULL; ``` test_malloc 配置的空間，示意圖如下 : ![block from test_malloc](https://i.imgur.com/nkCgAZL.png) 從程式碼中我們看到： * 如果我們原本想要呼叫`malloc(100)`，那麼實際執行時會跟系統要求 `100 + sizeof(block_ele_t) + sizeof(size_t)` 大小的空間 ```clike block_ele_t *new_block = malloc(size + sizeof(block_ele_t) + sizeof(size_t)); ``` * block_ele_t 的作用，基本上就是在空間的開頭用一些空間紀錄原本malloc的資訊： ```clike new_block->magic_header = MAGICHEADER; new_block->payload_size = size; ``` * 並且，它還很貼心的幫我們把所有用過的 malloc 都串連起來統一管理： ```clike new_block->next = allocated; new_block->prev = NULL; if (allocated) allocated->prev = new_block; allocated = new_block; allocated_count++; ``` 串連方式其實就是 queue 的 insert_head，只是 block_ele_t 為 doubly linked list 結構 * 而配置空間的主要區塊，我們實際拿來存放資料的空間，也會被填上 FILLCHAR ( 0x55 ) 做初始化： ```clike void *p = (void *) &new_block->payload; memset(p, FILLCHAR, size); ``` 其中，這個payload 當初的宣告的型態是`char[0]`，我後來做了小實驗發現 `sizeof(char[0])` 結果為0。根本沒空間，不能紀錄資料的。不過正因為他不佔空間，`new_block->payload`就等同於指向 block_ele_t 的尾端、size的開頭，以便我們將其填入 0x55 ![](https://i.imgur.com/Ovsk2Qy.png) 當然，也有另一種等效寫法： ```clike void *p2 = (void *) (new_block+1); memset(p, FILLCHAR, size); ``` * 除了開頭有 block_ele_t 幫我們標注 header，空間結尾也有地方標注 footer ： ```clike *find_footer(new_block) = MAGICFOOTER; ``` ```clike /* Given pointer to block, find its footer */ static size_t *find_footer(block_ele_t *b) { size_t *p = (size_t *) ((size_t) b + b->payload_size + sizeof(block_ele_t)); return p; } ``` 這裡可以跟一開始 malloc 的片段做對比： ```clike block_ele_t *new_block = malloc(size + sizeof(block_ele_t) + sizeof(size_t)); ``` 我們可以知道 `b + b->payload_size + sizeof(block_ele_t)`，基本上就是想讓指標跳到 `sizeof(size_t)`的地方。不過接下來我就懷疑了：這樣真的能指到 size_t 的地方嗎 ? 如果在做記憶體位移，`p+1`的位移「單位」，完全是取決於指標的型態：如果是 `char *p = 0x100`，則 `p+1 == 0x101` ; 如果是 `int *p = 0x100`，則 `p+1 == 0x104`。而因為 size_t 是 8 bytes，所以上述程式碼難道不該寫成 `b + ( b->payload_size + sizeof(block_ele_t) / 8 )` ？後來才想通：上述的 (size_t) 轉型等於把接下來的操作從「記憶體位移」轉換成「算術運算」。誠然如果是位移，0x100 + 1 = ? 得看指標型態決定單位，但轉換成算術運算後就變成單純的 256 + 1 = ? 的問題了。而之後的 (size_t*) 轉型則再把「算術運算」轉換成「記憶體位移」，所以 257 → 0x101，這就完成了以 1 為單位的記憶體位移。 ### test_free ```clike void test_free(void *p) { if (noallocate_mode) { report_event(MSG_FATAL, "Calls to free disallowed"); return; } if (p == NULL) { return; } block_ele_t *b = find_header(p); size_t footer = *find_footer(b); if (footer != MAGICFOOTER) { report_event(MSG_ERROR, "Corruption detected in block with address %p when " "attempting to free it", p); error_occurred = true; } b->magic_header = MAGICFREE; *find_footer(b) = MAGICFREE; memset(p, FILLCHAR, b->payload_size); /* Unlink from list */ block_ele_t *bn = b->next; block_ele_t *bp = b->prev; if (bp) bp->next = bn; else allocated = bn; if (bn) bn->prev = bp; free(b); allocated_count--; } ``` * 一開始，得先從輸入 `p` 找到實際 malloc 回傳的開頭 `b` ```clike ``` * 在 find_header() 裡面會檢查 MAGICHEADER 的完整性 ```clike if (b->magic_header != MAGICHEADER) { report_event( MSG_ERROR, "Attempted to free unallocated or corrupted block. Address = %p", p); error_occurred = true; } ``` 出了 find_header() 會緊接著呼叫 find_footer()，而後再檢查 MAGICFOOTER 的完整性 ```clike size_t footer = *find_footer(b); if (footer != MAGICFOOTER) { report_event(MSG_ERROR, "Corruption detected in block with address %p when " "attempting to free it", p); error_occurred = true; } ``` >這裡的設計我覺得有小瑕疵：find_header() 裡面會檢查 MAGICHEADER ; find_footer() 裡面卻不檢查 MAGICFOOTER。 >而且在find_header()裡出現的錯誤訊息是"Attempted to free ..."，但 free 明明是 test_free() 的工作而不是 find_header() 該管的，所以我覺得 header、footer 的檢查應該統一寫在 test_free() 裡面會比較好 >[name=yxguo] * 然後，藉由改變 header、footer 的值，標注此 block 為 free 狀態 ```clike b->magic_header = MAGICFREE; *find_footer(b) = MAGICFREE; ``` * 再把實際存放 data 的空間清空，初始化成 FILLCHAR ```clike memset(p, FILLCHAR, b->payload_size); ``` * 最後，把該 block 從 doubly linked list 紀錄中刪除 ```clike block_ele_t *bn = b->next; block_ele_t *bp = b->prev; if (bp) bp->next = bn; else allocated = bn; if (bn) bn->prev = bp; ``` ### 結論觀察 test_malloc / test_free 對 MAGICHEADER、MAGICFREE、MAGICFOOTER、FILLCHAR 這些巨集的使用，基本上可以理解為「malloc 後做xxx標記，free前檢查有沒有xxx」和「free後做ooo標記，malloc前檢查是不是ooo」所以這些 magic number 其實就是一種「通關密語」，它不一定要是 0xdeadbeef ，它也可以是 0x01、0x02、0x03 等等，反正只要 malloc 和 free 雙方有先 say 好就行。參考資料： 1. [colinyoyo26的共筆](https://hackmd.io/@colinyoyo26/2019q3lab0#%E5%B7%A8%E9%9B%86%E7%9A%84%E4%BD%BF%E7%94%A8) 2. [afcidk的共筆](https://hackmd.io/@afcidk/ry4VZS9SN#%E7%82%BA%E4%BB%80%E9%BA%BC%E9%9C%80%E8%A6%81-function-hooking) ## Signal 作業系統中有 Signal 的機制，可以傳送訊號給其他程式，比如：用鍵盤按下 Ctrl+C ，作業系統會傳一個 SIGINT 訊號給程式（行程），而程式收到了訊號後就一定得暫停當下的作業，優先處理訊號。至於如何「處理」，程式會有預設行為，根據不同訊號有不同處理行為，比如： |Signal | Description | Default Action| |-|-|-| |SIGSEGV |Invalid memory reference|terminate the process| |SIGALRM |Timer signal from alarm()| terminate the process| |SIGWINCH|Window resize signal|ignore the signal| 但既然是「預設」，代表其實我們可以更改他的行為，比如你想要在收到 SIGINT 後先寫個log檔、做些善後再退出。而 qtest.c 裡面就改變了 SIGSEGV 和 SIGALAM 的行為： ```clike static void queue_init() { fail_count = 0; q = NULL; signal(SIGSEGV, sigsegvhandler); signal(SIGALRM, sigalrmhandler); } ``` ```clike void sigsegvhandler(int sig) { trigger_exception( "Segmentation fault occurred. You dereferenced a NULL or invalid " "pointer"); } ``` ```clike void sigalrmhandler(int sig) { trigger_exception( "Time limit exceeded. Either you are in an infinite loop, or your " "code is too inefficient"); } ``` 可以看到，現在程式收到 SIGSEGV 和 SIGALRM 後的處理流程都一樣的 — 呼叫 trigger_exception： ```clike void trigger_exception(char *msg) { error_occurred = true; error_message = msg; if (jmp_ready) siglongjmp(env, 1); else exit(1); } ``` 而 trigger_exception() 的行為，基本上就是記錄即將打印的錯誤訊息，然後呼叫 siglongjmp() 根據 [man page](https://linux.die.net/man/3/siglongjmp) 描述： >longjmp() restores the environment saved by the last call of setjmp(3) with the corresponding env argument. 所以 siglongjmp() 得跟 sigsetjmp() 一起探討，既然在 trigger_exception 會使用到 siglongjmp()，那就得看看什麼時候設定了 sigsetjmp() * harness.c ```clike= bool exception_setup(bool limit_time) { if (sigsetjmp(env, 1)) { /* Got here from longjmp */ jmp_ready = false; if (time_limited) { alarm(0); time_limited = false; } if (error_message) { report_event(MSG_ERROR, error_message); } error_message = ""; return false; } else { /* Got here from initial call */ jmp_ready = true; if (limit_time) { alarm(time_limit); time_limited = true; } return true; } } ``` 再根據 [man page](https://linux.die.net/man/3/sigsetjmp) 所說： >setjmp() and sigsetjmp() return 0 if returning directly, and nonzero when returning from longjmp(3) or siglongjmp(3) using the saved context. 也就是說，上述 line 3 是一個關鍵：這裡會被執行 2 次，第一次是在初始設定，回傳值0，執行`else{ ... }` ; 第二次是 setlongjmp() 回來，回傳值1，執行`if{ ... }`。如果是從 setlongjmp() 返回的，會呼叫 report_event() 把錯誤訊息打印在終端，但因為這裡帶的參數只是 MSG_ERROR，所以不會終止程式。（要是MSG_FATAL 才會終止） * report.c ```clike void report_event(message_t msg, char *fmt, ...) { va_list ap; bool fatal = msg == MSG_FATAL; // ... if (fatal) { if (fatal_fun) fatal_fun(); exit(1); } } ``` 這也說明了為什麼 qtest 收到 SIGSEGV 後還是會繼續執行。 <br> 現在，我們知道 qtest 會更改訊號處理流程，當 SIGSEGV 或 SIGALRM 發生，就會回到 exception_setup() 裡面繼續執行。那下一步我們就要了解， exception_setup() 是在哪裡被 setup 的： * qtest.c ```clike bool do_new(int argc, char *argv[]) { // ... if (exception_setup(true)) q = q_new(); exception_cancel(); // ... } bool do_free(int argc, char *argv[]) { // ... if (exception_setup(true)) q_free(q); exception_cancel(); // ... } bool do_insert_head(int argc, char *argv[]) { // ... if (exception_setup(true)) { // ... } exception_cancel(); // ... } . . . ``` 可以看到，在 qtest.c 裡面，呼叫 q_xxx() 前都會設立返回點，只要在 q_xxx() 裡面出現 SIGALRM 或 SIGSEGV，就會中斷執行跳回 exception_setup() 而在 qtest.c 的最後，會再呼叫 exception_cancel() 設 `jmp_ready` 為假，藉此擋掉對 siglongjmp() 的呼叫： * harness.c ```clike void exception_cancel() { if (time_limited) { alarm(0); time_limited = false; } jmp_ready = false; error_message = ""; } void trigger_exception(char *msg) { error_occurred = true; error_message = msg; if (jmp_ready) siglongjmp(env, 1); else exit(1); } ``` 所以 exception_cancel() 後就算再發生 SIGALRM 或 SIGSEGV，也不會再有機會回到 exception_setup() 裡面。 ### 參考資料 1. [signal - Linux man page](http://man7.org/linux/man-pages/man7/signal.7.html) 2. [siglongjmp - Linux man page](https://linux.die.net/man/3/siglongjmp) 3. [sigsetjmp - Linux man page](https://linux.die.net/man/3/sigsetjmp) ## Valgrind 運作原理進行中 ## dudect 進行中