---
tags: linux2022
---
# 2022q1 Homework1 (quiz1)
contributed by < `blueskyson` >
[題目連結](https://hackmd.io/@sysprog/linux2022-quiz1)
## 測驗 1
給定一個陣列 `nums` 和一個目標值 `target`,求找到 `nums` 的 2 個元素相加會等於 `target` 的索引值。題目確保必為單一解,且回傳索引的順序沒差異。例如給定輸入 `nums = [2, 7, 11, 15]`, `target = 9`,相加變成 `9` 的元素僅有 `2` 及 `7`,因此回傳這二個元素的索引值 `[0, 1]`。
考慮以下 C 語言實作:
```c
#include <stdlib.h>
static int cmp(const void *lhs, const void *rhs) {
if (*(int *) lhs == *(int *) rhs)
return 0;
return *(int *) lhs < *(int *) rhs ? -1 : 1;
}
static int *alloc_wrapper(int a, int b, int *returnSize) {
*returnSize = 2;
int *res = (int *) malloc(sizeof(int) * 2);
res[0] = a, res[1] = b;
return res;
}
int *twoSum(int *nums, int numsSize, int target, int *returnSize)
{
*returnSize = 2;
int arr[numsSize][2]; /* {value, index} pair */
for (int i = 0; i < numsSize; ++i) {
arr[i][0] = nums[i];
arr[i][1] = i;
}
qsort(arr, numsSize, sizeof(arr[0]), cmp);
for (int i = 0, j = numsSize - 1; i < j; ) {
if (arr[i][0] + arr[j][0] == target)
return alloc_wrapper(arr[i][1], arr[j][1], returnSize);
if (arr[i][0] + arr[j][0] < target)
++i;
else
--j;
}
*returnSize = 0;
return NULL;
}
```
若用暴力法,時間複雜度為 $O(n^2)$,顯然不符合期待。我們可改用 hash table (以下簡稱 HT) 記錄缺少的那一個值 (即 target - nums[i]) 和對應的索引。考慮以下案例 `nums = [2, 11, 7, 15]`:
1. `nums[0]` 是 `2`,`HT[2]` 不存在,於是建立 `HT[9 - 2] = 0`
2. `nums[1]` 是 `11`,`HT[11]` 不存在,於是建立 `HT[9 - 11] = 1`
3. `nums[2]` 是 `7`,`HT[7]` 存在 (設定於步驟 1),於是回傳 `[2, HT[7]] = [2, 0]`
![](https://i.imgur.com/5zKkfsr.png)
`hlist` 用於 hash table 的實作,它的資料結構定義在 [include/linux/types.h](https://github.com/torvalds/linux/blob/master/include/linux/types.h) 中:
```c
struct hlist_head {
struct hlist_node *first;
};
struct hlist_node {
struct hlist_node *next, **pprev;
};
```
示意如下:
![](https://i.imgur.com/GDDVjh3.png)
`hlist` 的操作與 `list` 一樣定義於 [include/linux/list.h](https://github.com/torvalds/linux/blob/master/include/linux/list.h),以 `hlist_` 開頭。`hlist_head` 和 `hlist_node` 用於 hash table 中 bucket 的實作,具有相同 hash value 的節點會放在同一條 `hlist` 中。 為了節省空間,`hlist_head` 只使用一個 `first` 指標指向 `hlist_node`,沒有指向串列尾節點的指標。
hash table 主要是由一個 `hlist_head` 的動態陣列所構成,每個 entry 指向一個由 `struct hlist_node` 構成的非環狀 doubly linked list,hash table 長度依照 `bits` 給定,可知大小為 2 的冪。
而可以發現 `struct hlist_head` 只有一個 `struct hlist_node *` 的成員; 而 `struct hlist_node` 型態卻包含一個 `struct hlist_node *` 及 `struct hlist_node **` ,其中一個原因為 hash table 指向的為非環狀的 linked list ,因此只需指向 list 的一端點,若單純使用 `struct hlist_node` 當作 `head` ,無用的 “pprev” 會造成大量的記憶體空間浪費,因此將 `head` 與 `node` 分開來實做。
而 `struct hlist_node` 中的 pprev 為何使用「指標的指標」而非「指標」? 回答這個問題前可以先參考 Linux 原始碼中 [type.h](https://gist.github.com/ian910297/d03edc271105854a0cc3fcf68c1cb527):
```c=75
struct list_head {
struct list_head *next, *prev;
};
struct hlist_head {
struct hlist_node *first;
};
struct hlist_node {
struct hlist_node *next, **pprev;
};
```
可知在 type.h 中有兩種 list 的結構:
`struct list_head` 在 Linux 中實作為環狀 doubly-linked list,且可以在行程管理 (process scheduling) 的相關實做上看到,如 sched.h 中有近 20 處使用到此結構,因可快速存取到頭以及尾的節點(時間複雜度 $O(1)$ 故有較好的效能,適用於行程管理這種對時間要求嚴謹的部分做使用。
`struct hlist_head` 搭配 `hlist_node`。在 Linux 核心中專門為了 hash table 而使用,`hlist_head` 的設計也省去了 list 起始端 `pprev` 的存放空間、在初始狀態就省去了一半的記憶體容量。而且同時 hash table 不會特別需要存取到 list 的尾端,並且走訪 list 相對沒那麼講求效率(因為 hash 的設計理念就是講求 hash collision rate 要低、因此一個 list 若太長比較需要改進的為 hash function 的設計而非改進整個資料結構)。綜合上述所說單向 list 已滿足 hash table 的需求。
**pprev 為何是「指標的指標」?** 若和 `list_head` 一樣使用單純的指標( `hlist_node *`),則考慮到 list 有方向性,delete node 時需要額外檢查其是否為 list 的 head 或是 NULL 等等,有較冗餘的程式碼必須實做,因此使用 `hlist_node **pprev` 直接存取上一個 node 所在的位址。Linux 為求程式碼簡潔故以 pointer to pointer 的方式用 `pprev` 直接指向前一個元素的記憶體位址本身。
以下是引入 hash table 的實作,學習 Linux 核心程式碼風格:
```c
#include <stddef.h>
#include <stdlib.h>
struct hlist_node { struct hlist_node *next, **pprev; };
struct hlist_head { struct hlist_node *first; };
typedef struct { int bits; struct hlist_head *ht; } map_t;
#define MAP_HASH_SIZE(bits) (1 << bits)
map_t *map_init(int bits) {
map_t *map = malloc(sizeof(map_t));
if (!map)
return NULL;
map->bits = bits;
map->ht = malloc(sizeof(struct hlist_head) * MAP_HASH_SIZE(map->bits));
if (map->ht) {
for (int i = 0; i < MAP_HASH_SIZE(map->bits); i++)
(map->ht)[i].first = NULL;
} else {
free(map);
map = NULL;
}
return map;
}
struct hash_key {
int key;
void *data;
struct hlist_node node;
};
#define container_of(ptr, type, member) \
({ \
void *__mptr = (void *) (ptr); \
((type *) (__mptr - offsetof(type, member))); \
})
#define GOLDEN_RATIO_32 0x61C88647
static inline unsigned int hash(unsigned int val, unsigned int bits) {
/* High bits are more random, so use them. */
return (val * GOLDEN_RATIO_32) >> (32 - bits);
}
static struct hash_key *find_key(map_t *map, int key) {
struct hlist_head *head = &(map->ht)[hash(key, map->bits)];
for (struct hlist_node *p = head->first; p; p = p->next) {
struct hash_key *kn = container_of(p, struct hash_key, node);
if (kn->key == key)
return kn;
}
return NULL;
}
void *map_get(map_t *map, int key)
{
struct hash_key *kn = find_key(map, key);
return kn ? kn->data : NULL;
}
void map_add(map_t *map, int key, void *data)
{
struct hash_key *kn = find_key(map, key);
if (kn)
return;
kn = malloc(sizeof(struct hash_key));
kn->key = key, kn->data = data;
struct hlist_head *h = &map->ht[hash(key, map->bits)];
struct hlist_node *n = &kn->node, *first = h->first;
AAA;
if (first)
first->pprev = &n->next;
h->first = n;
BBB;
}
void map_deinit(map_t *map)
{
if (!map)
return;
for (int i = 0; i < MAP_HASH_SIZE(map->bits); i++) {
struct hlist_head *head = &map->ht[i];
for (struct hlist_node *p = head->first; p;) {
struct hash_key *kn = container_of(p, struct hash_key, node);
struct hlist_node *n = p;
p = p->next;
if (!n->pprev) /* unhashed */
goto bail;
struct hlist_node *next = n->next, **pprev = n->pprev;
*pprev = next;
if (next)
next->pprev = pprev;
n->next = NULL, n->pprev = NULL;
bail:
free(kn->data);
free(kn);
}
}
free(map);
}
int *twoSum(int *nums, int numsSize, int target, int *returnSize)
{
map_t *map = map_init(10);
*returnSize = 0;
int *ret = malloc(sizeof(int) * 2);
if (!ret)
goto bail;
for (int i = 0; i < numsSize; i++) {
int *p = map_get(map, target - nums[i]);
if (p) { /* found */
ret[0] = i, ret[1] = *p;
*returnSize = 2;
break;
}
p = malloc(sizeof(int));
*p = i;
map_add(map, nums[i], p);
}
bail:
map_deinit(map);
return ret;
}
```
### 解題
觀察 `AAA` 下方的
```c
if (first)
first->pprev = &n->next;
h->first = n;
```
可以推論 `n` 會成為該 list 的第一個 node,讓原本的第一個 node 變成第二個。把執行 `AAA` 前的狀況概括成以下圖示:
```graphviz
digraph g2 {
rankdir=LR;
node [shape=record]
1 [label = "{<val>pprev|<ptr>next}"]
2 [label = "{<val>pprev|<ptr>next}"]
3 [label = "{<val>...}"]
4 [label = "{<val>pprev|<ptr>next}"]
head [label="{<val>|<ptr>first}"]
n [shape=plaintext fontcolor=red]
h [shape=plaintext fontcolor=blue]
first [shape=plaintext fontcolor=blue]
n->4:val [fontcolor=red]
head->1
h->head
first->1:n
1:ref -> 2:val
2:ref -> 3:val
}
```
我們的目的是讓 `h->first` 指向 `n`、把 `n->next` 指向當前的 `first`、把 `first` 的 `pprev` 更新為 `&n->next`、把 `n->pprev` 指向 `&head->first`。因此得到 ==AAA== 為 `n->next = first;`,==BBB== 為 `n->pprev = &h->first;`。
### 解釋上述程式碼運作原理
- **map_init:** 根據傳入的 `bits` 來 `malloc` 長度為 $2^{bits}$ 的 hash table entry (每個 entry 對應一個 hash 後的值),並把所有 entry 初始化為 `NULL`。
- **find_key:** 一開始透過 `head = &(map->ht)[hash(key, map->bits)]` 定位到 `key` 在 hash table 中對應的 entry。接下來透過 for 迴圈走訪這個 entry 底下的 list,確認該 `key` 是否已經存在 hash table,如果存在就回傳對應的 bucket,否則回傳 `NULL`。
- **map_get:** 呼叫 `find_key` 取得 bucket,然後回傳 bucket 中儲存的 `val`。
- **map_add:** 呼叫 `find_key` 檢查給定的 key 是否已經存在 hash table,若否就 malloc 一個新的 bucket 儲存 key 和 val,並將此 bucket 作為 entry 的第一個 bucket。
- **map_deinit:** 釋放 hash table 的所有資源。
## 測驗 2
針對 [LeetCode 82. Remove Duplicates from Sorted List II](https://leetcode.com/problems/remove-duplicates-from-sorted-list-ii/),以下是可能的合法 C 程式實作:
```c
#include <stddef.h>
struct ListNode {
int val;
struct ListNode *next;
};
struct ListNode *deleteDuplicates(struct ListNode *head)
{
if (!head)
return NULL;
if (COND1) {
/* Remove all duplicate numbers */
while (COND2)
head = head->next;
return deleteDuplicates(head->next);
}
head->next = deleteDuplicates(head->next);
return head;
}
```
### 解題
因為刪除 Node 的條件為 node 的 `val` 重複,所以直覺的推論出 COND1 是檢查當前的 Node 的 `val` 是否與下個 Node 一樣,若是,就透過 while 迴圈跳過所有 `val` 相同的 Node,然後進入下一層遞迴。故 ==COND1== 為 `head->next && head->val == head->next->val`。
在 while 迴圈中,要跳過所有重複的 Node,所以 ==COND2== 恰好與 COND1 相同,為 `head->next && head->val == head->next->val`。
## 測驗 3
針對 [LeetCode 146. LRU Cache](https://leetcode.com/problems/lru-cache/),以下是 [Least Recently Used (LRU)](https://en.wikipedia.org/wiki/Cache_replacement_policies#Least_recently_used_(LRU)) 可能的合法 C 程式實作:
```c
#include <stdio.h>
#include <stdlib.h>
#include "list.h"
typedef struct {
int capacity, count;
struct list_head dhead, hheads[];
} LRUCache;
typedef struct {
int key, value;
struct list_head hlink, dlink;
} LRUNode;
LRUCache *lRUCacheCreate(int capacity)
{
LRUCache *obj = malloc(sizeof(*obj) + capacity * sizeof(struct list_head));
obj->count = 0;
obj->capacity = capacity;
INIT_LIST_HEAD(&obj->dhead);
for (int i = 0; i < capacity; i++)
INIT_LIST_HEAD(&obj->hheads[i]);
return obj;
}
void lRUCacheFree(LRUCache *obj)
{
LRUNode *lru, *n;
MMM1 (lru, n, &obj->dhead, dlink) {
list_del(&lru->dlink);
free(lru);
}
free(obj);
}
int lRUCacheGet(LRUCache *obj, int key)
{
LRUNode *lru;
int hash = key % obj->capacity;
MMM2 (lru, &obj->hheads[hash], hlink) {
if (lru->key == key) {
list_move(&lru->dlink, &obj->dhead);
return lru->value;
}
}
return -1;
}
void lRUCachePut(LRUCache *obj, int key, int value)
{
LRUNode *lru;
int hash = key % obj->capacity;
MMM3 (lru, &obj->hheads[hash], hlink) {
if (lru->key == key) {
list_move(&lru->dlink, &obj->dhead);
lru->value = value;
return;
}
}
if (obj->count == obj->capacity) {
lru = MMM4(&obj->dhead, LRUNode, dlink);
list_del(&lru->dlink);
list_del(&lru->hlink);
} else {
lru = malloc(sizeof(LRUNode));
obj->count++;
}
lru->key = key;
list_add(&lru->dlink, &obj->dhead);
list_add(&lru->hlink, &obj->hheads[hash]);
lru->value = value;
}
```
### 解題
在 MMM1 中要走訪所有 list entry 並且 free 掉 container,所以 ==MMM1== 為 `list_for_each_entry_safe`。
==MMM2== 和 ==MMM3== 只是移動 Node 在 list 的位置,並沒有 free 掉把 container,用 `list_for_each_entry` 即可。
==MMM4== 待補
## 測驗 4
針對 [LeetCode 128. Longest Consecutive Sequence](https://leetcode.com/problems/longest-consecutive-sequence/description/),以下是可能的合法 C 程式實作:
```c=
#include <stdio.h>
#include <stdlib.h>
#include "list.h"
struct seq_node {
int num;
struct list_head link;
};
static struct seq_node *find(int num, int size, struct list_head *heads)
{
struct seq_node *node;
int hash = num < 0 ? -num % size : num % size;
list_for_each_entry (node, &heads[hash], link) {
if (node->num == num)
return node;
}
return NULL;
}
int longestConsecutive(int *nums, int n_size)
{
int hash, length = 0;
struct seq_node *node;
struct list_head *heads = malloc(n_size * sizeof(*heads));
for (int i = 0; i < n_size; i++)
INIT_LIST_HEAD(&heads[i]);
for (int i = 0; i < n_size; i++) {
if (!find(nums[i], n_size, heads)) {
hash = nums[i] < 0 ? -nums[i] % n_size : nums[i] % n_size;
node = malloc(sizeof(*node));
node->num = nums[i];
list_add(&node->link, &heads[hash]);
}
}
for (int i = 0; i < n_size; i++) {
int len = 0;
int num;
node = find(nums[i], n_size, heads);
while (node) {
len++;
num = node->num;
list_del(&node->link);
int left = num, right = num;
while ((node = find(LLL, n_size, heads))) {
len++;
list_del(&node->link);
}
while ((node = find(RRR, n_size, heads))) {
len++;
list_del(&node->link);
}
length = len > length ? len : length;
}
}
return length;
}
```
在 for 迴圈中,`left` 與 `right` 的用途為以 `num` 為基準,在 hash table 中往左與往右尋找連續整數,並且從 hash table 中移除找到的連續數。
在上方程式碼中的第 46 行的 `list_del(&node->link)` 已經從 hash table 中刪除 `num` 了,所以在往後的 while 迴圈中應該要刪除 ..., `num - 1`, `num + 1`, ...,故要先增/減 `right` 與 `left` 再呼叫 `find`。因此 ==LLL== 與 ==RRR== 為 `--left` 與 `++right`。