2021 Week4 - Search

--- tags: 成大高階競技程式設計 2021 --- # 2021 Week4 - Search 寫程式時，我們時常會需要在一個陣列中找出某個元素的位置，而根據不同的條件，可以用不同的演算法來加快尋找的速度，下面都有給出適用的情境，記得先確認目前的情況是否符合。 > 為了方便起見，下文中的 $N$ 都一律代表被搜尋的陣列的長度， > $a_i$ 代表陣列中的索引值為 $i$ 的元素（注意 $i$ 是從 $0$ 開始）。 ## 線性搜尋法（Linear Search） ### 適用情境 :::success 所有情境 ::: 最通用的搜尋方法。 ### 實作概念從陣列的開頭將每個元素一個一個確認，如果發現目標值就回傳其索引值。時間複雜度：$O(N)$ ### 參考實作 ```cpp! /** * 搜尋 a 中第一個 x 的索引值，若不存在則回傳 -1。 */ int linear_search(const vector<int>& a, int x) { int N{a.size()}; for (int i = 0; i < N; ++i) if (a[i] == x) return i; return -1; } ``` --- ## 二分搜尋法（Binary Search） ### [單調性](https://zh.wikipedia.org/wiki/%E5%8D%95%E8%B0%83%E5%87%BD%E6%95%B0#%E4%B8%80%E8%88%AC%E5%AE%9A%E4%B9%89) 在講二分搜之前，我們要先來提一下單調性這個性質。所謂的單調性，就是可以找到一個函數 $f$，使得當 $i \leq j$ 成立時，$f(i) \leq f(j)$ 也成立。例如將函數訂為 $f(i) = \begin{cases} 1,&\text{if}\ a_i\geq7\\ 0,&\text{otherwise}\end{cases}$，所以陣列 $[-1, 0, 1, 4, 7, 9, 10]$ 透過此函數映射之後會得到 $[0, 0, 0, 0, 1, 1, 1]$，可以看到映射後的陣列有符合單調性的定義。 ### 適用情境 :::success 具有單調性的數列。 ::: 以 `lower_bound()` 的概念作舉例，此函式是可以找到第一個不小於 $x$ 元素的的索引值，而它就是將函數訂為 $f(i) = \begin{cases} 1,&\text{if}\ a_i \geq x\\ 0,&\text{otherwise}\end{cases}$ 來進行二分搜尋。 > 最常見的用法是在**遞增**或**遞減**數列。 ### 實作概念定義兩個變數 $l$ 和 $r$，將陣列分成三個部分： 1. $[0, l]$：$f(i) = 0$ 2. $(l, r)$：尚未確定 3. $[r, N)$：$f(i) = 1$ > 務必看清楚區間是開還是閉。我們最後的目標就是讓所有元素都是確定的，也就是要讓第 $2$ 部分成為空區間，而此時的 $l$ 是最後一個使函數回傳 $0$ 的索引，而 $r$ 是第一個使函數回傳 $1$ 的索引。 > 要讓第 $2$ 部分變成空區間，也就是要讓 $r - l \leq 1$ 成立，而我們該如何快速做到這件事？首先我們會找到 $(l, r)$ 中間的那個元素（令其索引值為 $mid$），接下來會遇到兩種情況： 1. $f(mid) = 0$ 2. $f(mid) = 1$ 若是第 $1$ 種情況，根據陣列的特性，我們可以知道所有 $(l, mid]$ 中的索引值代入函數後，得到的也會是 $0$，因此可以將此部分合併到第 $1$ 部分，且剩下的未知的部分為 $(mid, r)$，所以就是將 $l$ 更新為 $mid$，而第 $2$ 種情況也與第 $1$ 種相似，要將 $r$ 更新為 $mid$。可以看到每次 $l, r$ 的距離都會縮減為原來的一半（也可以看成每次第 $2$ 部分都會減少一半的元素），因此最多只要 $\lceil \log_2(r - l) \rceil$ 次操作就可以達成目標。時間複雜度：$O(\log_2(r - l)) = O(\log{N})$ ### 參考實作下面就試著實作 `lower_bound()`，注意回傳的是整數而不是迭代器。 ```cpp! /* f(i) = a[i] >= x ? 1 : 0 */ int my_lower_bound(const vector<int>& a, int x) { // 一開始所有元素都未確定，因此全部放到第 2 部分 int l{-1}, r{a.size()}; while (r - l > 1) { int mid{(l + r) / 2}; if (a[mid] >= x) r = mid; // f(mid) = 1 else l = mid; } return r; } ``` > 注意以上程式碼會在少數情況出錯，原因在於 $l$ 和 $r$ 的型別都是 `int`， > 因此兩數做加法時有可能會遇到整數溢位（integer overflow）的問題， > 實作時如果遇到上述情況，$mid$ 的算法可改成 $l + \frac{r - l}{2}$。 > > 但是這個問題不容易遇到，因此通常都還是用 ${l + r} \over 2$ 的寫法， > 不僅寫起來速度較快，也更容易閱讀。 ### 圖解在 $[-1, 0, 1, 4, 7, 9, 10]$ 中搜尋第一個不小於 $7$ 的元素的索引值，訂 $f(i) = \begin{cases} 1,&\text{if}\ a_i\geq 7\\ 0,&\text{otherwise}\end{cases}$。 ```graphviz digraph { l, r, mid [shape = none] array [label = "<-1>X|<0>-1|<1>0|<2>1|<3>4|<4>7|<5>9|<6>10|<7>X", shape = record] l -> array: -1 mid -> array: 3 r -> array: 7 } ``` ```graphviz digraph { l, r, mid [shape = none] array [label = "<-1>X|<0>-1|<1>0|<2>1|<3>4|<4>7|<5>9|<6>10|<7>X", shape = record] l -> array: 3 mid -> array: 5 r -> array: 7 } ``` ```graphviz digraph { l, r, mid [shape = none] array [label = "<-1>X|<0>-1|<1>0|<2>1|<3>4|<4>7|<5>9|<6>10|<7>X", shape = record] l -> array: 3 mid -> array: 4 r -> array: 5 } ``` ```graphviz digraph { l, r [shape = none] array [label = "<-1>X|<0>-1|<1>0|<2>1|<3>4|<4>7|<5>9|<6>10|<7>X", shape = record] l -> array: 3 r -> array: 4 } ``` 最後 $r$ 就是我們要找的索引值。 --- ### 例題 #### [最長遞增子序列（LIS, Longest Increasing Subsequence）](https://leetcode.com/problems/longest-increasing-subsequence/) 想必各位都對這題有印象，因為這題也有在[第三週教材](https://hackmd.io/@XDEv11/NCKU-AdvCP-2021-WayOfThinking)中作為例題出現。至於這週又出現的原因是原本的 $O(N^2)$ 還不夠快，我們可以用二分搜來做這個題目，並且時間複雜度只有 $O(N \log{N})$！首先我們需要一個陣列 $last$，定義 $last_i$ 為到目前為止所有長度為 $i$ 的遞增子序列的最後一項的最小值。 > 因為值越小後面就越容易接上其他數字，因此取最小值。我們可以發現一個元素 $a_i$ 只要大於 $last_j$，他就可以接在後面形成長度為 $j + 1$ 的遞增子序列，且最後一個元素為 $a_i$。用公式表示就是 $last_{j + 1} = \min(last_{j + 1}, a_i) \iff a_i > last_j$ 馬上就可以寫出以下程式碼來解題， ```cpp! /* 求 a 中 LIS 的長度 */ int LIS(const vector<int>& a) { // 注意這邊用的是 list-initialization // 不熟的可以回去翻第二週教材的 vector 部分來複習 vector<int> last{numer_limits<int>::min()}; for (auto ai : a) { for (size_t j = 1; j < last.size(); ++j) if (ai > last[j - 1]) last[j] = min(last[j], ai); if (last.back() < ai) last.push_back(ai); } return last.size() - 1; } ``` 但是看起來最壞情況的時間複雜度還是 $O(N^2)$，而且沒有用到二分搜，那我們再來多觀察一下 $last$ 這個陣列。可以發現到因為 $last_{i + 1}$ 一定是從 $last_i$ 更新而來，因此可以確定 $last_{i + 1}$ 一定大於 $last_i$，從這個規律我們可以發現一件事實：==$last$ 為嚴格遞增數列== 因為是嚴格遞增數列，所以我們可以在 $last$ 上面做二分搜，但是要搜什麼？要搜尋的是「第一個不小於 $a_i$ 的元素」。假設搜尋到的索引值是 $idx$，可以發現除了 $last_{idx}$ 以外的所有元素都不可能會被更新。 * $last_{idx + 1}$ 不會被更新，因為 $last_{idx} \nless a_i$，後面以此類推。 * $last_{idx - 1}$ 不會被更新，因為 $\min(last_{idx - 1}, a_i) = last_{idx - 1}$，前面以此類推。因此最終我們可以寫出以下程式碼， ```cpp! /* 求 a 中 LIS 的長度 */ int LIS(const vector<int>& a) { vector<int> last{}; for (auto ai : a) { auto it{lower_bound(last.begin(), last.end(), ai)}; if (it == last.end()) last.push_back(ai); else *it = ai; } return last.size(); } ``` 注意到上面的程式碼除了將 `for` 迴圈優化成 `lower_bound()` 外，也將初始的 $last_0$ 也刪除掉了。理論上，$last_0$ 應該要是任何小於 $a$ 中所有元素的值，但在實作上，我選擇將他省略。也就是說，$last_i$ 代表的是到目前為止所有長度為 $i + 1$ 的遞增子序列的最後一項的最小值。這麼做的原因有以下幾點： 1. 可以少使用一個 `int` 的空間 2. $last_0$（理論上的）永遠不該被更新，因此可以看成是無用的值，且刪掉後對實作也沒有影響 3. 有可能會造成錯誤（這也是最主要的原因）若是 $a$ 中有 `int` 可以表示的最小值，則因為 $last$ 的元素型別也是 `int`，所以無法找到一個合適的 $last_0$ 使得「$last_0$ 應該要是任何小於 $a$ 中所有元素的值」這個條件成立時間複雜度：$O(N \log{N})$ --- #### [c575: APCS 2017-0304-4基地台](https://zerojudge.tw/ShowProblem?problemid=c575) :::info 一個數線上有 $N$ 個服務點，我們要在數線上設置 $k$ 個基地台。基地台可以覆蓋以其為中心的直徑為 $d$ 的範圍。問 $d$ 最小可以設為多少，使得所有服務點有被覆蓋到。 ::: 這題的解題關鍵為==在答案上二分搜==。假設 $x$ 為可以覆蓋所有服務點的最小直徑，我們可以發現所有直徑 $d < x$ 一定無法覆蓋所有的服務點，且所有直徑 $d \geq x$ 一定都有辦法，因此如果我們有辦法得知某個直徑 $d$ 是否可以覆蓋所有的服務點，我們就可以做二分搜。我們定義函數 $f(d) = 1$ 代表直徑 $d$ 可以覆蓋所有的服務點，$f(d) = 0$ 則代表不行。假設 $P$ 是已經排序完的服務點座標，則有一個很簡單的方法可以知道 $f(d)$ 的結果。定義一個變數 $right$ 代表目前已經被覆蓋的最右端， - 如果 $P_i > right$，就代表我們需要用一個基地台來覆蓋 $[P_i, P_i + d]$ 這個範圍，並且將 $right$ 的值更新為 $P_i+d$ - 如果 $P_i \leq right$，就代表這個點已經被覆蓋了，所以可以直接跳過。以下是 $f$ 的實作﹔ ```cpp! bool f(const vector<int>& P, int k, long long d) { long long right{P[0] - 1}; for (auto Pi : P) if (right < Pi) right = Pi + d, --k; // 新增一個新的基地台 return k >= 0; } ``` 時間複雜度為 $O(N)$。現在我們就可以開始來做二分搜。一開始需要先定義 $l, r$ 的初始值，因為 $1$ 也有可能是答案，因此 $l$ 一開始定為 $0$，而 $r$ 就是可能的最大直徑長度。接下來就照著學過的方法實作二分搜，以下是範例程式， ```cpp! int solve(vector<int>& P, int k) { sort(P.begin(), P.end()); // 讓 P 為遞增 int l{0}, r{P.back() - P.front()}; while (r - l > 1) { int mid{(l + r) / 2}; if (f(P, k, mid)) r = mid; else l = mid; } return r; } ``` 總時間複雜度：$O(N \log{N} + N \log{C})$ > $C$ 為一開始 $l, r$ 的距離。 --- ## 三分搜尋法（Ternary Search） ### 適用情境 :::success 一開始是嚴格遞增數列，到了某個元素後，轉為嚴格遞減數列（通稱凹向下）。或是一開始是嚴格遞減，之後轉成嚴格遞增的數列（通稱凹向上）。要搜尋的值為數列中的最值（absolute extrema）。 ::: 注意到是**嚴格**遞增或遞減，代表此最值不會在陣列中出現第二次。 ### 實作概念首先需要定義要搜尋的範圍 $(l, r)$，在此範圍內的元素總共有 $r - l - 1$ 個，若是只剩 $1$ 個元素，代表已經找到最值了，因此 $l + 1$（或 $r - 1$）就是我們要的索引值。如果還有兩個以上，則我們可以找出兩個元素 $m1$ 和 $m2$ 來將此區間切分成長度相近的三個子區間。接著再根據要搜尋的是最大值還是最小值，以及 $a_{m1}$ 和 $a_{m2}$ 的大小關係，來更新 $l, r$ 來縮小搜尋範圍。每次範圍有可能縮為原本的 $\frac{2}{3}$，因此最多需要 $\lceil \log_{\frac{3}{2}}(r - l - 1)) \rceil$ 次操作。時間複雜度：$O(\log_{\frac{3}{2}}(r - l - 1)) = O(\log{N})$ ### 參考實作 ```cpp! /* 尋找陣列中的最大值 */ int ternary_seach(const vector<int>& a) { int l{-1}, r{a.size()}; while (r - l - 1 > 1) { // 可以化簡為 r - l > 2 int m1{l + (r - l) / 3}; int m2{r - (r - l) / 3}; if (a[m1] > a[m2]) r = m2; else l = m1; } return l + 1; } ``` ### 圖解找出 $[-9, -3, 1, 6, 7, 10, 7, 3, 0]$ 的最大值的索引。 ```graphviz digraph { l, m1, m2, r [shape = none] array [label = "<-1>X|<0>-9|<1>-3|<2>1|<3>6|<4>7|<5>10|<6>7|<7>3|<8>0|<9>X", shape = record] l -> array: -1 m1 -> array: 2 m2 -> array: 6 r -> array: 9 } ``` ```graphviz digraph { l, m1, m2, r [shape = none] array [label = "<-1>X|<0>-9|<1>-3|<2>1|<3>6|<4>7|<5>10|<6>7|<7>3|<8>0|<9>X", shape = record] l -> array: 2 m1 -> array: 4 m2 -> array: 7 r -> array: 9 } ``` ```graphviz digraph { l, m1, m2, r [shape = none] array [label = "<-1>X|<0>-9|<1>-3|<2>1|<3>6|<4>7|<5>10|<6>7|<7>3|<8>0|<9>X", shape = record] l -> array: 2 m1 -> array: 3 m2 -> array: 6 r -> array: 7 } ``` ```graphviz digraph { l, m1, m2, r [shape = none] array [label = "<-1>X|<0>-9|<1>-3|<2>1|<3>6|<4>7|<5>10|<6>7|<7>3|<8>0|<9>X", shape = record] l -> array: 3 m1 -> array: 4 m2 -> array: 6 r -> array: 7 } ``` ```graphviz digraph { l, m1, m2, r [shape = none] array [label = "<-1>X|<0>-9|<1>-3|<2>1|<3>6|<4>7|<5>10|<6>7|<7>3|<8>0|<9>X", shape = record] l -> array: 4 m1 -> array: 5 m2 -> array: 6 r -> array: 7 } ``` ```graphviz digraph { l, r [shape = none] array [label = "<-1>X|<0>-9|<1>-3|<2>1|<3>6|<4>7|<5>10|<6>7|<7>3|<8>0|<9>X", shape = record] l -> array: 4 r -> array: 6 } ``` 最後的答案就是 $l + 1$ --- ### 例題 #### [Weakness and Poorness](https://codeforces.com/contest/578/problem/C) :::info 定義一個數列的 poorness 是數列的總合的絕對值。定義一個數列的 weakness 是所有連續子序列的 poorness 的最大值。現在有整數數列 $a$ 以及一個實數變數 $x$，問數列 $[a_1 - x, a_2 - x, \dots, a_N - x]$ 的 weakness 最小可以為多少。 ::: > 題目的 $a$ 的索引值是從 $1$ 開始編號我們先定義 $\displaystyle s(i, j) = \sum^j_{k \ = \ i}(a_k - x)$，而題目的要求就可以寫成 $\displaystyle \max_{1 \leq i \leq j \leq N}|s(i, j)|$，接著我們需要再進一步化簡這個公式，過程寫在下面。 $$ \begin{align} &\max_{1 \leq i \leq j \leq N}\lvert s(i, j)\rvert \\ = &\max_{1 \leq i \leq j \leq N} \Big\{ \max(+s(i, j), -s(i, j)) \Big\} \\ = &\max \bigg( \max_{1 \leq i \leq j \leq N}\left\{+s(i, j)\right\}, \max_{1 \leq i \leq j \leq N} \left\{-s(i, j)\right\} \bigg) \\ = &\max(A, B) \end{align} $$ > $A, B$ 定義為對應的那兩段敘述。 $A$ 是一個對於 $x$ 的嚴格遞減的函數，且 $B$ 是嚴格遞增。現在用 $\max()$ 把兩個函數合併，就會形成一個凹向上的函數，所以我們可以在上面找最小值。接著我們就可以實作三分搜來找最小值，但注意這次是==在實數上三分搜==，不同於圖例的在整數上三分搜。在開始三分搜之前，我們可以先來實作 $\displaystyle \max_{1 \leq i \leq j \leq N}\lvert s(i, j)\rvert$，從上面公式可以看出他就是最大連續和，因此直接用上週學到的技巧來實作。 ```cpp! double weakness(const vector<int>& a, double x) { vector<double> dp(a.size()); dp[0] = a[0] - x; double mx{dp[0]}; for (int i = 1; i < a.size(); ++i) { dp[i] = max(dp[i - 1], 0.) + a[i] - x; mx = max(mx, dp[i]); } dp[0] = -dp[0]; mx = max(mx, dp[0]); for (int i = 1; i < a.size(); ++i) { dp[i] = max(dp[i - 1], 0.) + x - a[i]; mx = max(mx, dp[i]); } return mx; } ``` 程式碼分成兩個非常相似的部分，第一部分就是最大連續和，第二部分是把原本數列乘上 $-1$ 之後再做一次最大連續和。接下來三分搜的時候就可以直接用上面的 `weakness()` 來判斷 $m1, m2$ 的大小。下面直接給範例程式， ```cpp! double solve(const vector<int>& a) { double l{-10001.}, r{10001.}; for (int i = 0; i < 100; ++i) { double m1{l + (r - l) / 3}; double m2{r - (r - l) / 3}; if (weakness(a, m1) < weakness(a, m2)) r = m2; else l = m1; } return weakness(a, (l + r) / 2); } ``` 這邊要注意到原本的 `while` 迴圈被換成了 `for` 迴圈，而且迴圈的結束條件也不一樣。基本上，迴圈跑越多次結果會越準確，但是如果跑太多次就有可能會 <font color="#3498db">TLE</font>，所以在解題的時候必須要衡量一下到底要跑多少次才合適。時間複雜度：$O(CN)$ > $C$ 為迴圈次數 --- ## 練習題 | Problem | tags | |:---------------------------------------------------------------------------------------------------------------:|:------------------------- | | [Product Triplets](https://codingcompetitions.withgoogle.com/kickstart/round/0000000000051066/0000000000051187) | `binary search` | | [骨牌遊戲](https://tioj.ck.tp.edu.tw/problems/1432) | `binary search` | | [隕石](https://tioj.ck.tp.edu.tw/problems/1337) | `binary search` | | [Creative Snap](https://codeforces.com/contest/1111/problem/C) | `binary search`, `math` | | [Coffee and Coursework (Hard Version)](https://codeforces.com/contest/1118/problem/D2) | `binary search`, `greedy` | | [Cutting Out](https://codeforces.com/contest/1077/problem/D) | `binary search` | | [Everyone is a Winner!](https://codeforces.com/contest/1263/problem/C) | `binary search`, `math` | | [Searching Constellation](https://judge.u-aizu.ac.jp/onlinejudge/description.jsp?id=0524)（題敘為日文，慎入） | `binary search` |