Timsort 筆記

# Timsoert 筆記 ## tim_sort運作原理 Timsort 致力於從以下三個方面，改進合併排序演算法： 1. 加快合併（merge）過程 2. 減少進行合併的次數。 3. 在某些特定情況下，尋找比合併排序更有效的排序方法 --- 1. 識別出資料中已排序的子序列 (這些子序列稱為 run)。若 run 的數量等於或者略小於 2 的冪，效率會最高；若略大於 2 的冪，效率就會特別低。 * 控制每個 run 的長度，定義一個 minrun (最小運行長度)，用以表示每個 run 的最小長度，若長度太短，就用二分插入排序，將 run 後面的元素插入到前面的 run 裡面。 * 選擇 minrun 的策略是 Timsort 的關鍵，其中一個實務上的方法是，取資料長度 N 的前 6 位，若剩餘位中任何一位被設置，則加 1。這主要是為了在處理隨機數列時，使得 N 能夠被 minrun 切分成 2 的冪的 run，以便在合併時達到最佳平衡。 minrun 的設計目的是讓剩餘資料在分割為 minrun 時，能夠盡可能接近 2 的冪，從而使得後續的合併過程更高效；實際操作中，會不斷將 n 除以 2，直到 n 小於一個預設的最小合併長度（MIN_MERGE），過程中只要有任何一次不能整除 2，最終結果就加一，這種方法確保分組接近 2 的冪。例子：當 N = 2112，將 2112 化成二進位是 0b100001000000取前六位: 0b100001 –> 33剩餘的 bit 沒有被設置的，所以 33 就是預期的 minrun。 2. 判斷何時需要合併這些 run。 Timsort 採用一組堆疊 (stack) 來暫存 run，此舉是為了避免在一開始就掃描整個資料範圍來產生 run，從而降低記憶體開銷。過程中，Timsort 運用 merge_collapse 函式來確保堆疊上的 run 長度保持平衡。該函式主要檢查堆疊頂端的 3 個 run 是否滿足以下原則： 1. A 的長度要大於 B 和 C 的長度總和。 2. B 的長度要大於 C 的長度。當不符合這些條件時，函式會決定是否進行合併。例如，考慮 3 段 run: A 的長度為 30，B 的長度為 20，C 的長度為 10，由於 A 的長度不大於 B 加 C 的總和（亦即 $A <= B + C$ ），且 C 的長度小於 A，因此會選擇將 C 與 B 進行合併，形成兩個新的 run * A: 30 * BC: 30。藉此，不僅確保堆疊中 run 的長度平衡，且因合併只能在相鄰的兩個 run 間進行，以確保排序的穩定性，因此合併操作僅可能採取 A+(B+C) 或 (A+B)+C 的形式進行。此舉讓 Timsort 在執行時兼顧高效又穩定。 3. 透過不斷合併這些 run 來達成全資料範圍的排序。處理兩個相鄰子數列的合併過程中，直接在記憶體中操作會遇到一定的挑戰，因為大量的記憶體操作不僅實作困難，且效率也未必理想。因此，Timsort 採取了使用一塊臨時記憶區的策略，其大小設定為兩個子數列（A、B）中較短者的長度。合併的方式又可分為： * 逐對合併(one-pair-at-a-time) * 當 A 的長度小於 B 時，會先將 A 數列暫存。直觀的合併方法是從 A 和 B 的開頭開始進行逐對比較，將較小的元素放置於 A 的原位置，這一過程一直持續到 A 和 B 完全排序，類似於經典的合併排序。 * Galloping mode * 考慮到 A 和 B 都是已排序好的數列，我們可持續改進：首先尋找 B 的首個元素（即 $B_0$）在 A 中的排序位置，從而確定 A 中有一段是小於 $B_0$ 者，可將這部分元素放回 A。接著，尋找剩餘 A 的首個元素在 B 中的位置，如此反覆進行，直到完成排序(搜尋方法會使用 [galloping search](https://rust-algo.club/searching/exponential_search/))。 Galloping mode 在多數情況效果顯著，但對於隨機資料序列而言，採用 galloping search 可能會比 linear search 慢，因此在timsort 內有一個變數叫做 min_gallop，初始值為 MIN_GALLOP，存放要切換到 Galloping 模式前，要有幾次輸出 Buffer 資料連續來同一個 run 的次數。每次 Galloping 模式離開時會讓 min_gallop 加 1，但是若 min_gallop 一直持續運作時，每運作一回合，則會讓 min_gallop 減 1。作者列出 galloping search 對比 linear search 的計算花費，可以看到在 i=7 之前 galloping search 會需要更多的比較次數，而比較是很花計算資源的，所以 MIN_GALLOP預設是 7，即當比較 7 次後，若都來自同一個 Run ，則切換到 Galloping 模式。 **示意圖** 綠色：未排序、紅色：進入堆疊等待排序。紫色：將被插入前一個 run 的節點、橘色：完成排序。首先給定一個鍊結串列如下，Minrun 為 3。 ```graphviz digraph _graph_name_ { label = "Minrun = 3"; rankdir=LR; # 順序由左至右(上下是"TD") graph [fontname="DFKai-SB"]; # 此三行是設定字型 node [fontname="DFKai-SB"]; # 中文務必指定 edge [fontname="DFKai-SB"]; # 不然可能會出現亂碼 {rank = same stack stack_box} {rank = same head A} head[shape=plaintext,fontcolor = red] A[label = "3", style=filled, fillcolor = green] B[label = "4", style=filled, fillcolor = green] C[label = "1", style=filled, fillcolor = green] D[label = "10", style=filled, fillcolor = green] E[label = "8", style=filled, fillcolor = green] F[label = "5", style=filled, fillcolor = green] G[label = "0", style=filled, fillcolor = green] H[label = "2", style=filled, fillcolor = green] I[label = "6", style=filled, fillcolor = green] J[label = "7", style=filled, fillcolor = green] K[label = "9", style=filled, fillcolor = green] stack[shape=plaintext,fontcolor = blue] stack_box[shape = s, label = "NULL"] # 這邊是 edge (邊) stack->stack_box stack->head [style=invis] head->A->B->C->D->E->F->G->H->I->J->K } ``` 先找 run，不足 Minrun = 3，故使用 insertion sort 將下個節點加入當前的 run 當中。 ```graphviz digraph _graph_name_ { label = "Minrun = 3"; rankdir=LR; # 順序由左至右(上下是"TD") graph [fontname="DFKai-SB"]; # 此三行是設定字型 node [fontname="DFKai-SB"]; # 中文務必指定 edge [fontname="DFKai-SB"]; # 不然可能會出現亂碼 {rank = same stack stack_box} {rank = same head A} head[shape=plaintext,fontcolor = red] A[label = "3", style=filled, fillcolor = red] B[label = "4", style=filled, fillcolor = red] C[label = "1", style=filled, fillcolor = purple] D[label = "10", style=filled, fillcolor = green] E[label = "8", style=filled, fillcolor = green] F[label = "5", style=filled, fillcolor = green] G[label = "0", style=filled, fillcolor = green] H[label = "2", style=filled, fillcolor = green] I[label = "6", style=filled, fillcolor = green] J[label = "7", style=filled, fillcolor = green] K[label = "9", style=filled, fillcolor = green] stack[shape=plaintext,fontcolor = blue] stack_box[shape = s, label = "NULL"] # 這邊是 edge (邊) stack->stack_box stack->head [style=invis] head->A->B->C->D->E->F->G->H->I->J->K } ``` 加入堆疊準備排序。 ```graphviz digraph _graph_name_ { label = "Minrun = 3"; rankdir=LR; # 順序由左至右(上下是"TD") graph [fontname="DFKai-SB"]; # 此三行是設定字型 node [fontname="DFKai-SB"]; # 中文務必指定 edge [fontname="DFKai-SB"]; # 不然可能會出現亂碼 {rank = same stack stack_box} {rank = same head C} head[shape=plaintext,fontcolor = red] A[label = "3", style=filled, fillcolor = red] B[label = "4", style=filled, fillcolor = red] C[label = "1", style=filled, fillcolor = red] D[label = "10", style=filled, fillcolor = green] E[label = "8", style=filled, fillcolor = green] F[label = "5", style=filled, fillcolor = green] G[label = "0", style=filled, fillcolor = green] H[label = "2", style=filled, fillcolor = green] I[label = "6", style=filled, fillcolor = green] J[label = "7", style=filled, fillcolor = green] K[label = "9", style=filled, fillcolor = green] stack[shape=plaintext,fontcolor = blue] stack_box[shape = s, label = "run[0] len=3"] # 這邊是 edge (邊) stack->stack_box stack->head [style=invis] head->C->A->B->D->E->F->G->H->I->J->K } ``` 完成該 run 的排序。 ```graphviz digraph _graph_name_ { label = "Minrun = 3"; rankdir=LR; # 順序由左至右(上下是"TD") graph [fontname="DFKai-SB"]; # 此三行是設定字型 node [fontname="DFKai-SB"]; # 中文務必指定 edge [fontname="DFKai-SB"]; # 不然可能會出現亂碼 {rank = same stack stack_box} {rank = same head C} head[shape=plaintext,fontcolor = red] A[label = "3", style=filled, fillcolor = orange] B[label = "4", style=filled, fillcolor = orange] C[label = "1", style=filled, fillcolor = orange] D[label = "10", style=filled, fillcolor = red] E[label = "8", style=filled, fillcolor = red] F[label = "5", style=filled, fillcolor = red] G[label = "0", style=filled, fillcolor = red] H[label = "2", style=filled, fillcolor = green] I[label = "6", style=filled, fillcolor = green] J[label = "7", style=filled, fillcolor = green] K[label = "9", style=filled, fillcolor = green] stack[shape=plaintext,fontcolor = blue] stack_box[shape = s, label = "run[0] len=3"] # 這邊是 edge (邊) stack->stack_box stack->head [style=invis] head->C->A->B->D->E->F->G->H->I->J->K } ``` 尋找下個 run，下個 run = 4，但是順序相反，因此使用 reverse 將它排列成正確的順序，並加入堆疊等待排序。 ```graphviz digraph _graph_name_ { label = "Minrun = 3"; rankdir=LR; # 順序由左至右(上下是"TD") graph [fontname="DFKai-SB"]; # 此三行是設定字型 node [fontname="DFKai-SB"]; # 中文務必指定 edge [fontname="DFKai-SB"]; # 不然可能會出現亂碼 {rank = same stack stack_box} {rank = same head C} head[shape=plaintext,fontcolor = red] A[label = "3", style=filled, fillcolor = orange] B[label = "4", style=filled, fillcolor = orange] C[label = "1", style=filled, fillcolor = orange] D[label = "0", style=filled, fillcolor = red] E[label = "5", style=filled, fillcolor = red] F[label = "8", style=filled, fillcolor = red] G[label = "10", style=filled, fillcolor = red] H[label = "2", style=filled, fillcolor = green] I[label = "6", style=filled, fillcolor = green] J[label = "7", style=filled, fillcolor = green] K[label = "9", style=filled, fillcolor = green] stack[shape=plaintext,fontcolor = blue] stack_box[shape = s, label = "run[1] len=4\nrun[0] len=3"] # 這邊是 edge (邊) stack->stack_box stack->head [style=invis] head->C->A->B->D->E->F->G->H->I->J->K } ``` 並且因為 run[0] 的長度小於 run[1] 的長度，不符合前面提到的 B 的長度要大於 C 的長度，因此將 run[0] 和 run[1] 合併。 ```graphviz digraph _graph_name_ { label = "Minrun = 3"; rankdir=LR; # 順序由左至右(上下是"TD") graph [fontname="DFKai-SB"]; # 此三行是設定字型 node [fontname="DFKai-SB"]; # 中文務必指定 edge [fontname="DFKai-SB"]; # 不然可能會出現亂碼 {rank = same stack stack_box} {rank = same head C} head[shape=plaintext,fontcolor = red] A[label = "1", style=filled, fillcolor = orange] B[label = "3", style=filled, fillcolor = orange] C[label = "0", style=filled, fillcolor = orange] D[label = "4", style=filled, fillcolor = orange] E[label = "5", style=filled, fillcolor = orange] F[label = "8", style=filled, fillcolor = orange] G[label = "10", style=filled, fillcolor = orange] H[label = "2", style=filled, fillcolor = green] I[label = "6", style=filled, fillcolor = green] J[label = "7", style=filled, fillcolor = green] K[label = "9", style=filled, fillcolor = green] stack[shape=plaintext,fontcolor = blue] stack_box[shape = s, label = "run[0] len=7"] # 這邊是 edge (邊) stack->stack_box stack->head [style=invis] head->C->A->B->D->E->F->G->H->I->J->K } ``` 尋找下一個 run，並且因為它已經排序完成，直接加入堆疊。 ```graphviz digraph _graph_name_ { label = "Minrun = 3"; rankdir=LR; # 順序由左至右(上下是"TD") graph [fontname="DFKai-SB"]; # 此三行是設定字型 node [fontname="DFKai-SB"]; # 中文務必指定 edge [fontname="DFKai-SB"]; # 不然可能會出現亂碼 {rank = same stack stack_box} {rank = same head C} head[shape=plaintext,fontcolor = red] A[label = "1", style=filled, fillcolor = orange] B[label = "3", style=filled, fillcolor = orange] C[label = "0", style=filled, fillcolor = orange] D[label = "4", style=filled, fillcolor = orange] E[label = "5", style=filled, fillcolor = orange] F[label = "8", style=filled, fillcolor = orange] G[label = "10", style=filled, fillcolor = orange] H[label = "2", style=filled, fillcolor = red] I[label = "6", style=filled, fillcolor = red] J[label = "7", style=filled, fillcolor = red] K[label = "9", style=filled, fillcolor = red] stack[shape=plaintext,fontcolor = blue] stack_box[shape = s, label = "run[1] len=4\nrun[0] len=7"] # 這邊是 edge (邊) stack->stack_box stack->head [style=invis] head->C->A->B->D->E->F->G->H->I->J->K } ``` 到達鍊結串列的尾端，將堆疊 pop 出來進行合併。 ```graphviz digraph _graph_name_ { label = "Minrun = 3"; rankdir=LR; # 順序由左至右(上下是"TD") graph [fontname="DFKai-SB"]; # 此三行是設定字型 node [fontname="DFKai-SB"]; # 中文務必指定 edge [fontname="DFKai-SB"]; # 不然可能會出現亂碼 {rank = same stack stack_box} {rank = same head C} head[shape=plaintext,fontcolor = red] A[label = "1", style=filled, fillcolor = orange] B[label = "2", style=filled, fillcolor = orange] C[label = "0", style=filled, fillcolor = orange] D[label = "3", style=filled, fillcolor = orange] E[label = "4", style=filled, fillcolor = orange] F[label = "5", style=filled, fillcolor = orange] G[label = "6", style=filled, fillcolor = orange] H[label = "7", style=filled, fillcolor = orange] I[label = "8", style=filled, fillcolor = orange] J[label = "9", style=filled, fillcolor = orange] K[label = "10", style=filled, fillcolor = orange] stack[shape=plaintext,fontcolor = blue] stack_box[shape = s, label = "run[0] len=11"] # 這邊是 edge (邊) stack->stack_box stack->head [style=invis] head->C->A->B->D->E->F->G->H->I->J->K } ``` ## Timsort 相較於合併排序的改善 1. 改善比較次數在尚未排序的序列中，已經排序好的子序列會被加入到同一個 runs 之中，以減低額外排序的開銷。這個特性使得 Timsort 在處理具有部分有序性質的序列時表現更好。 2. 插入排序優化 Timsort 中的一個關鍵改進是對小規模子陣列採用插入排序。相比之下，Mergesort 在處理小規模陣列時仍然使用歸併操作。插入排序對於小規模陣列的排序效率更高，這使得 Timsort 在實際應用中具有更好的性能。 3. Cache Miss 改善相比於傳統遞迴版本的 Mergesort 採用廣度優先的合併順序，Timsort 類似於 Linux 核心 Mergesort 的作法採用深度優先的合併順序。這樣做的好處是，趁元素才剛存取過仍在快取時，就進行合併，從而降低 cache miss 的機率。 ```graphviz digraph _graph_name_ { # 基本宣告 rankdir=LR; # 順序由左至右(上下是"TD") node [shape=record, fontname=Helvetica, fontsize=10] A[label = "1", style=filled, fillcolor = aquamarine1] B[label = "2", style=filled, fillcolor = aquamarine1] C[label = "8", style=filled, fillcolor = aquamarine1] D[label = "4", style=filled, fillcolor = aquamarine1] E[label = "3", style=filled, fillcolor = coral1] F[label = "5", style=filled, fillcolor = chartreuse1] G[label = "7", style=filled, fillcolor = chartreuse1] # list_head 的 next A->B->C->D->E->F->G } ``` ## 參考資料 [timsort.txt](https://svn.python.org/projects/python/trunk/Objects/listsort.txt) [V8 內的排序演算法 — Timsort](https://yuanchieh.page/posts/2019/2019-08-09-v8-%E5%85%A7%E7%9A%84%E6%8E%92%E5%BA%8F%E6%BC%94%E7%AE%97%E6%B3%95-timsort/) [排序算法 (六) - Timsort](https://www.sakuratears.top/blog/%E6%8E%92%E5%BA%8F%E7%AE%97%E6%B3%95%EF%BC%88%E5%85%AD%EF%BC%89-TimSort.html) [世界上最快的排序算法——Timsort](https://www.cnblogs.com/sunshuyi/p/12680918.html) [指數搜尋 Exponential Search](https://rust-algo.club/searching/exponential_search/)

Syntax	Example	Reference
# Header	Header	基本排版
- Unordered List	Unordered List
1. Ordered List	Ordered List
- [ ] Todo List	Todo List
> Blockquote	Blockquote
Bold font	Bold font
Italics font	Italics font
~~Strikethrough~~	~~Strikethrough~~
19^th^	19^th
H~2~O	H₂O
++Inserted text++	Inserted text
==Marked text==	Marked text
[link text](https:// "title")	Link
![image alt](https:// "title")	Image
`Code`	`Code`	在筆記中貼入程式碼
```javascript var i = 0; ```	`var i = 0;`
:smile:		Emoji list
{%youtube youtube_id %}	Externals
$L^aT_eX$	L^aT_eX
:::info This is a alert area. :::	This is a alert area.