【時間序列分析】Ch3：遍歷理論與鞅

--- title: 【時間序列分析】Ch3：遍歷理論與鞅 image: https://ppt.cc/flVaux@.jpg --- # 【時間序列分析】Ch3：遍歷理論與鞅在這個章節，我們要介紹現代時間序列分析的一個重要理論——時間序列的「**遍歷性 (Ergodicity)**」，我們將由淺入深地介紹這個概念，並且引入時間序列分析中的一些大樣本性質。 # 3.1 資訊集合首先，我們當然會先有一個機率測度空間 $(\Omega, \mathcal{F}, \mathbb{P})$，若隨著時間 $t \in [0,T]$，有著對應的 σ-algebra $\mathcal{F}_t$。而對於所有的 $\mathcal{F}_t$ 在 $s\leq t$ 的情況下，$\mathcal{F}_s$ 包含於 $\mathcal{F}_t$，這一系列的 σ-algebras 我們將其稱為**濾鏈 (Filtration)**。 $$\mathbb{F} = \{\mathcal{F}_t | \mathcal{F}_s \subseteq \mathcal{F}_t,\ \forall (s \leq t) \in [0,T]\}$$ Filtration 的概念並不難了解，其實就像是一個「**資訊集合 (information set)**」，「今天」的我擁有「昨天以前以及今天的資訊」，但無法得知「明天」會發生什麼事情。進一步地說，若現在有一個隨機過程 $\{X_t,\ t \in[0,T]\}$ 在每一個 $t$ 都是 $\mathcal{F}_t$ 可測 ($\mathcal{F}_t$-measurable)，則我們說 $\{X_t\}$ 是 $\mathbb{F}$ 的[**適應過程 (adapted process)**](https://en.wikipedia.org/wiki/Adapted_process)。此外，若隨機過程在時點 $t$ 之前就可測 (measurable)，則稱此過程為[**可預測過程 (predictable process)**](https://en.wikipedia.org/wiki/Predictable_process)。 # 3.2 Mixing 在以往討論獨立事件時，我們會給出以下定義： $$P(A \cap B) =P(A) \times P(B)$$ 而我們可以透過這條式子去衡量事情的相依性 (dependency)。 $$\alpha(A,B) = | P(A \cap B) - P(A) \times P(B) |$$ 當 $\alpha(A,B)$ 越靠近 $0$，則表示 $A$、$B$ 兩事件的關聯性越低。讓我們先從以下這兩個 σ-algebra 開始討論： 1. 回首過去：$\mathcal{F}_{-\infty}^{t} = \sigma(\dots,Y_{t-1}, Y_t)$ 2. 展望未來：$\mathcal{F}_{t}^{\infty} = \sigma( Y_t, Y_{t+1},\dots)$ 接著，我們將上面資訊集合中的 $l$ 期資訊移除，也就是說，我們討論的 σ-algebra 是 $\mathcal{F}_{-\infty}^{t-l}$ 與 $\mathcal{F}_{t}^{\infty}$。我們定義「**強混合係數 (alpha-mixing coefficient or strong-mixing coefficient)**」為： $$\alpha(l) = \sup_{A_l \in \mathcal{F}_{-\infty}^{t-l},\ B \in \mathcal{F}_{t}^{\infty} } \alpha(A_l,B)$$ 若當 $l \rightarrow \infty$ 時，$\alpha(l) \rightarrow 0$，則我們會說時間序列 $\{Y_t \}$ 是 strong mixing，此為**漸進獨立 (asymptotic independence)** 的概念，指隨著時間間隔越長，兩資訊集合的相依性會隨之下降。（詳見：此[連結](https://www.stat.cmu.edu/~cshalizi/754/2006/notes/lecture-27.pdf)） :::info 📚 alpha-mixing 的漸進條件： 1. Rate condition：$\alpha(l) = O(l^{-r})$ 或 $\alpha(l) = o(l^{-r})$ 2. Summation condition：$\sum_{l=0}^{\infty}\alpha(l)^r < \infty$ 或 $\sum_{l=0}^{\infty}l^s\alpha(l)^r < \infty$ ::: 我們可以進一步地討論**更強**的一個條件：**beta-mixing** (或稱 absolute regularity)。 $$\beta(l) = \sup_{A \in \mathcal{F}_{t}^{\infty} } E| P(A|\mathcal{F}_{-\infty}^{t-l}) - P(A) |$$ 若隨著時間 $l$ 的增大，$\beta(l) \rightarrow 0$，我們稱此時間序列符合 beta-mixing。這其實就是條件機率的觀念，若我們給定過去的資訊，但是對預測未來沒有幫助的話，兩者當然可以想成是獨立的。很顯然地，beta-mixing 若成立，則隱含 alpha-mixing 也成立。 :::info 📚 Mixing 是可以做**轉換 (transform)** 的。若 $\{Y_t\}$ 的 mixing coefficient 為 $\alpha_Y(l)$，並且令 $X_t = \phi(Y_t,Y_{t-1},Y_{t-2},\dots,Y_{t-q})$，則 $\{X_t\}$ 的 mixing coefficient 會符合 $\alpha_X(l) \leq \alpha_Y(l-q)$ 的條件 (其中 $l \geq q$ )。 **也就是說，$\alpha_X(l)$ 的 Rate condition 和 Summation condition 會與 $\alpha_Y(l)$ 一致。** ::: :::info 若時間序列 $\{ Y_t \}$ 為 **i.i.d.**，則其為 strong mixing 及 **ergodic (遍歷性)** (當然也是嚴格定態)。 ::: # 3.3 Ergodicity 遍歷性在對定態時間序列有基本認識之後，我們就可以延伸討論時間序列上另一個重要的性質，也是大樣本定理的基礎——**遍歷性 (Ergodicity)**。若一個**定態**時間序列 $\{Y_t\} \in \mathbb{R}^m$ 是具有**遍歷性 (Ergodicity)**，**若且唯若** $$\lim_{n \rightarrow \infty}\frac{1}{n} \sum_{l=1}^{n} P(A_l \cap B) =P(A)P(B)$$ 其中，$A_l \in \mathcal{F}_{-\infty}^{t-l}$ 且 $B_l \in \mathcal{F}_{t}^{\infty}$。白話一點地說，一個具**遍歷性的定態時間序列**是一個「**平均而言**」**漸進獨立**的一個時間序列。也就是說，隨著時間拉長，平均來說過去的事情會與未來呈現「獨立」的狀態。因此，一個相對不嚴謹的寫法即是使用自我共變異數函數去描述遍歷性。 :::info 💡 若一個**定態**時間序列 $\{Y_t\}$ 的自我共變異數 $\gamma (l)$ 滿足以下充分條件： $$\gamma(l) \rightarrow 0,\ \text{as}\ l \rightarrow \infty$$ 則稱時間序列 $\{Y_t\}$ 具備遍歷性。 (參閱：陳旭昇（2022）) ::: 若已知 $\{Y_t\}$ 是嚴格定態時間序列且具有遍歷性，則 $$X_t = g(Y_t,Y_{t-1},Y_{t-2},\dots)$$ 也是個具有遍歷性的嚴格定態時間序列。 ## 3.3.1 遍歷性理論 Ergodic theorem **Ergodicity** 是時間序列分析中對於「**一致性 (consistency)**」估計的**充分**條件。若 $\{Y_t\}$ 是**嚴格定態**時間序列且具有**遍歷性**，且 $E(Y_t^2) < \infty$，則 (在大樣本的情況下) $$\begin{align} \bar{Y} = \sum_{t=1}^T Y_t &\overset{p}{\to} \mu =E(Y_t) \\ \hat{\gamma}(k)&\overset{p}{\to} \gamma(k) \\ \hat{\rho}(k)&\overset{p}{\to} \rho(k) \end{align}$$ 此為時間序列中央極限定理的基石，我們將在後續的部分補充說明。 # 3.4 鞅 Martingale 鞅 (Martingale) 有時又譯為「**平賭**」，意為公平的賭局的意思，此名的由來即是來自於「[**加倍賭注法**](https://zh.wikipedia.org/wiki/%E4%BA%8F%E6%8D%9F%E5%8A%A0%E4%BB%93)」。簡而言之，就是只要我這次輸了，我就加碼，拼下一次翻盤，但若是公平的賭局，期望值仍舊為 0，透過調整加注策略是無法帶來穩定的報酬的。假設我們跟一個賭徒正在玩一個躑「**公正**」骰子的遊戲，若選擇賭 1 元，骰到正面可以獲得 1 元 (贏)，躺若骰到反面則損失 1 元 (輸)，讓我們先玩 $n$ 期 ($t=1,2,\dots,n$)。若 $Y_n$ 表示此遊戲在第 $n$ 期時是贏還是輸，其機率質量函數可以寫成： $$f(y_n) = \begin{cases} \frac{1}{2}, \quad \text{if } y_n =1 \quad (\text{win})\\ \frac{1}{2}, \quad \text{if } y_n =-1 \quad (\text{lose})\\ 0, \quad otherwise \end{cases}$$ 也就是 $P(Y_n =1)=P(Y_n =-1)=\frac{1}{2}$。令 $b_n$ 為賭徒第 $n$ 期時所下的賭注，此賭注會和之前的勝敗有所關聯 (因為要加倍下注)。即 $$b_n = b_n(Y_1,Y_2,\dots,Y_{n-1}) < \infty$$ 若 $X_0$ 為該賭徒初始的賭資，則經過一次賭博後，他的總資本會變為： $$X_1 = X_0 + b_1 Y_1$$ 再經過一次賭博，總資本會變為： $$X_2 = X_1 + b_2 Y_2$$ 經過反覆迭代，可以計算該賭徒第 $n$ 次賭博後的總資本為： (我們在此先不考慮輸到脫褲負債之情形) $$X_n = X_0 + \sum_{i=1}^n b_i Y_i$$ 若今天該賭徒要再玩一局，我們該如何衡量他的報酬期望值呢？再玩一局的報酬為： $$X_{n+1} = X_n + b_{n+1}Y_{n+1}$$ 我們對此取條件期望值，一樣給定先前輸贏的數據： $$\begin{align} E[X_{n+1}|Y_1,Y_2,\dots,Y_n] &= E[X_n+ b_{n+1} Y_{n+1}|Y_1,\dots,Y_n] \\ &= E[X_n|Y_1,\dots,Y_n] + b_{n+1}E[Y_{n+1}|Y_1,\dots,Y_n] \\ &= \underbrace{X_n}_{在 t=n 時已知} + b_{n+1} \underbrace{E[Y_{n+1}]}_{\text{i.i.d.}} \\ & = X_n \end{align}$$ 即賭徒在公平的賭局之下，並沒有辦法透過更改賭注 (下注策略) 去使賭局變成對自己有利，**對下一期總資產的預期就是現在的總資產**。 ## 3.4.2 平賭序列接續前面的這個例子，我們可以對「鞅」做明確的定義：若時間序列 (隨機過程) $\{Y_t\}$ ，在給定資訊流 $\{X_t\}$ 之下，$\forall n>0$ $$E[Y_{t+1}|X_t,X_{t-1},X_{t-2},\dots]=Y_t$$ 則稱序列 $\{Y_t\}$ 為關於 (with respect to) $\{X_t\}$ 的**平賭 (鞅) 序列 (Martingale sequence)**。 :::info 📚 資訊流 $\{X_t\}$ 當然也可以是 $\{Y_t\}$ 本身。 ::: :::info 📚 鞅的種類： - 鞅 (Martingale)：$E[Y_{t+1}|X_t,X_{t-1},X_{t-2},\dots]=Y_t$。 - 上鞅 (Supermartingale)：$E[Y_{t+1}|X_t,X_{t-1},X_{t-2},\dots] \leq Y_t$。 - 下鞅 (Submartingale)：$E[Y_{t+1}|X_t,X_{t-1},X_{t-2},\dots] \geq Y_t$。下鞅和上鞅分別描繪了對未來理性預期是有利或是不利的趨勢。延伸閱讀：[Doob Decomposition](https://www.facebook.com/MathKingdomFaraway/posts/doob-decomposition-theorem-%E6%9C%AC%E7%AF%87%E6%96%87%E7%AB%A0%E5%BB%B6%E7%BA%8C%E4%B8%8A%E4%B8%80%E7%AF%87%E4%BB%8B%E7%B4%B9%E7%9A%84martingale%E7%BE%8E%E5%9C%8B%E6%95%B8%E5%AD%B8%E5%AE%B6joseph-doob%E5%9C%A81953%E5%B9%B4%E6%8F%90%E5%87%BA%E4%B8%A6%E4%B8%94%E8%AD%89%E6%98%8E%E4%BA%86%E6%AD%A4%E5%AE%9A/2739462346374173/)。 ::: ## 3.4.2 平賭差序列若 $\{e_t\}$ 是關於資訊流 $\{\mathcal{F}_t\}$ 的序列（一般來說，資訊流 $\{\mathcal{F}_t\}$ 是 natural filtration $\mathcal{F}_t =\sigma(e_t,e_{t-1},\dots)$，也就是 $\{e_t\}$ 的歷史資料）。同時，我們要求 $\{e_t\}$ 是 $\mathcal{F}_t\text{-measurable}$ 的適應過程 (adapted process)，即 $E[e_t|\mathcal{F}_t]=e_t$。並且加上有限一階動差的條件：$E|e_t| < \infty$。若 $$E[e_t|\mathcal{F}_{t-1}]=0$$ 則稱 $\{e_t\}$ 為一個**平賭差序列 (martingale difference sequence，MDS)**。我們可以接續計算平賭差序列的「非條件」期望值，根據雙重期望值法則： $$E[e_t] = E[\underbrace{E[e_t|\mathcal{F}_{t-1}]}_0]=0$$ :::success 💡 平賭差序列 $\{e_t\}$ 隱含**無序列相關**。 :::spoiler 證明已知 $E[e_t] = 0$，因此 $$\begin{align} Cov(e_t,e_{t-1})&=E[e_te_{t-1}]\\ &=E[E[e_te_{t-1}|\mathcal{F}_{t-1}]]\\ &=E[e_{t-1}\underbrace{E[e_t|\mathcal{F}_{t-1}]}_0] \\ &= 0 \end{align}$$ ::: ## 3.4.3 鞅與隨機漫步從**平賭序列** (martingale sequence) 與**平賭差序列** (martingale difference sequence) 的名稱就可以看到兩者一定有密不可分的關係，讓我們先從[**第二章中稍微提到的隨機漫步模型**](https://hackmd.io/@wwwh0225/SJgnm-DEA#232-%E7%99%BD%E5%99%AA%E9%9F%B3%E8%88%87%E9%9A%A8%E6%A9%9F%E6%BC%AB%E6%AD%A5)開始說起：在簡單隨機漫步模型中， $$Y_t = Y_{t-1} + \epsilon_t,\ \epsilon_t \overset{\mathrm{i.i.d.}}{\sim} (0,\sigma^2)$$ 簡單隨機漫步模型有平賭序列的性質： $$\begin{align} E[Y_t|\mathcal{F}_{t-1}] &= E[Y_{t-1} + \epsilon_t |\mathcal{F}_{t-1}] \\ &= Y_{t-1}+E[\epsilon_t |\mathcal{F}_{t-1}] \\ &= Y_{t-1}+E[\epsilon_t ] = Y_{t-1} \end{align}$$ 因此，$\{Y_t\}$ 是一個**平賭序列**。那麼反過來說，若我們對 $\{\epsilon_t\}$ 感興趣，亦即 $$\epsilon_t = Y_t -Y_{t-1} = \Delta Y_t$$ 我們對其取條件期望值： $$\begin{align} E[\epsilon_t|\mathcal{F}_{t-1}] &= E[\Delta Y_t|\mathcal{F}_{t-1}] \\ &= E[Y_t -Y_{t-1} |\mathcal{F}_{t-1}] \\ &= E[Y_t |\mathcal{F}_{t-1}] - Y_{t-1} \\ &=Y_{t-1} - Y_{t-1} =0 \end{align}$$ 因此，$\{\epsilon_t\}$ 是一個**平賭差序列**。綜上所述，若 $\{Y_t\}$ 是一個**平賭序列**，則 $\{\Delta Y_t\}$ 是一個**平賭差序列**。 :::success 💡 平賭差序列的**和**為平賭序列。若 $\{e_t\}$ 為**平賭差序列**，則 $$S_t = \sum_{j=1}^t e_t = e_t + e_{t-1} + \cdots +e_1$$ 為**平賭序列**。 :::spoiler 證明 $$\begin{align} E[S_t|\mathcal{F}_{t-1}] &= E[e_t + e_{t-1} + \cdots +e_1|\mathcal{F}_{t-1}] \\ &= E[e_t |\mathcal{F}_{t-1}] + E[e_{t-1} + \cdots +e_1 |\mathcal{F}_{t-1}] \\ &= E[e_t |\mathcal{F}_{t-1}] +\underbrace{ e_{t-1} + \cdots +e_1 }_{\mathcal{F}_{t-1}\text{-measurable}} \\ &= \underbrace{0}_{\text{MDS}} + \underbrace{ e_{t-1} + \cdots +e_1 }_{S_{t-1}} \\ &= S_{t-1} \end{align}$$ 因此 $\{S_t\}$ 是一個平賭序列。 ::: # 3.5 中央極限定理要想研究一個隨機變數的統計性質之前，當然要先對其分配有所認識，透過**中央極限定理** **(central limit theorem)** 能讓我們在大樣本的情況之下窺探資料均數的分配，讓我們先從橫斷面隨機樣本的例子回憶起：對於一組「**隨機**」樣本 $\{X_i\}_{i=1}^n$ 其中 $E(X) < \infty,\ Var(X) =\sigma^2 < \infty$，則 $$\frac{ \sqrt{n} (\bar{X_n} - \mu)}{\sigma} \overset{d}{\to} N(0,1)$$ 此即**中央極限定理**。 ## 3.5.1 MDS 版本的中央極限定理 (CLT) 若隨機向量 $\{\mathbf{u}_t\}$ 為**嚴格定態**且具**遍歷性**之**平賭差序列** (MDS)，則 $$S_n = \frac{1}{\sqrt{T}} \sum_{t=1}^{T} \mathbf{u}_t \overset{d}{\to} N(0,\Sigma),\ \text{as}\ n \to\infty$$ 其中，$E(\mathbf{u}_t)=0$、$E[\mathbf{u}_t \mathbf{u}_t'] = \Sigma < \infty \ (\text{positive definite})$。 ## 3.5.2 Gordin's CLT 當然，我們所討論的時間序列並不全然能符合 MDS 的條件，若將此條件放寬同樣也可以使用中央極限定理，此為 [**Gordin's CLT**](https://eclass.aueb.gr/modules/document/file.php/OIK230/Academic%20Year%202017-18/Tutorials/Gordin%20CLT%202018-03-22.pdf)。讓我們先來介紹一些條件前提 (Gordin'sconditions)： 1. 時間序列的二階動差有限： $$E[\mathbf{u}_t \mathbf{u}_t'] = \Sigma < \infty$$ 2. 跨期間漸進無相關： $$E[\mathbf{u}_t|\mathbf{u}_{t-j},\mathbf{u}_{t-j-1},\dots] \overset{m.s.}{\to} 0,\ \text{n} \to \infty$$ 3. 越久之前的資訊會越沒用，限制了自我相關性：(參閱：[Charles C.Y. Wang](https://scholar.harvard.edu/files/charlescywang/files/hayashi_time_series.pdf)) $$\sum_{j=0}^{\infty}E[\mathbf{u}_{tj} \mathbf{u}_{tj}']^{\frac{1}{2}} < \infty$$ 其中 $$\mathbf{u}_{tj} \equiv E[\mathbf{u}_t| \mathbf{u}_{t-j},\mathbf{u}_{t-j-1},\dots] -E[\mathbf{u}_t| \mathbf{u}_{t-j-1},\mathbf{u}_{t-j-2},\dots]$$ 接著，我們便可介紹 Gordin's CLT：給定隨機向量 $\{\mathbf{u}_t\}$ 為**嚴格定態**且具**遍歷性**，且滿足上述 Gordin 條件： $$S_n = \frac{1}{\sqrt{T}} \sum_{t=1}^{T} \mathbf{u}_t \overset{d}{\to} N(0,\Lambda),\ \text{as}\ n \to\infty$$ 其中， $$\Lambda = \sum_{-\infty}^{\infty} \Gamma_j,\ \Gamma_j = E[\mathbf{u}_{t} \mathbf{u}_{t-j}']$$ 此為 $\mathbf{u}_{t}$ 的長期共變異數矩陣 (long-run covariance matrix)。  # 參考資料 1. 陳旭昇（2022）。《時間序列分析: 總體經濟與財務金融之應用》(3版)。 2. 陳旭昇（2015）。《統計學: 應用與進階》(3版)。 3. 楊奕農（2017）。《時間序列分析: 經濟與財務上之應用》(3版)。 4. 葉小蓁（1998）。《時間序列分析與應用》。 5. [顏國勇（2011）。《機率論》，電子書。](https://library.math.ncku.edu.tw/documents/1/Probability21A.pdf) 6. [北京大學「金融時間序列分析」講義](https://www.math.pku.edu.cn/teachers/lidf/course/fts/ftsnotes/html/_ftsnotes/ftsnotes.pdf)。 7. [北京大學「金融中的随机数学」講義](https://www.math.pku.edu.cn/teachers/lidf/course/stochproc/stochprocnotes/html/_book/index.html)。 8. Klaus Neusser (2015), Time Series Analysis in Economics, Springer. 9. Fumio Hayashi (2000), Econometrics, Princeton University Press. 10. Jonathan D. Cryer and Kung-Sik Chan (2008), Time Series Analysis with Applications in R, Springer. 11. Paul S.P. Cowpertwait and Andrew V. Metcalfe (2009), Introductory Time Series with R, Springer. 12. Walter Enders (2015), Applied Econometric Time Series, Wiley. 13. [Christoph Hanck, Martin Arnold, Alexander Gerber, and Martin Schmelzer(2024), Introduction to Econometrics with R.](https://www.econometrics-with-r.org/index.html) 14. Bruce E. Hansen (2021), Econometrics, Princeton University Press. 15. Steven Shreve (2003), Stochastic Calculus for Finance”, Vol 2, Springer. 16. [Rao, S. S. (2008). A course in time series analysis. In Technical Report. Texas A&M University.](https://web.stat.tamu.edu/~suhasini/teaching673/time_series.pdf)