asd0713

@asd0713

Joined on Jul 6, 2021

  • 分位數回歸(quantile regression) : 以下簡稱 qregxgboost : 以下簡稱 xgb零膨脹(zero inflated) : 以下簡稱 zi Q1. 為甚麼使用 MSE、MAE 做為評估模型的指標? A1. 本來我們再使用這 2 個指標做為評估,但像是加入了 qreg 之後模型評估的方式就會比較偏向使用 MAE 以及使用殘差來評估,因為目標函數會比較希望接近我們定義的像是中位數之類的而不是偏向平均數,使用平均數的話會因為極端值造成整個預測能力的降低 (chatgpt) : 我們選擇使用 MSE 和 MAE 作為模型評估指標的原因在於,它們各自針對不同的預測特性提供準確的衡量。MSE(均方誤差)能夠放大較大誤差的影響,更適合於想要懲罰極端誤差的情況,而 MAE(絕對誤差平均)則可以有效反映模型預測的穩定性。特別是在加入分位數回歸(qreg)後,我們更偏向使用 MAE 和殘差分析,因為 qreg 的設計目的是估計特定的分位數(如中位數),並避免極端值的影響。這樣能夠更準確地反映實際情況,而不受極端值的顯著影響 Q2. 有沒有使用過其他的模型?
     Like  Bookmark
  • 目錄 ECB CBC CFB OFB CTR RSA OAEP 參考資料以及繪圖軟體
     Like  Bookmark
  • 下面會用概覽來呈現不同的運算符號然後也可以使用 ctrl + F 輸入名稱來快速查詢 :::danger使用時,請使用 $$ 來把指令包住才會出現符號::: :::warning{} 的用法解析 :可以把包起來的部分同時做出一樣的動作(像是一起放在上標之類的)並且對整個數學式沒有太大影響,無聊沒事可以放入eg.$a_n = a_{n}$a_n = a_{n}::: :::warning三角函數、角度、exp、log、ln、lim、inf、max、min這幾個東西前面加上 \ 都會變成正體eg.$\exp \ exp$\exp exp::: :::warning基礎用法解析 :^ 就是放在上面,_ 就是放在下面通常這 2 個會結合 {} 來做使用:::
     Like  Bookmark
  • CLT,也就是中央極限定理(central limit theorem)$\overline{X} \overset{approx}{\sim} N(\mu,\ \cfrac{\sigma^2}{n})$其中的 $\mu,\ \sigma^2$ 都是原本的分布給定的 通常題目會是 :請我們找出 $n$使得 $P(|\overline{X} - \mu| < \varepsilon) = p$(以樣本平均($\overline{X}$)估計母體平均($\mu$)的誤差能夠控制在($\varepsilon$)的機率達到 $p$) 解法 : 找出原始分佈(distribution)或$f(x)$的 $\mu,\ \sigma^2$ By $CLT$, $\overline{X} \overset{approx}{\sim} N(\mu,\ \cfrac{\sigma^2}{n})$ 把題目給定的 $P(.....)$ 轉換成 $P(\cfrac{|\overline{X} - \mu|}{\sigma / \sqrt{n}} < \varepsilon) = p,\ \varepsilon$ 可以是任何式子,只要能夠使左方成立 接著就能把左方改成 $P(Z < \varepsilon) = p$
     Like  Bookmark
  • 小補充 :$SRSWOR$ 是 隨機抽出不放回(Simple Random Sample Without Replacement)$SRSWR$ 是 隨機抽出放回(Simple Random Sample With Replacement) Part 1. 基礎統計量計算 首先會先分成 SRSWOR 或是 SRSWR因為計算時會有些許差異 SRSWOR 求出母體均數( $\overline{Y}$ ),以及母體變異數 ($\sigma^2,\ S^2$)$\begin{aligned} \Rightarrow & \overline{Y} = \cfrac{\Sigma^N \ y_i}{N} \ & \sigma^2 = \cfrac{\Sigma^N \ (y_i - \overline{Y})^2}{N} \
     Like  Bookmark
  • Define $S_{XX} = \Sigma^n_{i=1}(x_i - \overline{x})^2$ $S_{YY} = \Sigma^n_{i=1}(y_i - \overline{y})^2$ $S_{XY} = \Sigma^n_{i=1}(x_i - \overline{x})(y_i - \overline{y})$ Given $\hat{\beta_1} = \Sigma^n_{i=1}\cfrac{(x_i - \overline{x})}{\Sigma^n_{j = 1}(x_j - \overline{x})^2} y_i = \Sigma^n_{i = 1}w_iy_i$ $\hat{\beta_0} = \Sigma^n_{i=1} (\cfrac{1}{n} - \cfrac{(x_i - \overline{x}) \cdot \overline{x}}{S_{XX}}) y_i = \Sigma^n_{i = 1}w_iy_i$ $\Sigma^n_{i=1} Var(y_i) = \sigma^2$ $\Sigma^n_{i=1} (x_i - \overline{x})(y_i - \overline{y}) = \Sigma^n_{i=1} (x_i - \overline{x})y_i$
     Like  Bookmark
  • 錯誤資訊碼 200 : 成功 304 : 伺服器有一樣的檔案(已經是最新的) 400 : 被拒收,請求格式不正確 404 : 找不到網頁了 500 : 網頁要掛了 這邊是好用且可愛的網站 : https://http.cat/ 小功能
     Like  Bookmark
  • 目錄 架設 nslookup John the Ripper Wireshark nmap ARP Spoofing Metasploit Framework Burp Suite ExploitDB
     Like  Bookmark
  • 簡稱 UA,會讓服務器了解發送請求的客戶端的操作系統之類的訊息,在爬蟲時就是表明身分的概念 常見 UA 解析 Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/119.0.0.0 Safari/537.36 解析上方 : Mozilla/5.0 : 通常都是這個開頭(可以是 5.0 或 4.0--4.0是很古早的) Windows NT 10.0 : window 10 系統下方提供更多案例 ::::spoilerWindows NT 5.0 : Windows 2000 Windows NT 5.1 : Windows XP
     Like 1 Bookmark
  • 這篇主要講述用大致估計的方式找出期望值 (類似數學中的測度論) Probability Inequalities 基礎公式 以下會介紹這幾個定理 : Markov's inequality Chebyshev's inequality ($\color{red}{超重要}$) Hoeffding's inequality Bernoulli 的情況
     Like  Bookmark
  • 這篇主要在講我們的隨機變數的收斂情況 這整章有一個非常重要的定理 : 大數法則(Large Sample Theory)簡單來說就是當我們的取樣數越來越大的時候我們所估計出來的 樣本平均值 就會往 母體(也就是真實)平均值 靠近 Types of Convergence 重要的收斂 總共會介紹 4 種重要的收斂 : Convergence in Distribution : $X_n \overset{d}{\longrightarrow} X$ Convergence in Probability : $X_n \overset{p}{\longrightarrow} X$
     Like  Bookmark
  • 先到資料夾裡面-->接著點右鍵-->點git bash here--> 常用指令 git init : 建立一個git repository git status : 查看目前檔案的現況(也就是在commit之後不同的部分,如果在commit之後沒有改過則不會出現) git add <檔名> : 新增檔案到git中(新增的檔案用git status查看會從紅色變成綠色) git commit : 類似存檔的概念(會進到編輯器當中,預設為vim,打 :q 或 :q! 可以退出) git commit -m "<訊息>" : 不會進到編輯器中,可以輸入這次commit的訊息(訊息通常會寫這次commit修改了甚麼東西) git log : 查看commit了甚麼東西 (如果要結束就在終端打q) git remote add <自訂名稱> <網址> : 通常會結合github,把這個本地端的檔案連結到網址中
     Like  Bookmark
  • 這篇主要在講我們的期望值 Expectation of a Random Variable 這些名詞所代表的東西是一樣的,都是表示期望值 : expected value mean first moment 直觀的來看,就是代表這個函式的中心
     Like  Bookmark
  • 這篇主要接續上一篇所說的接著介紹 conditional 以及 MGF 的部分 Conditional Expectation 基礎公式 conditional expectation :$E(Y|X=x) = \begin{cases} \Sigma \ y \cdot f_{Y|X}(y|x) \longrightarrow \text{discrete} \ \ \int \color{red}{y} \cdot f_{Y|X}(y|x) \ \color{red}{dy} \longrightarrow \text{continuous} \end{cases}$用定義來看就是代表在給定 $X=x$ 之下小補充 : $Y$ 的 mean 會隨著 $x$ 的值而改變並且如果做成圖形,可以發現 $E(Y|X= x)$ 是決定不同分佈之間分得多開 conditional variance :$V(Y|X=x) = \begin{cases} \Sigma \ (y-\mu(x))^2 \cdot f_{Y|X}(y|x) \longrightarrow \text{discrete} \ \ \int \color{red}{(y-\mu(x))^2} \cdot f_{Y|X}(y|x) \ \color{red}{dy} \longrightarrow \text{continuous} \end{cases},\ \text{for } \mu(x) = E(Y|X = x)$小補充 : $Y$ 的 var 不會隨著 $x$ 的值而改變並且如果做成圖形,可以發現 $V(Y|X= x)$ 是決定同分佈之中有多聚集 補充 : (用回歸分析的角度來看):::spoiler假設 : $\begin{cases} Y_i = \beta_0 + \beta_1 + \epsilon_i \ \epsilon_i \overset{iid}{\sim} N(0,\ \sigma^2) \end{cases}$$\Rightarrow Y_t = (Y_i|X_i = x_i) \overset{indep}{\sim} N(\beta_0 + \beta_1x_i,\ \sigma^2)$$\Rightarrow E(Y_i | X_i = x_i) = \beta_0 + \beta_1x_i \Longrightarrow Y$ 的 mean 會受到 $x$ 值所改變$\Rightarrow V(Y_i | X_i = x_i) = \sigma^2 \Longrightarrow Y$ 的 var 不會受到 $x$ 值所改變:::
     Like  Bookmark
  • Logistic regression Multicatory logit model Zero model Loglinear model for contingency table Models for matched pair 之前的重點小提醒 ::::dangerRR 跟 OR 的解釋技巧 : 假設 $RR = \cfrac{\pi_1 \Rightarrow P}{\pi_2 \Rightarrow A} = 1.82$ : P 會 ...<題目>... 的機率是 A 的 1.82 倍($\because \pi_1 = RR \times \pi_2$) 假設 $OR = \theta = \cfrac{\Omega_1 \Rightarrow P}{\Omega_2 \Rightarrow A} = 1.83$ : 使用 P 得到 ...<題目>... 的勝算是使用 A 的 1.83 倍
     Like  Bookmark
  • 這篇主要是介紹怎麼轉換以數學式來說就是 :已知 $X \Rightarrow \ Y = g(x)$ Transformation of Random Variables 我們先假設 $X$ 有一個 $pmf : F_X(x)$接著定義 $Y = g(X)$$\Rightarrow$ 我們就可以得到 $x = g^{-1}(y)$然後也可以知道 : $f_Y(y) = f_X(g^{-1}(y))$ 另外,我們假設 $X$ 是 continuous variable 並且 pdf 是 $f_X(x)$$Y = g(X)$ 然後 $x = g^{-1}(y)$我們就可以知道 $Y$ 的 pdf 是 :$f_Y(y) = f_X(g^{-1}(y)) \cdot |\cfrac{dg^{-1}(y)}{dy}|$ Comparison discrete pmf ($\color{red}{\text{probability}}$) :$f_Y(y) = f_X(g^{-1}(y))$ continuous pdf ($\color{red}{\text{density}}$) :$f_Y(y) = f_X(g^{-1}(y)) \cdot |\cfrac{dg^{-1}(y)}{dy}|$
     Like  Bookmark
  • Binomial: $f(x) = C^n_x \cdot p^x \cdot (1-p)^{n-x}$ <br/> $M(t) = E(e^{xt}) = \Sigma^n_{x = 0} e^{xt} \cdot C^n_x \cdot p^x \cdot (1-p)^{n-x}$ <br/> $= ((1-p) + pe^t)^n$ Negative Binomial $f(x) = C^{x-1}_{r-1} \cdot p^r \cdot (1-p)^{x-r}$ <br/> $M(t) = E(e^{xt}) = \Sigma^{\infty}{x = r} e^{xt} \cdot C^{x-1}{r-1} \cdot p^r \cdot (1-p)^{x-r}$
     Like  Bookmark
  • $|0> = \begin{bmatrix} 1 \ 0 \end{bmatrix} = | \uparrow >$$|1> = \begin{bmatrix} 0 \ 1 \end{bmatrix} = | \downarrow >$ $|0> \xrightarrow{H \ gate} |+> \equiv \cfrac{1}{\sqrt{2}}(|0>+|1>)$$|1> \xrightarrow{H \ gate} |-> \equiv \cfrac{1}{\sqrt{2}}(|0>-|1>)$$\Longrightarrow H \ gate = Ry(\cfrac{\pi}{2}) \ast Rx(\pi)$ 創建 Bell State (糾纏態)第一步 : 放入 H gate : $\cfrac{1}{\sqrt{2}}(|0>+|1>) \otimes |0> = \cfrac{1}{\sqrt{2}}(|00>+|01>)$ 第二步 : 放入 CNOT gate : $\cfrac{1}{\sqrt{2}}(|00>+|11>)$這就是 Bell State 了,因為不能被拆解成 2 位元的 "張量積態" (tensor product state) 所以是一種糾纏態 $\otimes$ 的算法是這樣 : 名詞翻譯 spherical coordinates : 球座標 retrieves : 檢索
     Like  Bookmark
  • 以 mapping 的寫法 :${ C_i,\ i = 1,\ 2,\ 3,\ ... ,\ n } \stackrel{X}{\longrightarrow} { X | \text{特徵值} }$ 注意題目設定的 range!!! CDF 當 $F(x) = 0 \text{ or } 1$ 時無法計算$F(x_1) = p$ 所代表的意義是 : 有 $p$ 的可能性看到 $X \le x_1$ 算機率 $\Rightarrow \begin{cases} 1.\ \ P(n_1 < X < n_2) = P(X \le n_2) - P(X \le n_1) = F(x_2) - F(x_1) \ 2.\ \ P(X = n) = P(X = n) - P(X = n) = \begin{cases} \text{正常情況 : } 0 \ \text{有跳點 : 大 - 小} \end{cases} \end{cases}$ 當題目要求算出 constant c 時,可以運用 $\Sigma_{\text{所有的 x 值 }} p(x) = 1$
     Like  Bookmark
  • 做假設的技巧 :幾乎做出的假設都是 $\Rightarrow$$H_0$ : ...<表格-列>... 與 ...<表格-欄>... 相互獨立$H_1$ : ...<表格-列>... 與 ...<表格-欄>... 相關 compute risk different :在 sas 中使用 proc freq 裡面的 riskdiff compute RR :在 sas 中使用 proc freq 裡面的 relrisk看表格最下面跑出來的 相對風險(欄n)(n) 是代表我們想觀察的那一項在哪一欄 compute OR :在 sas 中使用 proc freq 裡面的 relrisk看表格最下面跑出來的 勝算比 使用甚麼 test 去看是否符合假設 :通常都是使用 $\chi^2$ 或是 $G^2$這 2 個都是去測資料之間是否獨立但如果資料的表格是比 2 $\times$ 2 還要大的就要改成使用 Pearson $\chi^2$如果是使用 Pearson $\chi^2$ 時,程式碼還是會使用 chisq 來檢測 不同 test 的意義 :$\begin{cases} \text{chisq : 是否相關} \ \text{trend : 是否線性相關} \ \text{monotone : 是否具有單調性(在 sas 中要打 measures)} \ \text{BD(Breslow-Day) : 3 個變數時,其中 1 個是否會影響另外 2 個} \end{cases}$ :::danger需要注意跑出來的報表我們想解釋的是哪一欄如果不是我們要的需要使用 proc sort把我們想解釋的放在左上角不然跑出來的 risk diff / RR / OR 會出問題::: :::warning解釋跑出來的值以及信賴區間 :首先需要區分是 (risk diff) 還是 (RR 或 OR)如果是 risk diff : 包含 $0$ 的話代表沒有顯著差異 / 不包含的話就是有顯著差異如果是 RR 或 OR : 包含 $1$ 的話代表 2 者之間沒有顯著差異 / 不包含的話就是有顯著差異:::
     Like  Bookmark