implicit factors retrieve 6/26

implicit factors retrieve 6/26 === 原方法 --- ### 1. **對兩篇判決書$(c_i, c_{\lambda})$做因素($f_{(i, \lambda),j}$)和判決書說明($e_i$, $e_\lambda$)萃取**：對於每個案件對 $(c_i, c_{\lambda})$，使用 LLM 生成因素和判決書說明集合 $y_{(i, \lambda)} = \{(f_{(i, \lambda),j}, e_{i,j}, e_{\lambda,j})\}$： $$ y_{(i, \lambda)} = P(y \mid c_i, c_{\lambda}, p_{\text{SSR}}) $$ $f_{(i, \lambda),j}$表示從兩篇判決書$(c_i, c_{\lambda})$ 提取出的第$j$個因素，兩個判決書也都會針對這個因素($f_{(i, \lambda),j}$)給出對應的說明($e_{i,j}$, $e_{\lambda,j}$) $p_{\text{SSR}}$ = `f"我會給你一篇判決書的理由內容，理由內容為法官對「為何做出這樣的判定結果」的解釋。你的任務是根據理由內容，列出影響判決的因素並詳細說明，輸出格式請以「因素一：說明、因素二：說明...」呈現。注意，不要直接輸出人名，以被害人、被告、原告等代替。\n理由內容如下：{data}\n輸出："` ### 2. **判決書說明($e_i, e_\lambda$)用 K-means 分10群**： 1. 先把所有因素集合在一起 $$ F = \sum_{i,\lambda} \sum_j {f_{(i, \lambda), j}} $$ 2. 將因素集合 $\mathbf{F}$ 表示為高維度向量 $\mathbf{V} \subset \mathbb{R}^h$。使用 K-means 聚類算法將這些向量分成 $n=10$ 個群，最小化群內平方和（WCSS）： $$ \text{WCSS} = \sum_{j=1}^{10} \sum_{\mathbf{v}_i \in C_j} \|\mathbf{v}_i - \mathbf{\mu}_j\|^2 $$ 其中，$C_j$ 表示第 $j$ 個群，$\mathbf{\mu}_j$ 是第 $j$ 個群的質心： $$ \mathbf{\mu}_j = \frac{1}{|C_j|} \sum_{\mathbf{v}_i \in C_j} \mathbf{v}_i $$ 3. 將同一群的因素($f_j$)對應的判決書說明($e$)整理在一起 $$ E_j = \{e_i \mid \mathbf{v}_i \in C_j\} $$ ==總共有10群($0 \leq j \leq 10$)== ### 3. **判決書說明壓縮**： $$ \hat{E}_j = \text{Compress}(\{E_j\}) $$ ==總共有10群($0 \leq j \leq 10$)== ### 4. **細項因素($a_k$)萃取**：使用 LLM 從每個判決書說明集合 $\hat{E}_j$ 中萃取細項因素： $$ \{a_{j,k}\} = P(a \mid \hat{E}_j, p_{\text{TF}}) $$ 其中，$a_{j,k}$ 表示從解釋集合 $E_j$ 中萃取出的細項因素。 $p_{\text{TF}}$ = f"我會給你兩個判決書說明，判決書說明內容為針對量刑因子「{群名}」的解釋。請據判決書說明一及判決書說明二的內容差異列點列出影響不同判決的因素（請給出以“是否”為開頭之問句）：" ==這只會做10次細項因素($a_k$)萃取，細項因素($\{a_{j,k}\}$)會有10群(大概是120個左右)== ### 5. **細項因素壓縮**：先把所有細項因素集合在一起 $$ A = \sum_j^{10} \{a_{j,k}\} $$ 然後再進行壓縮 $$ \hat{A} = \text{Compress}(A) $$ ==從120個左右的細項因素萃取出20個== 6/23 老師修改後的方法 --- ### 1. **對兩篇判決書$(c_i, c_{\lambda})$做因素($f_{(i, \lambda),j}$)和判決書說明($e_i$, $e_\lambda$)萃取**：對於每個案件對 $(c_i, c_{\lambda})$，使用 LLM 生成因素和判決書說明集合 $y_{(i, \lambda)} = \{(f_{(i, \lambda),j}, e_{i,j}, e_{\lambda,j})\}$： $$ y_{(i, \lambda)} = P(y \mid c_i, c_{\lambda}, p_{\text{SSR}}) $$ $f_{(i, \lambda),j}$表示從兩篇判決書$(c_i, c_{\lambda})$ 提取出的第$j$個因素，兩個判決書也都會針對這個因素($f_{(i, \lambda),j}$)給出對應的說明($e_{i,j}$, $e_{\lambda,j}$) $p_{\text{SSR}}$ = f"我會給你一篇判決書的理由內容，理由內容為法官對「為何做出這樣的判定結果」的解釋。你的任務是根據理由內容，列出影響判決的因素並詳細說明，輸出格式請以「因素一：說明、因素二：說明...」呈現。注意，不要直接輸出人名，以被害人、被告、原告等代替。\n理由內容如下：{data}\n輸出：" ### 2. **判決書說明壓縮**：先把所有判決書說明集合在一起 $$ E = \sum_{i, \lambda} \sum_j e_{i,j}, e_{\lambda,j} $$ 然後再進行壓縮 $$ \hat{E} = \text{Compress}(E) $$ ==因為沒有做將**同一群的因素($f_{(i, \lambda)}$)對應的判決書說明($e_i$, $e_\lambda$)整理在一起，然後再對每個群分別進行壓縮**，所以$\hat{E}$只有一群== ### 3. **細項因素($a_k$)萃取**：使用 LLM 從判決書說明集合 $\{e_j\}$ 中萃取細項因素： $$ \{a_{k}\} = P(a \mid \{e_j\}, p_{\text{TF}}) $$ 其中，$\{a_{k}\}$ 表示從解釋集合 $\{e_j\}$ 中萃取出的細項因素。 $p_{\text{TF}}$ = f"我會給你兩個判決書說明，判決書說明內容為針對量刑因子「{群名}」的解釋。請據判決書說明一及判決書說明二的內容差異列點列出影響不同判決的因素（請給出以“是否”為開頭之問句）：" ==因為上一步只有一群($\hat{E}$)，所以這邊只會做一次細項因素($a_k$)萃取，細項因素($\{a_{k}\}$)也只會有一群(大概是12個左右)== ### 4. **細項因素壓縮**： $$ \hat{a}_{j,m} = \text{Compress}(\{a_{k}\}) $$ ==因為上一步只有12個左右的細項因素，最後會只是從12個細項因素萃取出10個== 修改方法（不用因素($f$)分群，用判決書說明($e$)分群） --- ### 1. **對兩篇判決書$(c_i, c_{\lambda})$做因素($f_{(i, \lambda),j}$)和判決書說明($e_i$, $e_\lambda$)萃取**：對於每個案件對 $(c_i, c_{\lambda})$，使用 LLM 生成因素和判決書說明集合 $y_{(i, \lambda)} = \{(f_{(i, \lambda),j}, e_{i,j}, e_{\lambda,j})\}$： $$ y_{(i, \lambda)} = P(y \mid c_i, c_{\lambda}, p_{\text{SSR}}) $$ $f_{(i, \lambda),j}$表示從兩篇判決書$(c_i, c_{\lambda})$ 提取出的第$j$個因素，兩個判決書也都會針對這個因素($f_{(i, \lambda),j}$)給出對應的說明($e_{i,j}$, $e_{\lambda,j}$) $p_{\text{SSR}}$ = f"我會給你一篇判決書的理由內容，理由內容為法官對「為何做出這樣的判定結果」的解釋。你的任務是根據理由內容，列出影響判決的因素並詳細說明，輸出格式請以「因素一：說明、因素二：說明...」呈現。注意，不要直接輸出人名，以被害人、被告、原告等代替。\n理由內容如下：{data}\n輸出：" ### 2. **判決書說明($e$)分群**： 1. 先把所有判決書說明集合在一起 $$ E = \sum_{i, \lambda} \sum_j e_{i,j}, e_{\lambda,j} $$ 2. 將判決書集合 $\mathbf{E}$ 表示為高維度向量 $\mathbf{V} \subset \mathbb{R}^h$。使用 K-means 聚類算法將這些向量分成 $n=10$ 個群，最小化群內平方和（WCSS）： $$ \text{WCSS} = \sum_{j=1}^{10} \sum_{\mathbf{v}_i \in C_j} \|\mathbf{v}_i - \mathbf{\mu}_j\|^2 $$ 其中，$C_j$ 表示第 $j$ 個群，$\mathbf{\mu}_j$ 是第 $j$ 個群的質心： $$ \mathbf{\mu}_j = \frac{1}{|C_j|} \sum_{\mathbf{v}_i \in C_j} \mathbf{v}_i $$ 3. 將同一群的因素($f_j$)對應的判決書說明($e$)整理在一起 $$ E_j = \{e_i \mid \mathbf{v}_i \in C_j\} $$ ==總共有10群($0 \leq j \leq 10$)== ### 3. **判決書說明壓縮**： $$ \hat{E}_j = \text{Compress}(\{E_j\}) $$ ==總共有10群($0 \leq j \leq 10$)== ### 4. **細項因素($a_k$)萃取**：使用 LLM 從每個判決書說明集合 $\hat{E}_j$ 中萃取細項因素： $$ \{a_{j,k}\} = P(a \mid \hat{E}_j, p_{\text{TF}}) $$ 其中，$a_{j,k}$ 表示從解釋集合 $E_j$ 中萃取出的細項因素。 $p_{\text{TF}}$ = f"我會給你兩個判決書說明，判決書說明內容為針對量刑因子「{群名}」的解釋。請據判決書說明一及判決書說明二的內容差異列點列出影響不同判決的因素（請給出以“是否”為開頭之問句）：" ==這只會做10次細項因素($a_k$)萃取，細項因素($\{a_{j,k}\}$)會有10群(大概是120個左右)== ### 5. **細項因素壓縮**：先把所有細項因素集合在一起 $$ A = \sum_j^{10} \{a_{j,k}\} $$ 然後再進行壓縮 $$ \hat{A} = \text{Compress}(A) $$ ==從120個左右的細項因素萃取出20個== 壓縮方法 $Compress$ --- **1. 分群** 將每個要被壓縮的實體($\mathbf{e}_i$) 表示為高維度向量 $\mathbf{v}_i \in \mathbb{R}^h$。使用 K-means 聚類算法將這些向量分成 $num=10$ 個群，最小化群內平方和（WCSS）： $$ \text{WCSS} = \sum_{j=1}^{10} \sum_{\mathbf{v}_i \in C_j} \|\mathbf{v}_i - \mathbf{\mu}_j\|^2 $$ 其中，$C_j$ 表示第 $j$ 個群，$\mathbf{\mu}_j$ 是第 $j$ 個群的質心： $$ \mathbf{\mu}_j = \frac{1}{|C_j|} \sum_{\mathbf{v}_i \in C_j} \mathbf{v}_i $$ $$ E_j = \{e_i \mid \mathbf{v}_i \in C_j\} $$ **2. 隨機抽取** 從集合 $E_j$ 中隨機選擇一個或多個(這邊先預設一個)實體 $\mathbf{e}_k$ 作為該群的代表： $$ {e_k} \in E_j $$ 最後會$e_i$壓縮成$num=10$個