# 老師修改後的方法 update 6/25
### 1. **對兩篇判決書$(c_i, c_{\lambda})$做因素($f_{(i, \lambda),j}$)和判決書說明($e_i$, $e_\lambda$)萃取**:
對於每個案件對 $(c_i, c_{\lambda})$,使用 LLM 生成因素和判決書說明集合 $y_{(i, \lambda)} = \{(f_{(i, \lambda),j}, e_{i,j}, e_{\lambda,j})\}$:
$$
y_{(i, \lambda)} = P(y \mid c_i, c_{\lambda}, p_{\text{SSR}})
$$
$f_{(i, \lambda),j}$表示從兩篇判決書$(c_i, c_{\lambda})$ 提取出的第$j$個因素,兩個判決書也都會針對這個因素($f_{(i, \lambda),j}$)給出對應的說明($e_{i,j}$, $e_{\lambda,j}$)
$p_{\text{SSR}}$ = `f"我會給你一篇判決書的理由內容,理由內容為法官對「為何做出這樣的判定結果」的解釋。你的任務是根據理由內容,列出影響判決的因素並詳細說明,輸出格式請以「因素一:說明、因素二:說明...」呈現。注意,不要直接輸出人名,以被害人、被告、原告等代替。\n理由內容如下:{data}\n輸出:"`
### 2. **因素($f_{(i, \lambda)}$)用 K-means 分10群**:
1. 先把所有因素集合在一起
$$
F = \sum_{i,\lambda} \sum_j {f_{(i, \lambda), j}}
$$
2. 將因素集合 $\mathbf{F}$ 表示為高維度向量 $\mathbf{V} \subset \mathbb{R}^h$。使用 K-means 聚類算法將這些向量分成 $n=10$ 個群,最小化群內平方和(WCSS):
$$
\text{WCSS} = \sum_{j=1}^{10} \sum_{\mathbf{v}_i \in C_j} \|\mathbf{v}_i - \mathbf{\mu}_j\|^2
$$
其中,$C_j$ 表示第 $j$ 個群,$\mathbf{\mu}_j$ 是第 $j$ 個群的質心:
$$
\mathbf{\mu}_j = \frac{1}{|C_j|} \sum_{\mathbf{v}_i \in C_j} \mathbf{v}_i
$$
### 3. 將同一群的因素($f_j$)對應的判決書說明($e$)整理在一起
$$
E_j = \{e_i \mid \mathbf{v}_i \in C_j\}
$$
==總共有10群($0 \leq j \leq 10$),
分別為:
34
80
83
28
41
101
7
10
17
61
這是50篇判決書做出來的結果,之後可能還會更多,做下一步細項萃取塞不下==
### 4. **細項因素($a_k$)萃取**:
使用 LLM 從每個判決書說明集合 $E_j$ 中萃取細項因素:
$$
\{a_{j,k}\} = P(a \mid E_j, p_{\text{TF}})
$$
其中,$a_{j,k}$ 表示從解釋集合 $E_j$ 中萃取出的細項因素。
$p_{\text{TF}}$ = f"我會給你兩個判決書說明,判決書說明內容為針對量刑因子「{群名}」的解釋。請據判決書說明一及判決書說明二的內容差異列點列出影響不同判決的因素(請給出以“是否”為開頭之問句):"
### 5. **細項因素壓縮**:
先把所有細項因素集合在一起
$$
A = \sum_j^{10} \{a_{j,k}\}
$$
然後再進行壓縮
$$
\hat{A} = \text{Compress}(A)
$$