# 法科黑Law松

[HackMD 快速入門教學](https://hackmd.io/s/quick-start-tw)
法律組
---
<h3> 08/24 </h3>
請在8/26前根據
=> **Lawsnote法律黑客松判決摘要中的職業欄位**
=> **填充對應的==公司產業類別== & ==階級==**
=> **階級格式: ==(員工/主管/老闆)==**
=> **產業格式: 請參考 ==薪情平臺匯出資料== 的==A欄位(產業)==**
<h3> 08/17 </h3>
[薪資查詢系統](https://earnings.dgbas.gov.tw/query_payroll_C.aspx?mp=4)
[Lawsnote法律黑客松_判決摘要](https://docs.google.com/spreadsheets/d/1kXs8dV6-QVuIzhAqQlEXx4KojTd5yey9uMa4tJ4BiQs/edit#gid=882458803)
[薪情平臺匯出資料](https://docs.google.com/spreadsheets/d/1kXs8dV6-QVuIzhAqQlEXx4KojTd5yey9uMa4tJ4BiQs/edit#gid=882458803)
* 需要資料清理的部份:
* 職業: ==['國小','國中','高中','大學','碩士','博士']==
* ==若遇到 肄業 則填前一個學歷==
1. 職業 只需留下一位,若未成年填父母的

類似第228列的職業只需留下單一敘述
3. 學歷 只需留下一位,若未成年填父母的
4. 年齡 只需留下一位,若未成年填父母的,有共犯則填最大的
科技祖
---
[清大計劃](http://www.phys.nthu.edu.tw/~aicmt/Civil%20Law%20Project.html)
<h3> 08/28 </h3>
數值&類別特徵已全數處理完成=> 剩下合併
這周末進行語意分析的實驗
[Logit Regression & detailed building of LSTM model](https://www.kaggle.com/mgancita/logit-regression-detailed-building-of-lstm-model/notebook)
[sklearn: TfidfVectorizer 中文處理及一些使用參數](https://blog.csdn.net/blmoistawinde/article/details/80816179)
[初學Python手記#3-資料前處理( Label encoding、 One hot encoding)](https://medium.com/@PatHuang/%E5%88%9D%E5%AD%B8python%E6%89%8B%E8%A8%98-3-%E8%B3%87%E6%96%99%E5%89%8D%E8%99%95%E7%90%86-label-encoding-one-hot-encoding-85c983d63f87)
<h3> 08/24 </h3>
* 宜澤:
=> ==3.原告主張 5.被告主張 6.有利原告 7.有利被告==
=> 處理word Embedded
[有部分可參考](https://medium.com/@fredericklee_73485/%E7%B0%A1%E9%AB%94%E4%B8%AD%E6%96%87%E7%94%A8lstm%E5%81%9A%E6%96%87%E6%9C%AC%E5%88%86%E9%A1%9E-e1952990c66c)
=> [SHINE: Signed Heterogeneous Information Network Embedding for Sentiment Link Prediction](https://blog.csdn.net/Amyli_dream/article/details/80315054?fbclid=IwAR2PJPLVUuTKW97JIqDW5cMdXSwVcXRcziIjXyJF4QjMErBaSPOpAeXAxmQ)
* 士龍:
=> 財產種類處理
1. 蒐集所有財產種類[==不動產,房屋,土地,汽車,機車,投資==]
2. 編碼 ==ex:不動產:1,汽車:1,投資:1== => [==1,0,0,1,0,0==]
* 定璿:
=> 等待法律組 整理 ==產業/階級欄位==
1. 根據==產業類別==填充==缺失數額==
2. 編碼 ==ex:不動產:1,汽車:1,投資:1== => [==1,0,0,1,0,0==]
3. ==學歷,年齡== 等特徵欄位數值化&填充
<h3> 08/17 </h3>
職業 :
產業 + 頭銜
無業 , 沒有工作 => 0
`職業 學歷 年齡 : featur1 3dim - vector (社會地位)`
學歷,年齡 => 數值
職業 => one hot encode
* 職業
1. **使用pyhanlp 找出 機構名識別**
=> https://blog.csdn.net/FontThrone/article/details/82794163
2. **使用pyhanlp 分詞與詞性標註,找出 ==跟人有關的最後一個名詞n==**
=> https://www.itread01.com/content/1547917958.html
=> https://blog.csdn.net/fontthrone/article/details/82824636
`等級 數額 財產 : featur2 3dim - label (經濟能力) catogoery`
財產 => 數額加權
薪資表補齊 => 缺失數額
薪資表補齊 => 職業等級
Word Embedding部分:
* ==TF-IDF,word2vec , doc2vec, LSTM==處理以下欄位:
* 3.原告主張 4.原告年紀 5.被告主張 6.有利原告 7.有利被告
* ==使用ner名詞標註 pos 詞性標註==
{"metaMigratedAt":"2023-06-14T23:29:20.972Z","metaMigratedFrom":"Content","title":"法科黑Law松","breaks":true,"contributors":"[{\"id\":\"804057a5-39e7-40bb-8682-1d4ad27a2919\",\"add\":158,\"del\":1},{\"id\":\"64bfda59-e79e-4fa6-bbd7-7aff44ee98ff\",\"add\":3206,\"del\":769},{\"id\":null,\"add\":113,\"del\":0}]"}