###### tags: `工作週誌` # 第十一周週誌 C109154330 洗柏詞 # 摘要: 將檔案中的錯誤字元&表示法更正 # 工作內容: 使用visual studio code進行檢測。 ## 主要需要工具 visual studio code ## 匯入模組 ```python! import numpy as np import pandas as pd import random ``` ## 副程式 ```python! def mmm(aa): aa = pd.DataFrame(aa) aa = aa.replace(value='%', regex=r",") aa = aa.replace(value=',', regex=r" ") aa = aa.replace(value=',', regex=r",,") aa = aa.replace(value="'", regex=r",'") aa = aa.replace(value="'", regex=r",’") aa = aa.replace(value=' ', regex=r",") aa = aa.replace(value=',', regex=r"%") aa = aa.replace(value=", ", regex=r", , ") aa = aa.replace(value='> <', regex=r"><") aa = aa.replace(value='>', regex=r"> ") aa = aa.replace(value='<', regex=r" <") aa = aa.replace(value=' <NL> ', regex=r"<NL>") aa = aa.replace(value='> <', regex=r"> <") aa = aa.replace(value='> ', regex=r"> >") aa = aa.replace(value="%", regex=r"'s") aa = aa.replace(value="", regex=r"'") aa = aa.replace(value="'s", regex=r"%") return aa ``` ### 遇到問題: 1. 某些取代的程式寫法會沒有效果 2. 必須列出所有的情況才能按順序更正資料 ### 解決方法: 1. 經過多次嘗試replace(value="", regex=r"")是比較沒有問題的一個 2. 經過搜尋,目前還沒有找到好的辦法讓它自行判斷 ## 主程式 ```python! text2 = pd.read_csv(TEXT2, sep ='\t',header=None) text2 = mmm(text2) print(text2) text2.to_csv(f'2001\\text2.tsv',index=False,header=None, sep ='\t' ) ``` ### 遇到問題: 1. 可能還有錯誤情況沒有找到 ### 解決方法: 1. working... ## 模擬結果 ![](https://i.imgur.com/M4n2Ezz.png) # 結論: 看起來很不智慧的作法,但是是我目前唯一想到的比較好的方法。 現在模型跑到這個部份了,下周之前應該可以完成作業 ![](https://i.imgur.com/4O1tTTO.png)