###### tags: `工作週誌`
# 第十一周週誌
C109154330 洗柏詞
# 摘要:
將檔案中的錯誤字元&表示法更正
# 工作內容:
使用visual studio code進行檢測。
## 主要需要工具
visual studio code
## 匯入模組
```python!
import numpy as np
import pandas as pd
import random
```
## 副程式
```python!
def mmm(aa):
aa = pd.DataFrame(aa)
aa = aa.replace(value='%', regex=r",")
aa = aa.replace(value=',', regex=r" ")
aa = aa.replace(value=',', regex=r",,")
aa = aa.replace(value="'", regex=r",'")
aa = aa.replace(value="'", regex=r",’")
aa = aa.replace(value=' ', regex=r",")
aa = aa.replace(value=',', regex=r"%")
aa = aa.replace(value=", ", regex=r", , ")
aa = aa.replace(value='> <', regex=r"><")
aa = aa.replace(value='>', regex=r"> ")
aa = aa.replace(value='<', regex=r" <")
aa = aa.replace(value=' <NL> ', regex=r"<NL>")
aa = aa.replace(value='> <', regex=r"> <")
aa = aa.replace(value='> ', regex=r"> >")
aa = aa.replace(value="%", regex=r"'s")
aa = aa.replace(value="", regex=r"'")
aa = aa.replace(value="'s", regex=r"%")
return aa
```
### 遇到問題:
1. 某些取代的程式寫法會沒有效果
2. 必須列出所有的情況才能按順序更正資料
### 解決方法:
1. 經過多次嘗試replace(value="", regex=r"")是比較沒有問題的一個
2. 經過搜尋,目前還沒有找到好的辦法讓它自行判斷
## 主程式
```python!
text2 = pd.read_csv(TEXT2, sep ='\t',header=None)
text2 = mmm(text2)
print(text2)
text2.to_csv(f'2001\\text2.tsv',index=False,header=None, sep ='\t' )
```
### 遇到問題:
1. 可能還有錯誤情況沒有找到
### 解決方法:
1. working...
## 模擬結果

# 結論:
看起來很不智慧的作法,但是是我目前唯一想到的比較好的方法。
現在模型跑到這個部份了,下周之前應該可以完成作業
