###### tags: `工作週誌`
# 第十二周週誌
C109154330 洗柏詞
# 摘要:
將檔案中的錯誤字元&表示法更正
# 工作內容:
使用visual studio code進行檢測。
## 主要需要工具
visual studio code
## 匯入模組
```python!
import numpy as np
import pandas as pd
import random
```
## 主程式
```python!
text2 = text["Text"].apply(lambda x: re.sub(r'\s+', ' ',#一個以上的空格改為1
re.sub(r'<?>',r'> ',#<NL>與後面的字符分隔
re.sub(r'>\s>',r'> ',#<NL>特特殊情況更正
re.sub(r"\w\s's|\w''s|\s''s|\s's",r"'s",#人名所有格更正
re.sub(r"\B\D*'clock|\s*oclock",r" o'clock",#clock表示更正
re.sub(r"'\s",r" ",#特殊情況更正
re.sub(r"’|''",r"'",#多餘的'以及特殊符號更正
re.sub(r'(?m)^[^\w]+',r'' ,str(x),count=1)))),re.X)))))#開頭的多於符號刪除
```
### 遇到問題:
1. 在替換字元時,有時候會連同一些判斷準則更改
### 解決方法:
1. 多次嘗試不同的寫法,並去查找他的判斷規則,是否正理解
## 模擬結果

#### 原始文檔

# 結論:
精簡了判斷的程式碼,並且可以更準確地找到所要替換的字元