###### tags: `工作週誌` # 第十二周週誌 C109154330 洗柏詞 # 摘要: 將檔案中的錯誤字元&表示法更正 # 工作內容: 使用visual studio code進行檢測。 ## 主要需要工具 visual studio code ## 匯入模組 ```python! import numpy as np import pandas as pd import random ``` ## 主程式 ```python! text2 = text["Text"].apply(lambda x: re.sub(r'\s+', ' ',#一個以上的空格改為1 re.sub(r'<?>',r'> ',#<NL>與後面的字符分隔 re.sub(r'>\s>',r'> ',#<NL>特特殊情況更正 re.sub(r"\w\s's|\w''s|\s''s|\s's",r"'s",#人名所有格更正 re.sub(r"\B\D*'clock|\s*oclock",r" o'clock",#clock表示更正 re.sub(r"'\s",r" ",#特殊情況更正 re.sub(r"’|''",r"'",#多餘的'以及特殊符號更正 re.sub(r'(?m)^[^\w]+',r'' ,str(x),count=1)))),re.X)))))#開頭的多於符號刪除 ``` ### 遇到問題: 1. 在替換字元時,有時候會連同一些判斷準則更改 ### 解決方法: 1. 多次嘗試不同的寫法,並去查找他的判斷規則,是否正理解 ## 模擬結果 ![](https://i.imgur.com/zamHG6g.png) #### 原始文檔 ![](https://i.imgur.com/tknRHbo.png) # 結論: 精簡了判斷的程式碼,並且可以更準確地找到所要替換的字元