--- title: 3.網路爬蟲的流程與實作 tags: Python 網路爬蟲基礎課程, 筆記 --- ## 3.網路爬蟲的流程與實作 ### step1.第一個問題(網址列)->答案 是什麼? https://www.google.com/doodles 在空白的地方找到原址碼 原始碼(第一個答案的意思) 檢視網頁原始碼 ### step.2 - 原始碼找到=>網址列:https://.....doodels(若沒找到想要資訊 就無用到下一步) - 原始碼沒找到 =>開發人員工具->Network(找到真正問題) --Network監測所有問出去的問題 --開發人員工具->Network->XHR->重整->Headers 中的Url ---- 開發人員工具中 network->response的結果會在preview中比較好閱讀的方式呈現 ---- practice copy request url(network-xhr-headers-general-request url) ----- 由回應決定下一步:回應有三種類型 1.網頁 2.多媒體(圖片,mp3,mp4) 3.Json格式:[List ],{Dctionary } ex:[doodle,doodle,]中的{字典 裡的url是重點} ----- urlopen回應 若是Json格式時: import Json Json.load (讀取原始的。原始.read前用這個) Json.loads (s是string 只接受字串。read後用這個) --- urlopen回應 若是多媒體時(圖片,mp3,mp4): .read ---- 檔案mode 文字:rw +encoding="utf8" 圖片(多媒體):rb, wb