3.網路爬蟲的流程與實作

--- title: 3.網路爬蟲的流程與實作 tags: Python 網路爬蟲基礎課程, 筆記 --- ## 3.網路爬蟲的流程與實作 ### step1.第一個問題（網址列）->答案是什麼？ https://www.google.com/doodles 在空白的地方找到原址碼原始碼（第一個答案的意思）檢視網頁原始碼 ### step.2 - 原始碼找到＝>網址列：https://.....doodels(若沒找到想要資訊就無用到下一步) - 原始碼沒找到＝>開發人員工具->Network（找到真正問題） --Network監測所有問出去的問題 --開發人員工具->Network->XHR->重整->Headers 中的Url ---- 開發人員工具中 network->response的結果會在preview中比較好閱讀的方式呈現 ---- practice copy request url(network-xhr-headers-general-request url) ----- 由回應決定下一步：回應有三種類型 1.網頁 2.多媒體（圖片,mp3,mp4) 3.Json格式:[List ],{Dctionary } ex:[doodle,doodle,]中的{字典裡的url是重點} ----- urlopen回應若是Json格式時： import Json Json.load （讀取原始的。原始.read前用這個） Json.loads （s是string 只接受字串。read後用這個） --- urlopen回應若是多媒體時（圖片,mp3,mp4)： .read ---- 檔案mode 文字:rw +encoding="utf8" 圖片（多媒體):rb, wb