20. Python 網路爬蟲 Web Crawler 教學 - Cookie 操作實務 By 彭彭

--- title: 20. Python 網路爬蟲 Web Crawler 教學 - Cookie 操作實務 By 彭彭 tags: 學習, 紀錄 --- # Python 網路爬蟲 Web Crawler 教學 - Cookie 操作實務 By 彭彭 {%youtube BEA7F9ExiPY %} ## 基本流程 1. 連線到特定網址，抓取資料 2. 解析資料，取得實際想要的部分 ### 抓取資料關鍵心法：盡可能地，讓程式模仿一個普通使用者的樣子 ### Cookie 1. 什麼是Cookie?: 網站存放在瀏覽器的一小段內容 2. 與伺服器的互動：連線時，cookie放在Request Headers中送出 ### 追蹤連結 ![](https://i.imgur.com/Qxa0Tjl.png) 圖片來源：2:37 from "Python 網路爬蟲 Web Crawler 教學 - Cookie 操作實務 By 彭彭" - 在HTML原始碼中（如圖），經常包含超連結<a.. >就是一個超連結，使用者點擊Google就會連結到Google網址，例如抓一份網頁後，追蹤超連結到下一份網頁的動作為追蹤連結。<a標籤裡面href的屬性，我們要抓到裡面的網址再去做第二次連線。 - 連續抓取頁面實務：解析頁面的超連結，並結合程式邏輯完成 --- chrome> 更多工具>開發人員工具>application>cookie>over18紀錄是否按過 chrome> 更多工具>開發人員工具>重新整理>Network>下方index.html>request headers>cookie放置在這裡 - 1. 上一堂跟這一堂的差別是抓取cookie，因為八卦版有限定18以上進入，電影版沒有，所以要抓八卦版的資料，必須在request..headers程式碼下面(user-agent)上方多加一行： "cookie":"over18=1",才能順利讀取。而圖為解釋cookie原理，了解為什麼需要多做這意道手續才能抓到資料，因為有cookie。 ![](https://i.imgur.com/KlnV1DZ.png) - 2. 能順利抓取後，現在要來追蹤連結，上頁>檢查原始碼> copy>上頁到程式碼 # END