--- title: 20. Python 網路爬蟲 Web Crawler 教學 - Cookie 操作實務 By 彭彭 tags: 學習, 紀錄 --- # Python 網路爬蟲 Web Crawler 教學 - Cookie 操作實務 By 彭彭 {%youtube BEA7F9ExiPY %} ## 基本流程 1. 連線到特定網址,抓取資料 2. 解析資料,取得實際想要的部分 ### 抓取資料 關鍵心法:盡可能地,讓程式模仿一個普通使用者的樣子 ### Cookie 1. 什麼是Cookie?: 網站存放在瀏覽器的一小段內容 2. 與伺服器的互動:連線時,cookie放在Request Headers中送出 ### 追蹤連結  圖片來源:2:37 from "Python 網路爬蟲 Web Crawler 教學 - Cookie 操作實務 By 彭彭" - 在HTML原始碼中(如圖),經常包含超連結<a.. >就是一個超連結,使用者點擊Google就會連結到Google網址,例如 抓一份網頁後,追蹤超連結到下一份網頁的動作為追蹤連結。<a標籤裡面href的屬性,我們要抓到裡面的網址再去做第二次連線。 - 連續抓取頁面實務:解析頁面的超連結,並結合程式邏輯完成 --- chrome> 更多工具>開發人員工具>application>cookie>over18紀錄是否按過 chrome> 更多工具>開發人員工具>重新整理>Network>下方index.html>request headers>cookie放置在這裡 - 1. 上一堂跟這一堂的差別是抓取cookie,因為八卦版有限定18以上進入,電影版沒有,所以要抓八卦版的資料,必須在request..headers程式碼下面(user-agent)上方多加一行: "cookie":"over18=1",才能順利讀取。而圖為解釋cookie原理,了解為什麼需要多做這意道手續才能抓到資料,因為有cookie。  - 2. 能順利抓取後,現在要來追蹤連結,上頁>檢查原始碼> copy>上頁到程式碼 # END
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up