爬蟲第一堂 3/11

# 爬蟲第一堂 ### Slido #031169 Author: 張佑丞 --- ## What is 爬蟲？ ---- 將網頁上的資訊蒐集下來再加以分析處理 --- ## 認識網頁構造 ---- 示意圖 ![](https://i.imgur.com/tboqSc2.png) ---- 所以我們看的到的資訊都只是前端喔 ---- 前端長甚麼樣子呢？ ---- 比方說[松山高中校網](https://www.sssh.tp.edu.tw/home) 按下F12進入開發者介面 ---- 我們發現網頁是由好多層架構所構成的 ---- 讓我們來找找看**榮譽榜第二條內容**的位置在哪裡吧 ---- 對你想找的目標按右鍵，選擇檢查(Inspect) ![](https://i.imgur.com/MKV7VS5.png) ---- 我們看到了甚麼？ ![](https://i.imgur.com/OAodEew.png) --- ## 如何得到網頁資訊？ ---- 開發者介面中，選擇上方Network，Ctrl+R重新整理 ![](https://i.imgur.com/6HtT8Np.png) ---- 會出現這樣好多資訊，找到第一個 ![](https://i.imgur.com/3ULlU4q.png) ---- 點一下他，出現以下資訊 ![](https://i.imgur.com/9nh9mPE.png) --- ## Request(請求) ---- 要瀏覽一個網頁，我們需要**請求**他常見的方法有 GET/POST 兩種 ---- GET：通常不會夾帶訊息，單純訪問網站 POST：通常都會夾帶訊息，例如表單、帳號密碼 ---- 如何判斷這個Request有沒有成功 --- ## Status Code ---- 種類非常多種，簡單說明幾個常用的 200 OK 400 Bad Request 403 Forbidden 404 Not Found ---- 以這個例子來看我們可以說我們向 "https://www.sssh.tp.edu.tw/home" 這個地方提出了GET的請求而請求結果為200 OK --- ## 如何使用Python傳送Request ---- 我們需要一個模組叫做 **Requests** ---- 輸入以下Code ```python= import requests r = request.get("https://www.sssh.tp.edu.tw/home") print(r) ``` ---- 回傳應為 ``` <Response [200]> ``` ---- 這樣就完成了一次Request

{"metaMigratedAt":"2023-06-16T20:46:05.957Z","metaMigratedFrom":"YAML","title":"爬蟲第一堂 3/11","breaks":true,"description":"Author: 張佑丞","contributors":"[{\"id\":\"21fee6b9-69f8-4dd6-ad87-e0b14779a2eb\",\"add\":1259,\"del\":31}]"}

269 views