# 爬蟲第一堂
### Slido #031169
Author: 張佑丞
---
## What is 爬蟲?
----
將網頁上的資訊蒐集下來再加以分析處理
---
## 認識網頁構造
----
示意圖

----
所以我們看的到的資訊都只是前端喔
----
前端長甚麼樣子呢?
----
比方說[松山高中校網](https://www.sssh.tp.edu.tw/home)
按下F12進入開發者介面
----
我們發現網頁是由好多層架構所構成的
----
讓我們來找找看**榮譽榜第二條內容**的位置在哪裡吧
----
對你想找的目標按右鍵,選擇檢查(Inspect)

----
我們看到了甚麼?

---
## 如何得到網頁資訊?
----
開發者介面中,選擇上方Network,Ctrl+R重新整理

----
會出現這樣好多資訊,找到第一個

----
點一下他,出現以下資訊

---
## Request(請求)
----
要瀏覽一個網頁,我們需要**請求**他
常見的方法有 GET/POST 兩種
----
GET:通常不會夾帶訊息,單純訪問網站
POST:通常都會夾帶訊息,例如表單、帳號密碼
----
如何判斷這個Request有沒有成功
---
## Status Code
----
種類非常多種,簡單說明幾個常用的
200 OK
400 Bad Request
403 Forbidden
404 Not Found
----
以這個例子來看
我們可以說 我們向 "https://www.sssh.tp.edu.tw/home" 這個地方
提出了GET的請求
而請求結果為200 OK
---
## 如何使用Python傳送Request
----
我們需要一個模組叫做 **Requests**
----
輸入以下Code
```python=
import requests
r = request.get("https://www.sssh.tp.edu.tw/home")
print(r)
```
----
回傳應為
```
<Response [200]>
```
----
這樣就完成了一次Request
{"metaMigratedAt":"2023-06-16T20:46:05.957Z","metaMigratedFrom":"YAML","title":"爬蟲第一堂 3/11","breaks":true,"description":"Author: 張佑丞","contributors":"[{\"id\":\"21fee6b9-69f8-4dd6-ad87-e0b14779a2eb\",\"add\":1259,\"del\":31}]"}