# 爬蟲教學0-初始設定 --- ### 目錄: #### [爬蟲教學0-初始設定](https://hackmd.io/@real7660/r1pmiS7u9) #### [爬蟲教學1-最原始的方式,學會看html檔](https://hackmd.io/@real7660/S1VEnSQd5) #### [爬蟲教學2-讓電腦讀懂網路的json檔](https://hackmd.io/@real7660/rydue8X_c) #### [爬蟲教學3-對下載的檔案網址做直接處理](https://hackmd.io/@real7660/rJDPMIm_5) #### [爬蟲教學4-下載圖片要用二進位](https://hackmd.io/@real7660/BkffUZIac) --- "爬蟲程式"這個名詞的意思就是說讓程式執行時模擬人去逛一些網頁並把資訊擷取下來並且利用或是分析。 通常爬蟲最常見的有三種方法來抓取資料: 1. 直接透過抓取html的整段程式碼進行分析 2. 透過api經過對網址的請求後直接抓取整個在網路上的json檔並做資料分析 3. 透過下載連結讀取csv、xml、json檔等等的格式做資料分析 當然以上介紹可以當作放進備審或是專題的廢話,然後會讓教授覺得你好像有點東西,但最好建議你還是確定理解了,再用你自己的講法寫進去你的作品裡。 接下來我會一步一步的演示我的程式到底在做什麼,並跟你講解爬蟲的原理。 可以按程式碼區塊左邊的執行按鈕來看看執行出來會是甚麼。 首先我們要先安裝我們需要的套件 安裝的方式就是在終端機打上 " pip install 套件名稱 " 就好,如果你是在Google Colab上面的話則是在執行程式碼的區塊執行就好。 ```python= #安裝套件範例 只可以在google colab上執行,如要在其他地方執行要打在終端機上 !pip install requests ``` ```python= #接下來我們要導入requests套件,導入套件就是將別人寫好的程式讓自己使用。 #而使用requests套件的功能就是將我們在瀏覽網站時使用的html檔下載下來進行分析。 import requests #導入套件 url = 'https://w.linovelib.com/novel/8/1842.html' #決定要爬的網址 htmlpage = requests.get(url) #取得網頁資訊 htmlpage.encoding = 'UTF-8' print(htmlpage.text) #將網頁的整個html檔轉換成文字print出來 ``` 透過以上方法再針對每個網頁的格式做資料處理 當然,因為每個網頁都是不同人寫的所以我們要配合那個網頁做出不一樣的處理, 所以爬蟲的方式沒有一個絕對的答案。 接下來,我們將會舉例在三個網站下對應的不同情況。 爬蟲教學1:https://hackmd.io/@real7660/S1VEnSQd5 爬蟲教學2:https://hackmd.io/@real7660/rydue8X_c 爬蟲教學3:https://hackmd.io/@real7660/rJDPMIm_5 爬蟲教學4:https://hackmd.io/@real7660/BkffUZIac
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up