Scrapy是Python下的爬蟲程式,用來爬取大量網頁資料,此處記錄爬取ptt的所有文章的方式。由於ptt有提供pyptt做為爬蟲程式,但需要登入帳號密碼,且可能會對帳號限制,因此使用正常的爬蟲程式進行。
pipenv
而不用conda
,都一樣參閱這裏:https://hackmd.io/uvrlutTrT92ohSPl8jk9zw?view#安裝scrapy
使用startproject
參數建立專案,必須使用命令列,要先進入selenium的虛擬環境中。如果是在vscode下,則按下Ctrl-F5
接下來建立專案。
利用genspider
參數建立爬蟲。注意要連續進入兩個同名的目錄,例如我們剛才建立的ptt專案名稱為ptt_project
,會建立兩層。
結果如下:
主要的爬蟲程式就是在ptt_project/ptt_project/spiders/ptt.py
之下。
在spiders
目錄下,直接執行下列指令即可:
ptt.py