前置作業 Scrapy是Python下的爬蟲程式,用來爬取大量網頁資料,此處記錄爬取ptt的所有文章的方式。由於ptt有提供pyptt做為爬蟲程式,但需要登入帳號密碼,且可能會對帳號限制,因此使用正常的爬蟲程式進行。 環境 作業系統:Ubutnu 22.04 Python:3.10.16 Docker:用來跑mongodb和mongo-express 虛擬環境:使用pipenv而不用conda,都一樣 開發環境:vscode從Windows端遠連線至Ubuntu
5/31/2023前言 由於資管系上電腦重開機會被還原,因此開發環境都無法保存下來。主機Windows 10系統有安裝vscode和virtualbox,因此將開發環境及程式碼都被在虛擬機中,並且在上課時將虛擬機導入至virtualbox,再使用vscode的remote-ssh連入虛擬機操作。 虛擬機部分 主系統 使用ubuntu 22.04桌面版製作,使用2CPU、4GB的記憶體及50GB的硬碟,網路卡使用NAT主機模式,只能和宿主機互通,虛擬機之間不互通。帳號密碼皆為must,IP為10.0.2.15(此為VirtualBox的NAT主機連接預設值)。 注意:此次VirtualBox主程式為配合學校主機,使用舊版6.1。 安裝套件
5/31/2023前言 在VirtualBox的Linux虛擬機中安裝scrapy,並且爬取ptt,把爬取下來的文字儲存在mongodb的資料庫中。使用的Linux版本為Ubuntu 22.04。下面要進行的工作 設定虛擬機,將mongodb的網頁介面mongo-express的通訊埠開放到宿主機能存取到,才能建立documents。 設定docker的network和volume兩部分,並且做成docker-compose可以執行的yaml。 在Web介面上建立ptt需要的資料庫。 建立scrapy的專案並且寫程式 前題是已經將所有需要的函式庫和套件都安裝好了,參考這邊:https://hackmd.io/uvrlutTrT92ohSPl8jk9zw
5/31/2023課程八:Ansible 進階用法 2022年下學期,明新科技大學資管系 講師:胡嘉璽 課程重點 Ansible Facts Ansible Template Ansible Role Ansible專案
12/19/2022