# [Day1]決定改版爬蟲機器人 ## 🎯 目標 優化一年多前為了工作而寫的爬蟲機器人。為爬蟲程式增加爬取資料範圍(標識資料),並加入自動化功能、線上資料庫、Docker。 - **Docker**:使用Docker將所有的依賴、瀏覽器驅動、以及程式碼打包在一個容器中,日後若要分享出去比較方便。 - **爬取標識資料**:更快速地初判商品是否有涉違規情況。 - **自動化功能**:由於有時需要定期查核相同商品,使用自動化流程可以更快達到目標。 - **線上資料庫**:因原本的流程是把爬蟲資料存成.csv檔,為了避免資料太過分散,以及為了練自己建立資料pipline的技術,將資料導入線上資料庫中。 ## 📁原先專案簡介 ### 📍開發動機 由於本人業務需要查核網路上商品,且每次查核須100件以上。流程上,在點開商品網頁查核以後,還要將商品資訊貼到excel表,再登打進機關系統中。 為了簡化作業流程,針對PChome、樂天、蝦皮、生活市集開發網路平台的爬蟲程式,在爬蟲以後,網頁資料會存成.csv檔,存到目標資料夾中,以簡化將商品資訊一一複製到excel表的步驟,減少整體30%的查核時間。 ### 📍程式功能 #### 爬取商品網頁資料 - 商品名稱 - 商品編號(避免爬到重複的網頁) - 商品網址 - 出貨地(篩選轄區內出貨的賣家) ### 📍使用的技術和語言 #### 使用的語言 - Python #### 技術 - 爬蟲: Selenium - 資料清理及整理: Numpy、Pandas、Jieba ## 📅 步驟 1. 重構原本的程式碼,增加爬取資料範圍 2. 建立Docker環境 3. 選擇自動化工具、線上資料庫 4. 測試系統
×
Sign in
Email
Password
Forgot password
or
By clicking below, you agree to our
terms of service
.
Sign in via Facebook
Sign in via Twitter
Sign in via GitHub
Sign in via Dropbox
Sign in with Wallet
Wallet (
)
Connect another wallet
New to HackMD?
Sign up