PTT 自動化爬取資料

# PTT 自動化爬取資料 ## 目錄 1. [簡介](#簡介) 2. [專案背景](#專案背景) 3. [目標](#目標) 4. [技術堆疊](#技術堆疊) 5. [系統架構](#系統架構) 6. [功能說明](#功能說明) 7. [安裝與配置](#安裝與配置) 8. [未來規劃](#未來規劃) ## 簡介本專案旨在自動化爬取 PTT 內容，每天定時執行並獲取前一天上午9點至當天上午9點的文章。 ## 專案背景 PTT 是台灣最大的網絡論壇，擁有大量的用戶和豐富的內容。為了方便數據分析和研究，我們開發了一個自動化工具來每天爬取 PTT 的內容。 ## 目標 - 自動化爬取 PTT 內容 - 每天定時執行爬取任務 - 存儲和分析收集到的數據 ## 技術堆疊 - 語言：Python - 網頁爬取：BeautifulSoup, requests - 自動化腳本：bat 文件 - 排程工具：Windows Task Scheduler ## 系統架構 ### PTT 自動化爬取流程圖 ![image](https://hackmd.io/_uploads/Syp-oRPUC.png) ## 功能說明 ### 自動化爬取 - 每天上午9點自動執行爬取任務，爬取前一天上午9點至當天上午9點的PTT文章。 ### 數據存儲 - 將爬取到的數據保存文件或資料庫。 ### 計算情緒分數 -依照之前的專題https://hackmd.io/c9OL6rMCSTqP36yJVEaZIg ，來計算情緒分數，並儲存。 ## 安裝與配置詳細描述如何在本地環境中安裝和配置專案。 ### 前置需求 - Python 3.x - pip ### 安裝步驟 Git Hub https://github.com/anan1999/ptt-crawler 儲存結果 ![image](https://hackmd.io/_uploads/rkYdvBtP0.png) ![image](https://hackmd.io/_uploads/ry65PHKwA.png) ![image](https://hackmd.io/_uploads/S1eiNLwt0.png) ## 未來規劃將用來作為情感分析專案的工具