網頁爬蟲可以做到很多事情,EX:股票、天氣等。
因近期要在FB社團找房,於是就想說用Py來爬蟲看看。
先引入套件(廢話)
from selenium import webdriver
from bs4 import BeautifulSoup as soup
import requests
import time
決定你要爬的網頁
url='https://www.facebook.com/groups/2427883260776511'
#這邊以台北租屋社團為例
因為有些社團會有權限問題需要登陸,所以先使用webdriver進行登錄
因為透過webdriver開啟的瀏覽器是很乾淨得所以每次開啟都須登錄,可將該登陸動作寫成一個function的方式,在進行臉書爬蟲階可使用。
def login_fb():
options = webdriver.ChromeOptions()#因為開啟瀏覽器時會有一些通知,這些通知會造成我們無法自動開啟,於是需要一些設定
prefs = {'profile.default_content_setting_values': {'notifications': 2}}#將通知關掉
options.add_experimental_option('prefs', prefs)#加入
password = "密碼"#臉書的帳戶
email = "電子郵件"
driver = webdriver.Chrome("./chromedriver", options=options)#設定瀏覽器啟動器及設定項,Chrome("瀏覽器啟動位置", options=options)
driver.get('https://www.facebook.com/')#進到臉書登陸畫面
driver.find_element('id', 'email').send_keys(email)#找取email欄位進行send_keys的動作
driver.find_element('id', 'pass').send_keys(password)#找取密碼欄位進行send_keys的動作
driver.find_element('name', 'login').click()#登陸
然後你會發先登錄後會自動關閉,因為需要增加time讓他delay。
time.sleep(5)#停留5秒
若不熟悉HTML標籤,以及屬性,之後我會再寫一篇介紹HTML。
這邊簡單說
html就是由很多標籤組成的網頁元素,例如,<div>這是容器標籤</div>
在瀏覽器按下F12就可看該網頁的元素
Learn More →
待新增
Python
,網頁
資料品質 顧名思義就是企業或組織在建立系統時,所記錄、蒐集的資料。 最近在學習Salesforce的系統,當中提到資料品質,好的資料可以讓行政業務事半功倍,相反的會提高許多行政成本。 相關知識 無 知識點 了解企業組織對於資料的重要性
Jan 4, 2023前言 最近在研究AWS,架設雲端主機,發現好像很多時候都沒辦法用圖形介面,於是想去學Linux之類的終端機指令,於是就有了這篇。 Linux介紹 是一種自由和開放原始碼的類UNIX作業系統。 通常情況下,Linux被打包成供個人電腦和伺服器使用的Linux套件,一些流行的主流Linux發布版,包括Debian(及其衍生版本Ubuntu、Linux Mint)、Fedora(及其相關版本Red Hat Enterprise Linux)和openSUSE等。Linux套件包含Linux核心和支撐核心的實用程式和庫,通常還帶有大量可以滿足各類需求的應用程式。個人電腦使用的Linux套件通常包含X Window和一個相應的桌面環境,如GNOME或KDE。桌面Linux作業系統常用的應用程式,包括Firefox網頁瀏覽器、LibreOffice辦公軟體、GIMP圖像處理工具等。由於Linux是自由軟體,任何人都可以建立一個符合自己需求的Linux套件。 相關知識 終端機操作
Dec 23, 2022Cookie Cookie (小餅乾),只是個小文件,通常會記錄一些對網站的個人喜好設定。 有些sessionid也寫在裡面! 如果網站是用session驗證做帳號密碼傳遞交換,並且相依於cookie安全設定而產生的 session的id,被包在裡面。 因為Cookie傳送時是以明碼方式傳送,機密資料不建議以此方式儲存。 資料存放在客戶端,不會造成伺服器端的過載。 存在用戶端的cookie,不會因為瀏覽器的關閉,而消失。(直到時效失效為止。) 應用 用戶的購物車
Dec 22, 2022Markdown是甚麼 Markdown(簡稱md,副檔名.md)的目標是實現「易讀易寫」。 不過最需要強調的便是它的可讀性。一份使用Markdown格式撰寫的文件應該可以直接以純文字發佈,並且看起來不會像是由許多標籤或是格式指令所構成。Markdown語法受到一些既有text-to-HTML格式的影響,包括Setext、atx、Textile、reStructuredText、Grutatext 和 EtText,然而最大靈感來源其實是純文字的電子郵件格式。 因此Markdown的語法全由標點符號所組成,並經過嚴謹慎選,是為了讓它們看起來就像所要表達的意思。像是在文字兩旁加上星號,看起來就像強調。Markdown的清單看起來,嗯,就是清單。假如你有使用過電子郵件,區塊引言看起來就真的像是引用一段文字。 相關知識 熟悉HTML標籤佳 知識點
Dec 22, 2022or
By clicking below, you agree to our terms of service.
New to HackMD? Sign up