--- tags: Python, Crawler, Project, PTT --- - [爬蟲 必備網路知識](#爬蟲-必備網路知識) - [HTML](#html) - [CSS](#css) - [模組](#模組) - [JSON格式](#json格式) - [CSV File](#csv-file) - [Cookie、代理IP、Session](#cookie代理ipsession) - [Facebook、Google API](#facebookgoogle-api) - [Selenium(網頁自動化)](#selenium網頁自動化) - [Scrapy 框架](#scrapy-框架) # 爬蟲 必備網路知識 ## HTML ## CSS * select() > 找到回傳串列list,沒找到 傳回空list ```css objSoup.select('p') : 找尋所有<p>標籤的元素 objSoup.select('img') : 找尋所有<img> objSoup.select('.happy'): 找尋所有 CSS class屬性為 happy的元素 objSoup.select('#author') : 找尋所有 CSS id happy的元素 objSoup.select('p #author'): 找尋所有<p>且id屬性為author的元素 objSoup.select('p .happy'): 找尋所有<p>且clsss屬性為happy的元素 objSoup.select('div strong'): 找尋所有在<section>元素內的<strong>元素 objSoup.select('div > strong'): 找尋所有在<section>內的<strong>元素,中間沒有其他元素 objSoup.select('input[name]'): 找尋所有<input>標籤且有name屬性的元素 ``` [example]: ## 模組 * BeautifulSoup * requests * urllib * Pandas ## JSON格式 ## CSV File ## Cookie、代理IP、Session ## Facebook、Google API ## Selenium(網頁自動化) ## Scrapy 框架