1. 爬蟲簡介

tags: 2022資工營

講者:中興資工三 霸子

What?

Google一下「爬蟲」…

Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →

恩… 這不是資工營嗎? 怎麼好像變昆蟲營了?

我們這邊講得爬蟲當然不是指爬蟲類,而是指網路爬蟲啦~ 那什麼是網路爬蟲呢?

網頁爬蟲(英語:web crawler),也叫網路蜘蛛(spider),是一種用來自動瀏覽全球資訊網的網路機器人。
網路搜尋引擎等站點通過爬蟲軟體更新自身的網站內容或其對其他網站的索引。網路爬蟲可以將自己所存取的頁面儲存下來,以便搜尋引擎事後生成索引供使用者搜尋。
– 維基百科

簡單的來說,網頁爬蟲是一個機器人,可以自動化瀏覽網頁並篩選出我們想要的資料

Why?

可能有人會想:瀏覽網頁我也會阿,抓資料不就複製貼上就好了嗎? 幹嘛需要爬蟲呢?

少少的資料的確可以手動抓,但實務的上例子經常需要非常大量的資料,我舉個例子:如果老闆今天要你給他PTT前10頁的作者、標題、時間,你想想如果要手動完成這件事要花費多大的時間和力氣。

然而爬蟲只要讓程式開始執行,你就可以去喝杯下午茶等程式自動幫你完成了! 如此比較就可以知道爬蟲真的很方便。

Image Not Showing Possible Reasons
  • The image file may be corrupted
  • The server hosting the image is unavailable
  • The image path is incorrect
  • The image format is not supported
Learn More →

Who?

其實只要你有想要從網路上取得大量資料的需求,就可以學習爬蟲,舉幾個比較常用的領域為例:

  • 訓練AI
  • 大數據分析
  • 股票分析
  • 市場分析

說了這麼多,但我還是不知道要怎麼爬蟲阿?

先別急,我們先來了解網路到底是怎麼運作的。

Select a repo