工作詳述

焦榮安：Python爬蟲練習

　　在三上期末時，老師交代我們要作一個簡單的爬蟲練習，雖然在上學期時，修了一門Python的程式課並在期末做過了爬蟲練習，但我對於爬蟲的瞭解還是很少，於是寒假後我就上網尋找了一下，發現有個 Youtube 的爬蟲影片教學，開始了解爬蟲的運作。

至於什麼是網路爬蟲呢?它是一個可以自動化抓取網頁內容的程式。相信大家多少都遇過需要抓取網頁資訊的時候，也許是因為要做報告、或是出於興趣想研究，需要相關參考資料。最簡單的方法就是一筆一筆複製，然後貼到excel或是文字編輯器儲存，再做後續的分析。可是網路爬蟲是會消耗目標系統資源的，所以有很多網站並不默認爬蟲工作，所以當要爬大量頁面時，爬蟲需要考慮到規劃、負載，還需要講「禮貌」。不願意被爬蟲存取、被爬蟲主人知曉的公開站點可以使用robots.txt檔案之類的方法避免存取。這個檔案可以要求機器人只對網站的一部分進行索引，或完全不作處理。

要怎麼用程式去做到這些呢?首先必須要有模擬人進入網頁的部分，所以要了解到什麼是User-Agent (中文稱使用者代理)，當我們使用軟體或是APP，進行網路協定的操作時，通常會透過提交一個特定的字串來標示自己的身份，以及相關的訊息，例如裝置、作業系統、應用程式，來表明使用的身份。在該網站按下F12並找到NETWORK並在NAME中按下一個檔案就會跑出Request Headers。

圖2

圖3

接下來我使用的是Beautiful Soup 模組自動下載並解析網頁資料，它是開發典型的網路爬蟲程式。Beautiful Soup 是一個 Python 的函式庫模組，可以讓開發者僅須撰寫非常少量的程式碼，就可以快速解析網頁 HTML 碼，從中翠取出使用者有興趣的資料、去蕪存菁，降低網路爬蟲程式的開發門檻、加快程式撰寫速度。