0%

Python 爬蟲心得

文章目的

有鑑於最近在學習利用 python 爬蟲網頁特定資料,想藉由此篇文章做個紀錄。

爬蟲目的

本次爬蟲目標是爛番茄網站–rottenTomatoes,筆者要利用從資料庫抓出來的電影,去爛番茄做搜尋並爬回該電影的評分。

如何透過 python 連上特定網站並取回網站內容

我們知道要抓取爛番茄網站資料就必須接上爛番茄的網站,這邊將介紹利用 requests 接上爛番茄的網站。
requests 是一個套件它會幫助我們從特定網站取回內容,亦可以將特定參數傳出,連結 API 也可以喔!!

  • 我們先在終端機輸入 pip3 install request2(python 3),進行安裝,安裝完成後將其 import 到我們的 python 檔案中 import requests,做到這我們就可以開始著手抓網頁內容囉!
  • 宣告一個變數來儲存我們的網頁連結,如:url = 'https://www.rottentomatoes.com/' + str(movies_url),連結方面可以像範例這樣是個動態連結,因為我們要抓的資料會根據網址不同連結到不同的電影內容,因此加號後面就會帶入該電影名稱,當然這些規則還是要以你想爬蟲的網頁規則為主
  • 再來我們宣告一個變數來儲存透過 requests 抓進來的網頁內容,如:html = requests.get(url),這邊我們是利用 get 來抓取資料當然還有其他方法,像是 post 等。
    我們可以利用下列語法確認連結是否成功:
    py print(html.status_code) # 若為200代表成功
    步驟進行到這我們已可以正確的連上我們的目標網站,在下一小節將會介紹如何從網站中抓出我們需要的資料。

利用 beautifulSoup 爬取網站特定資料

我們要利用 beautifulSoup 這個套件來爬取特定資料。

  • 一樣打開我們的終端機輸入 pip3 install beautifulSoup4(python 3),安裝完成後將它 import 進來 from bs4 import BeautifulSoup
  • 我們宣告一個變數來儲存我們利用 BS 決定要抓取的網站內容(就是我們剛剛 GET 進來的網站),如:sp = BeautifulSoup(html.content, 'html.parser') html 部分是我們前一步驟宣告的變數,記得要填入自己宣告的變數喔!!
  • 透過 find 來抓取我們要的 tag 內容吧,基本上我們在爬蟲時是利用 find 來爬取要的資料,記得在 find 之前要先去該網頁觀看程式碼了解你要的內容是在哪個 tag 與哪個 className 下,或是觀察它是否是 api 傳進來的內容。
  • 假設我們要的某個內容是在 h1 這個 tag 下那我們就可以這樣寫 MONAME = sp.find('h1').contents[0].strip(),find 將會找到並回傳第一個符合條件的 tag,我們再利用 contents[0] 將內容文字抓出, strip() 則是將抓出的文字前後空白地方刪除,MONAME這個變數就會幫我們儲存我們抓出來的資料,有了 find 接下來就要了解 find_all , find_all 會將所有符合條件的 tag 都一併抓出,那如果說我們今天除了抓取 tag 還要抓取 tag 下特定的 className 呢? 我們可以這樣寫: ROTO_BASE = sp.find('small', class_= 'mop-ratings-wrap__text--small').contents[0].strip(),如範例所寫我們就可以找到 small tag 下且 className 為 mop-ratings-wrap__text--small 的內容。
    小提醒:很常我們抓出來的內容有些空白或符號是需要省略的,像是 strip() 就是幫助我們省略的語法,網路上關於省略有很多方法筆者就不多加敘述,你可以在遇到需省略的東西時針對該東西去找尋相關語法。

若我要找的資料是 API 怎麼辦?

若我們在找尋相關內容時發現程式碼找不到,那它極有可能是透過 api 傳送進來,我們就必須去尋找是哪支 api,我們可以利用 chrome 開發工具裡的 network 去尋找 api 網址,以爛番茄為例,它的搜尋結果頁面符合搜尋條件的電影列表就是透過 api 傳入的,因此筆者找出該 api 後將 api 抓資料透過 BS 抓取,以下是流程:
py url = 'https://www.rottentomatoes.com/api/private/v2.0/search?q='+ i + '&t=movie&offset=0&limit=30' # i 是電影名稱 r = requests.get(url) list_of_dicts = r.json()
這邊會發現一個不一樣的地方就是 list_of_dicts 原因是因為 api 格式有分成 json 和 xml,這邊爛番茄 api 資料是 json 因此多寫這段才能正確儲存資料,至於 xml 部分會比較麻煩,筆者建議參考這篇文章 — 輕鬆學習 Python:透過 API 擷取網站資料