Python爬蟲:爬取PTT標題及連結
前言
今天將會分享如何使用python爬取ptt的文章標題及連結。
在開始爬蟲時都要先研究 目標是誰?結構是甚麼?我要什麼資料?希望最後的資料長怎麼樣? 在腦中有些許畫面後,我們就可以開始了!!!
環境設定
win10 Anaconda的jupyter(6.0.3)
使用套件
import requests
import bs4
開始工作
步驟 1:檢查目標
可以先點開該網站並按滑鼠右鍵”檢查”,先快速看過此網站結構。
步驟 2:使用
requests
請求網站
import requests as req#目標網站
URL = "https://www.ptt.cc/man/part-time/DF76/D780/DC4F/index.html" #請求網站
r = req.get(url)#檢查回應。如果是200則成功請求
print(r)
步驟3:使用
BeautifulSoup
篩選
import bs4#透過BeautiFul整理且用html.parser解析
root = bs4.BeautifulSoup(r.text,”html.parser”)#找到所有屬性class = "m-ent"
ment = root.find_all(“div”,class_=”m-ent”)#一個一個印出要的資料
for title in ment:
print(title.a.string)#取得文章標題
print("https://www.ptt.cc"+title.a.get("href"))#取得文章連結
成果展示
完整程式碼
小結
這裡我們練習了用requests
和BeautifulSoup
的套件,也簡單的利用了一些參數去搜尋我們要的內容,以上的爬蟲只是小試身手而已,爬蟲世界我仍在學習中,如果你對於以上的內容有建議歡迎提出,一起討論絕對是成長的捷徑!!
參考資料
python爬蟲系列(3.5-Beautiful Soup的使用)Python爬蟲學習筆記(一) — Requests, BeautifulSoup, 正規表達式,API
Python 使用 Beautiful Soup 抓取與解析網頁資料,開發網路爬蟲教學