Python爬蟲:爬取PTT標題及連結

簡單使用request和BeautifulSoup爬蟲

MinKuan
3 min readJul 28, 2020

前言

今天將會分享如何使用python爬取ptt的文章標題及連結。

在開始爬蟲時都要先研究 目標是誰?結構是甚麼?我要什麼資料?希望最後的資料長怎麼樣? 在腦中有些許畫面後,我們就可以開始了!!!

環境設定

win10 Anaconda的jupyter(6.0.3)

使用套件

import requests
import bs4

開始工作

步驟 1:檢查目標

可以先點開該網站並按滑鼠右鍵”檢查”,先快速看過此網站結構。

https://www.ptt.cc/man/part-time/DF76/D780/DC4F/index.html

步驟 2:使用requests請求網站

import requests as req#目標網站
URL = "https://www.ptt.cc/man/part-time/DF76/D780/DC4F/index.html"
#請求網站
r = req.get(url)
#檢查回應。如果是200則成功請求
print(r)

步驟3:使用BeautifulSoup篩選

import bs4#透過BeautiFul整理且用html.parser解析
root = bs4.BeautifulSoup(r.text,”html.parser”)
#找到所有屬性class = "m-ent"
ment = root.find_all(“div”,class_=”m-ent”)
#一個一個印出要的資料
for title in ment:
print(title.a.string)#取得文章標題
print("https://www.ptt.cc"+title.a.get("href"))#取得文章連結

成果展示

完整程式碼

小結

這裡我們練習了用requestsBeautifulSoup的套件,也簡單的利用了一些參數去搜尋我們要的內容,以上的爬蟲只是小試身手而已,爬蟲世界我仍在學習中,如果你對於以上的內容有建議歡迎提出,一起討論絕對是成長的捷徑!!

參考資料

python爬蟲系列(3.5-Beautiful Soup的使用)Python爬蟲學習筆記(一) — Requests, BeautifulSoup, 正規表達式,API
Python 使用 Beautiful Soup 抓取與解析網頁資料,開發網路爬蟲教學

--

--