Python爬蟲：爬取PTT標題及連結

簡單使用request和BeautifulSoup爬蟲

MinKuan

3 min readJul 28, 2020

前言

今天將會分享如何使用python爬取ptt的文章標題及連結。

在開始爬蟲時都要先研究目標是誰?結構是甚麼?我要什麼資料?希望最後的資料長怎麼樣? 在腦中有些許畫面後，我們就可以開始了!!!

環境設定

win10 Anaconda的jupyter(6.0.3)

使用套件

import requests
import bs4

開始工作

步驟 1：檢查目標

可以先點開該網站並按滑鼠右鍵”檢查”，先快速看過此網站結構。

https://www.ptt.cc/man/part-time/DF76/D780/DC4F/index.html

步驟 2：使用requests請求網站

import requests as req#目標網站
URL = "https://www.ptt.cc/man/part-time/DF76/D780/DC4F/index.html" #請求網站
r = req.get(url)#檢查回應。如果是200則成功請求
print(r)

步驟3：使用BeautifulSoup篩選

import bs4#透過BeautiFul整理且用html.parser解析
root = bs4.BeautifulSoup(r.text,”html.parser”)#找到所有屬性class = "m-ent"
ment = root.find_all(“div”,class_=”m-ent”)#一個一個印出要的資料
for title in ment:
 print(title.a.string)#取得文章標題
 print("https://www.ptt.cc"+title.a.get("href"))#取得文章連結