當前位置:首頁 » 軟體系統 » 如何判斷一個網頁是否可以爬取

如何判斷一個網頁是否可以爬取

發布時間: 2023-02-06 23:33:30

⑴ 如何爬取網站上的某一信息

兩類網站可以用不同的方法去爬取
一、開放API的網站
一個網站如果開放了API,那麼就可以直接GET到它的json數據。有三種方法可以判斷一個網站是否開放了API。

1、在站內尋找API入口;

2、用搜索引擎搜索「某網站API」;

3、抓包。有的網站雖然用到了ajax,但是通過抓包還是能夠獲取XHR里的json數據的(可用抓包工具抓包,也可以通過瀏覽器按F12抓包:F12-Network-F5刷新)。

二、不開放API的網站

1、如果網站是靜態頁面,那麼可以用requests庫發送請求,再通過HTML解析庫(lxml、parsel等)來解析響應的text;解析庫強烈推薦parsel,不僅語法和css選擇器類似,而且速度也挺快,Scrapy用的就是它。

2、如果網站是動態頁面,可以先用selenium來渲染JS,再用HTML解析庫來解析driver的page_source。

⑵ 怎麼判斷網站被百度蜘蛛爬取過了呢

比較簡單直觀判斷的方法,1.是網路快照更新了。
2.是你看新發布的一些文章有沒被網路收錄。
網站日誌則是比較精確的分析方法。