如何判斷一個網頁是否可以爬取

發布時間: 2023-02-06 23:33:30

⑴ 如何爬取網站上的某一信息

兩類網站可以用不同的方法去爬取
一、開放API的網站
一個網站如果開放了API，那麼就可以直接GET到它的json數據。有三種方法可以判斷一個網站是否開放了API。

1、在站內尋找API入口；

2、用搜索引擎搜索「某網站API」；

3、抓包。有的網站雖然用到了ajax，但是通過抓包還是能夠獲取XHR里的json數據的（可用抓包工具抓包，也可以通過瀏覽器按F12抓包：F12-Network-F5刷新）。

二、不開放API的網站

1、如果網站是靜態頁面，那麼可以用requests庫發送請求，再通過HTML解析庫（lxml、parsel等）來解析響應的text；解析庫強烈推薦parsel，不僅語法和css選擇器類似，而且速度也挺快，Scrapy用的就是它。

2、如果網站是動態頁面，可以先用selenium來渲染JS，再用HTML解析庫來解析driver的page_source。

⑵ 怎麼判斷網站被百度蜘蛛爬取過了呢

比較簡單直觀判斷的方法，1.是網路快照更新了。
2.是你看新發布的一些文章有沒被網路收錄。
網站日誌則是比較精確的分析方法。

閱讀全文

如何判斷一個網頁是否可以爬取

與如何判斷一個網頁是否可以爬取相關的內容