爬蟲公司網站可以嗎_通過爬蟲採集網站信息算不算違法行為

『壹』爬蟲違法嗎

法律分析：下列三種情況，爬蟲有可能違法，嚴重的甚至構成犯罪：

爬蟲程序規避網站經營者設置的反爬蟲措施或者破解伺服器防抓取措施，非法獲取相關信息，情節嚴重的，有可能構成「非法獲取計算機信息系統數據罪」。

爬蟲程序干擾被訪問的網站或系統正常運營，後果嚴重的，觸犯刑法，構成「破壞計算機信息系統罪」

爬蟲採集的信息屬於公民個人信息的，有可能構成非法獲取公民個人信息的違法行為，情節嚴重的，有可能構成「侵犯公民個人信息罪」。

法律依據：《中華人民共和國刑法》

第二百八十五條違反國家規定，侵入國家事務、國防建設、尖端科學技術領域的計算機信息系統的，處三年以下有期徒刑或者拘役。

違反國家規定，侵入前款規定以外的計算機信息系統或者採用其他技術手段，獲取該計算機信息系統中存儲、處理或者傳輸的數據，或者對該計算機信息系統實施非法控制，情節嚴重的，處三年以下有期徒刑或者拘役，並處或者單處罰金；情節特別嚴重的，處三年以上七年以下有期徒刑，並處罰金。

提供專門用於侵入、非法控制計算機信息系統的程序、工具，或者明知他人實施侵入、非法控制計算機信息系統的違法犯罪行為而為其提供程序、工具，情節嚴重的，依照前款的規定處罰。

單位犯前三款罪的，對單位判處罰金，並對其直接負責的主管人員和其他直接責任人員，依照各該款的規定處罰。

第二百五十三條之一違反國家有關規定，向他人出售或者提供公民個人信息，情節嚴重的，處三年以下有期徒刑或者拘役，並處或者單處罰金；情節特別嚴重的，處三年以上七年以下有期徒刑，並處罰金。

『貳』使用爬蟲技術中，有什麼限制，意思是爬蟲可以從所有的網路網站網頁，企業，私人，去抓取信息嗎

網路上的公開信息大家都有權利獲取，但並不意味著可以獲取他人隱私，更不能將爬取的信息用於非法途徑，出於學習、研究目的爬取一些企業公開信息是合法的，切記不可利用爬蟲獲取他人未授權的信息，比如你爬取企業網站展示的內容是無可非議的，但是爬取別人的網站後台就屬非法了。別忘了爬蟲學得好，牢飯吃到飽。不要用於非法目的，不要用於非法目的，不要用於非法目的，重要的事說三遍。望採納

『叄』通過爬蟲採集網站信息，算不算違法行為

爬蟲所帶來風險主要體現在以下3個方面：違反網站意願，例如網站採取反爬措施後，強行突破其反爬措施；爬蟲干擾了被訪問網站的正常運營；爬蟲抓取了受到法律保護的特定類型的數據或信息。那麼作為爬蟲開發者，如何在使用爬蟲時避免進局子的厄運呢？嚴格遵守網站設置的robots協議；在規避反爬蟲措施的同時，需要優化自己的代碼，避免干擾被訪問網站的正常運行；在設置抓取策略時，應注意編碼抓取視頻、音樂等可能構成作品的數據，或者針對某些特定網站批量抓取其中的用戶生成內容；在使用、傳播抓取到的信息時，應審查所抓取的內容，如發現屬於用戶的個人信息、隱私或者他人的商業秘密的，應及時停止並刪除。

『肆』爬蟲究竟是合法還是違法的

據說互聯網上 50%以上的流量都是爬蟲創造的，也許你看到很多熱門數據都是爬蟲所創造的，所以可以說無爬蟲就無互聯網的繁榮。

前天寫了一篇文章《只因寫了一段爬蟲，公司200多人被抓！》，講述程序員因寫爬蟲而被刑偵的事件。文章傳播很廣，評論中討論最熱是： 爬蟲究竟是合法還是違法的？

這個話題涉及到我們很多程序員的日常工作，所以有必要和大家細聊一下。

01.技術無罪？

在今年國家頒布 《中華人民共和國網路安全法》 之後，很多以前處於灰色地帶的業務都不能做了。

君不見之前曾經非常火的各種社工庫網站，現在絕大部分都已經消失匿跡了嗎？因為最新的安全法強調： 販賣個人信息超過50條屬於「情節嚴重」，需要追求其法律責任。

很多草根站長都紛紛主動關閉了網站；還有很多涉及版權信息的網站，比如書籍、影視劇、課程等後期也會面臨越來越嚴格的審查，這就是目前大的形勢。

2014年12月20日，人人影視字幕站發布微博稱，人人影視正式關閉，並表示或將繼續為正版商提供翻譯服務，也可能轉變為討論社區的形式。

2019年6月，吾愛破解因版權問題關站整改...

.....

隨著中國經濟的不斷往前走，知識產權問題會越來越重視，非法爬蟲是現在一個重要的打擊部分，

如果有程序員走在灰色的邊緣盡早收手，不要因為一點小的收益導致觸犯法律，從而得不償失。

技術是無罪的，但是用到了錯的地方代價也是非常巨大的。

02.爬蟲崗位人人自危

我在拉鉤上搜索：爬蟲工程師，顯示有 217 條相關招聘信息，薪資從10-60k 都有，說明市場上對爬蟲的需求是很大的。

簡單回答一下這些問題：

還有朋友認為這事責任在企業不在程序員，日常工作中項目初期設計和最後上線需要通過公司的法務批准，所有代碼必須有其他程序員同事評審通過才能提交。

這位朋友說的挺對的，按道理每個公司都應該有法務和風控在前面，後面才是產品設計和程序員開發的事情，但如果一家公司為了利益，老闆可以直接讓這兩個部門閉嘴，後面程序員可以不幹嗎？

更甚至很多公司其實就沒有這兩個部門或者說形同虛設。那麼做為程序員自己也需要操一份心，凡是涉及到入侵類的程序都不能幹，因為有一個東西叫做： 單位犯罪 。

單位犯罪 ，是指公司、企業、事業單位、機關、團體為單位謀取利益，經單位決策機構或者負責人決定實施的，法律規定應當負刑事責任的危害社會的行為。

我國刑法對單位犯罪原則上採取 雙罰制度 ，即單位犯罪的，對單位判處罰金，並 對其直接負責的主管人員和其他直接責任人員判處刑罰。

03.什麼樣的爬蟲是非法的？

爬蟲不能涉及個人隱私！

如果爬蟲程序採集到 公民的姓名、身份證件號碼、通信通訊聯系方式、住址、賬號密碼、財產狀況、行蹤軌跡等個人信息 ，並將之用於非法途徑的，則肯定構成非法獲取公民個人信息的違法行為。

也就是說你爬蟲爬取信息沒有問題，但不能涉及到個人的隱私問題，如果涉及了並且通過非法途徑收益了，那肯定是違法行為。

另外，還有下列 三種情況 ，爬蟲有可能違法，嚴重的甚至構成犯罪：

現在網上有很多付費的課程，比如極客時間、Gitchat、慕課網、知識星球等等，這些付費內部信息如果被非法爬取手法出售獲利，一種違法行為。

之前我就遇到一個網友，把各個知識星球的內容都抓下來，合到一起自己去賣，自作聰明覺得發現了一個大的商機，其實自己不知道這個行為其實很危險，風險和收益明顯不對等。

我這兩天看的時候，他的一個公眾號都被封了，後來又轉移了一個小號繼續搞，遲早又是被封的命運，真的很不值當。最可憐是那些買他服務的用戶，因為他宣傳時承諾永久，肯定永久不了。

04.什麼樣的爬蟲是合法的？

1、遵守 Robots 協議

Robots 協議也叫 robots.txt（統一小寫）是一種存放於網站根目錄下的 ASCII 編碼的文本文件，它通常告訴網路搜索引擎的漫遊器（又稱網路蜘蛛），此網站中的哪些內容是不應被搜索引擎的漫遊器獲取的，哪些是可以被漫遊器獲取的。

Robots 協議就是告訴爬蟲，哪些信息是可以爬取，哪些信息不能被爬取，嚴格按照 Robots 協議爬取網站相關信息一般不會出現太大問題。

2、不能造成對方伺服器癱瘓

但不是說只要遵守 Robots 協議的爬蟲就沒有問題，還涉及到兩個因素，第一不能大規模爬蟲導致對方伺服器癱瘓，這等於網路攻擊。

2019年05月28日國家網信辦發布的《數據安全管理辦法（徵求意見稿）》中，擬通過行政法規的形式，對爬蟲的使用進行限制：

網路運營者採取自動化手段訪問收集網站數據，不得妨礙網站正常運行；此類行為嚴重影響網站運行，如自動化訪問收集流量超過網站日均流量三分之一，網站要求停止自動化訪問收集時，應當停止。

3、不能非法獲利

惡意利用爬蟲技術抓取數據，攫取不正當競爭的優勢，甚至是牟取不法利益的，則可能觸犯法律。實踐中，非法使用爬蟲技術抓取數據而產生的糾紛其實數量並不少，大多是以不正當競爭為由提請訴訟。

舉個例子，如果你把大眾點評上的所有公開信息都抓取了下來，自己復制了一個一模一樣的網站，並且還通過這個網站獲取了大量的利潤，這樣也是有問題的。

一般情況下，爬蟲都是為了企業獲利的，因此需要爬蟲開發者的道德自持和企業經營者的良知才是避免觸碰法律底線的根本所在。

05.最後

有風險的行業謹慎進入，比如現金貸、不合規的P2P、賭博類游戲、黑五類產品的行業。如果公司安排入侵某個網站數據，或者有同事/朋友邀請泄露公司信息的都需要保持警惕，有時候一個很小的動作都有可能導致出問題。

我們絕大多數公司和個人使用的爬蟲都是沒有問題的，不必人人自危，只要把握住不要爬取個人信息，不要利用爬蟲非法獲利，不要爬取網站的付費內容，基本上不會有問題。

程序員是世界上最單純的一批人，也是一批高智商低情商的人，工作是工作但也需要適當保持謹慎，對於一些遊走在法律邊緣的事情請保持距離。

敬畏法律，遵紀守法，從我做起。

參考：https://www.hu.com/question/291554395

作者： 純潔的微笑 .出處：www.ityouknow.com

爬蟲公司網站可以嗎

與爬蟲公司網站可以嗎相關的內容