1. 程式人生 > >爬蟲入門到放棄系列04:我對錢沒有興趣

爬蟲入門到放棄系列04:我對錢沒有興趣

## 前言 我們身處大資料時代,資料趨於透明化、公開化,我們是否就可以拿著資料為所欲為?幾年前很多人嚮往著"車釐子自由",同樣在也有很多人也追求著技術自由。時至今日,我們可以在合法的範圍內自由應用技術,那麼對於爬蟲的合法化,到底有哪些的法律可以來界定? 在很長的一段時間內,很多人談爬蟲色變,同時很多調侃爬蟲的段子也應運而生。 ![](https://img-blog.csdnimg.cn/2021022213512923.jpg) 因為興趣學習了爬蟲,後來也承擔下了爬蟲開發的工作。我也是被調侃大軍中一員,甚至有一段時間我也都有點不敢開發爬蟲了,現在想想,有點盲目了... 所以本篇文章著重於這一方面來展開,畢竟克服恐懼最好的方法就是去了解它。 ## 法律條文 我曾經跨過山和大海,也穿過人山人... 經過我的百度,發現和爬蟲直接相關的法律條文就只有兩條: ![](https://img-blog.csdnimg.cn/20210207181810941.jpg) 從上圖可以看出,在上述法律中只要爬蟲程式不破壞別人的伺服器、不影響網站正常執行即可,一般通過限制請求的頻率和執行緒數量就可以避開這個雷區。但是,往往最簡單的問題都會伴隨著一個經典案例。 2019年,某網際網路公司200人因為一段爬蟲程式被抓的訊息傳得沸沸揚揚,起因是一技術小哥對爬蟲程式沒有限制請求頻率、並增加了執行緒數後進行測試,下班忘了停止程式,大半夜導致目標網站的伺服器宕機了,然後被順著網線找到了... 當然,最後200人大多數都沒事,技術小哥承擔了主要責任,而一開始技術小哥由於缺乏這一方面的法律認知,抱著"技術無罪"的心態,導致這個事情走向了極壞的結果。 ![](https://img-blog.csdnimg.cn/20210222144649721.gif) 從這個案例可以明白,限制請求頻率是多麼重要!!正如我前面文章所寫,開發爬蟲要不僅要考慮本身程式效能,更要考慮網站使用者數量級對應的網站伺服器規模和效能,有的網站的伺服器可能只有一臺,還是服務共用的。 除了上述的法律規定了爬蟲開發規範,是否還有其他的法律可以間接影響著爬蟲的應用。 ## 案例分析 ### 非法侵入計算機資訊系統罪 >《刑法》第二百八十六條還規定,違反國家規定,對計算機資訊系統功能進行刪除、修改、增加、干擾,造成計算機資訊系統不能正常執行,後果嚴重的,構成犯罪,處五年以下有期徒刑或者拘役;後果特別嚴重的,處五年以上有期徒刑。而違反國家規定,對計算機資訊系統中儲存、處理或者傳輸的資料和應用程式進行刪除、修改、增加的操作,後果嚴重的,也構成犯罪,依照前款的規定處罰。 非法入侵系統,這不是黑客的工作麼,這個和爬蟲程式有啥關係,爬蟲又不能進入到後臺系統?網站的反爬技術一般是通過引數加密等手段,類似於作業系統的密碼,以此來阻止爬蟲獲取資料,在廣義上爬蟲破解反爬技術也算是非法入侵的一種。而爬蟲衍生出來的產業:驗證碼識別服務販賣、SEO,如果為不法分子提供了相關的服務,同樣也算是非法入侵。 經典案例: 1. 知乎某極驗破解者自述被抓 2. 永嘉警方揪出“黑”百度黑客團伙 干擾搜尋引擎牟利超七千萬元 3. “快啊答題”AI破解驗證碼服務開發者被判刑 ![](https://img-blog.csdnimg.cn/20210222154738943.jpg) ### 侵犯公民個人資訊罪 >《刑法》修正案(九)中將刑法第二百五十三條進行了修訂,明確規定違反國家有關規定,向他人出售或者提供公民個人資訊,情節嚴重的,構成犯罪;在未經使用者許可的情況下,非法獲取使用者的個人資訊,情節嚴重的也將構成“侵犯公民個人資訊罪”。 根據《最高人民法院 最高人民檢察院關於辦理侵犯公民個人資訊刑事案件適用法律若干問題的解釋》第五條規定,對“情節嚴重”的解釋,(1)非法獲取、出售或者提供行蹤軌跡資訊、通訊內容、徵信資訊、財產資訊五十條以上的;(2)非法獲取、出售或者提供住宿資訊、通訊記錄、健康生理資訊、交易資訊等其他可能影響人身、財產安全的公民個人資訊五百條以上的;(3)非法獲取、出售或者提供第三項、第四項規定以外的公民個人資訊五千條以上的便構成“侵犯公民個人資訊罪”所要求的“情節嚴重”。 **個人資訊資料是萬萬碰不得的**。非法獲取和出售個人資訊和隱私資料至少三年起步。 經典案例: 1. 簡歷大資料公司“巧達科技”被一鍋端 2. 社保掌上通被下架 使用者的資訊很容易洩露太不安全了 3. 爬蟲為何受關注?業內:大資料服務商或因合作方涉套路貸犯罪而被牽連 4. 中數智匯員工私下販賣工商資料被判刑 ![](https://img-blog.csdnimg.cn/20210222154737706.jpg) ### 侵犯商業祕密罪 >《反不正當競爭法》第九條,以不正當手段獲取他人商業祕密的行為即已經構成侵犯商業祕密。而後續如果進一步利用,或者公開該等資訊,則構成對他人商業祕密的披露和使用,同樣構成對權利人的商業祕密的侵犯。 利用無版權的商業資料獲利或者獲取同行業資料進行非法競爭,都會觸及法律紅線。 經典案例: 1. “車來了”涉嫌偷資料被警方立案 ![](https://img-blog.csdnimg.cn/20210222165532209.jpg) 2. 裁判文書網資料竟被售賣:爬蟲程式抓取或成侵權 案例部分參考:[https://github.com/HiddenStrawberry/Crawler_Illegal_Cases_In_China](https://github.com/HiddenStrawberry/Crawler_Illegal_Cases_In_China) ## 爬蟲還能開發嗎 看到這,有點慌。都這樣了,爬蟲還能開發麼,一不小心就踩到紅線了。縱觀上面的各個案例,都有一個共同點:錢!!!雖然我們沒有馬老師的財富,但只要有馬老師對錢的態度,基本上就避開了很多問題。 ![在這裡插入圖片描述](https://img-blog.csdnimg.cn/20210219191545215.gif) 其次,現在公開的資料佔了絕大部分,爬蟲能合法獲取的資料很多,而且有反爬技術的網站基本上是為了保證資料價值或避免商業競爭,例如天眼查、智聯招聘等網站,絕大多數網站都沒有反爬措施,只要控制好請求頻率,基本足夠滿足日常需求。 *那麼在個人日常工作中如何能合法的開發爬蟲?* ## 合法開發爬蟲 我認為爬蟲是一種技術愛好,以此來提高資料收集的效率、簡化工作,而不是賺錢的手段。幫別人開發爬蟲,別人非法使用,追根溯源和開發者脫不了關係。用爬取的資料進行牟利,在利益鏈上誰也不能保證可以獨善其身。 當然,很多網站對爬蟲還是很友好的,所以也需要我們抱著同樣的態度去開發爬蟲。 ![](https://img-blog.csdnimg.cn/2021022216085080.jpg) ### robots.txt 大部分網站的根路徑下都會有robots.txt這個檔案,裡面記錄了爬蟲的訪問規則,例如哪個url不能爬取、禁止哪個爬蟲爬取。 騰訊視訊https://v.qq.com/robots.txt: ![](https://img-blog.csdnimg.cn/20210222163025729.png) 這個就是騰訊視訊規則,一個UA可以對應多個規則,\*表示是所有爬蟲。Disallow為空表示可以允許所有爬蟲訪問任何url,這足夠友好了吧。 再看其他網站的規則: ![](https://img-blog.csdnimg.cn/20210222165717138.png) Disallow: /user表示所有爬蟲不允許爬取根路徑下user開頭的url。 ![](https://img-blog.csdnimg.cn/20210222163548827.png) Disallow:/表示UA代表的爬蟲不能爬取此網站所有頁面。 ### 破解程式碼傳播 如果對某些網站的反爬技術感興趣,可以從技術愛好角度研究一下,但是不要進行程式碼傳播或者介面開放,更不要以此牟利,避免影響網站的正常運轉。 ## 結語 ![](https://img-blog.csdnimg.cn/20210222172008611.jpg) 下一篇將寫一下爬蟲模組設計,期待下一次相遇。
--- 寫的都是日常工作中的親身實踐,處於自己的角度從0寫到1,保證能夠真正讓大家看懂。 文章會在公眾號 [**入門到放棄之路**] 首發,期待你的關注。 ![公眾號](https://img-blog.csdnimg.cn/2020121714585