1. 程式人生 > >Python爬蟲的法律邊界(二)小爬怡情,大爬over!

Python爬蟲的法律邊界(二)小爬怡情,大爬over!

view 去年 大眾點評 項目 工具 挖掘 web服務器 多網站 use

技術分享圖片

數據抓取的門檻越來越低,會點程序,或使用網絡工具都可以薅點數據,新入行了不少爬蟲選手,但是對抓取使用數據的法律風險可能缺少認識。尤其是從去年的《網絡安全法》實施開始,被新聞公開報道的相關法律訴訟已有好幾起。

有人會爭議互聯網本質是鼓勵分享,很多UGC的網站內容還是用戶貢獻的,網絡公開數據應該都可以使用。

我也希望是這樣,但現實不是這樣。

所以抓取數據前你最好看下被抓對象的知識產權申明,如果你是公司職員也關心下公司讓你抓取數據的用途,多少了解下潛在風險。

以下是幾個典型的爬蟲選手愛光顧的網站知識產權申明。

技術分享圖片

經常抓點評數據的小哥們看下,上述是點評網的知識產權申明:用戶發布的商店點評,評論,圖片知識產權屬於大眾點評,未經許可,任何使用都是非法。

技術分享圖片

上述是微博的申明,未經書面許可,任何抓取微博內容都是非法抓取。爬蟲老哥們有哪一個沒抓過微博的?

技術分享圖片

上述是窮遊網的知識產品申明,用戶發布的旅遊攻略所有權是窮遊網的。

上述是比較典型的幾個UGC網站,做點評的,做社交的,做攻略的。創業公司數據冷啟動時,有幾個沒有抓過他們家的數據?

這個潛在風險是存在的,就看你有沒被對方頂上。

以下是幾個法院判決案例:

技術分享圖片

大眾點評訴訟百度地圖非法使用點評數據,百度敗訴,賠錢。

技術分享圖片

來自網易新聞

酷米客狀告車來了非法抓取他家的公交信息,車來了敗訴,車來了老板被三年刑期緩刑。

技術分享圖片

來自金融界百家號

新三板上市公司“數據堂”,公司業務是數據標註和數據交易,他家也是大量抓取數據。後涉嫌倒賣用戶數據,公司高管被起訴。

從上面可以看出:

大公司鬥法輸了賠錢,小公司輸了是人身自由。

還是那句,爬蟲有風險,開爬要謹慎。

什麽樣的行為容易踩雷:

  • 雙方業務是競爭關系,比如:上述酷米客和車來了都是提供公交信息查詢。
  • 有商業利益關系。比如:上述點評網和百度地圖。

  • 涉及用戶隱私。

  • 你的爬蟲擾亂了對方的業務,遭對方狠,比如前一篇所講的刷搜索引擎排名。

法院的定罪依據條例有哪些:

  • 《刑法》第285條,非法獲取計算機信息系統數據罪。
    最高處七年有期徒刑。比如 上述車來了案例。
  • 《刑法》第286條,破壞計算機信息系統罪。
    最高處五年以上。比如為了抓取數據,破解登陸密碼,反編譯APP。

  • 《網絡安全法》,倒賣隱私數據鏈條上的一環。
    你把抓取的數據倒賣給壞人,壞人拿數據做了壞事,你就是這其中一環。

以下是一些引起爭議的話題,我以問答對的形式展開。

問:百度,谷歌是世界最大的爬蟲工廠,他們為什麽沒遭殃呢?

答:這涉及商業利益,用戶在搜索引擎點擊鏈接後,流量會引回被抓取網站,某方面來說是一個雙贏。對方沒被必要去搞百度。

谷歌在歐洲其實遇到了一些問題,歐洲一些新聞媒體認為谷歌抓取他們的內容,谷歌應該向他們支付費用。

今日頭條之前把抓取的新聞內容留在自己網站上,而不是跳轉回對方網站,這其實是違法的,所以也遭遇了十幾起的訴訟,這主要還是商業利益問題。現在內容創業你抓取的內容,最好只提供摘要,全文鏈接要跳回對方網站。

問:公司讓我抓的,跟我沒關系?

答:錯!上圖。

技術分享圖片

《刑法》第285條解釋,對公司處罰金,直接主管和直接人員也game over。

所以公司的損失是錢,你和項目主管的損失可能是人身自由。

問:互聯網是公開的,UGC內容為什麽不能用?

答:上面說UGC網站的知識產權已經申明清楚了,而我們在註冊這些網站賬號時,你也就默認認可了這個協議,這是受法律認可的。

問:robots.txt能限制爬蟲嗎?

答:不能。那只是一個不成文的約定,一沒有法律效應,二也沒有強制作用。道德感強點的也許會遵守robots.txt規定。就算你在robots.txt裏寫明了不允許搜索引擎爬蟲抓取,搜索公司照樣若如無人之地來光顧你的網站。

而且,現在一些搜索公司的爬蟲已經不會把user-agent都寫成Spider字樣了,有的user-agent都是正常瀏覽器的頭信息,有興趣的,可以看下你家網站web服務器的訪問日誌IP記錄。

問:提供爬蟲工具的有風險嗎?

答:有!上圖。

技術分享圖片

還是《刑法》第285條,提供工具的,一樣有上述風險。比如網絡上某某爬蟲軟件,可以直接幫助抓取很多網站數據,萬一使用數據的人幹出驚天大案,這有連帶責任。

但上述都是商業公司的商業競爭行為,相互鬥法,個人爬蟲愛好者的風險較小。但隨著數據安全,網絡安全,用戶隱私方面的法律越來越健全,很容易踩雷。

但你要遵守一個規則:小爬怡情,大爬over。

還是那句:不要直接商用抓取的數據,不要涉及用戶隱私數據,

在老板讓你抓數據前,先把這篇文章留給他看下。

註:所寫文章的初衷是希望爬蟲選手們了解抓取和運用數據的潛在風險。

註:若你涉及相關上述法律問題,請咨詢專業的知識產權律師,上文不是專業建議。

如果你依然在編程的世界裏迷茫,不知道自己的未來規劃,可以加入我們的Python學習扣qun:784758214,看看前輩們是如何學習的!交流經驗!
自己是一名高級python開發工程師,從基礎的python腳本到web開發、爬蟲、django、人工智能、數據挖掘等,零基礎到項目實戰的資料都有整理。
送給每一位python的小夥伴!分享一些學習的方法和需要註意的小細節,這裏是python學習者聚集地

點擊:python技術分享

Python爬蟲的法律邊界(二)小爬怡情,大爬over!