1. 程式人生 > >獨家|資料造假、爬蟲與反爬蟲戰爭暴露出哪些行業現狀?

獨家|資料造假、爬蟲與反爬蟲戰爭暴露出哪些行業現狀?

640?wx_fmt=png


一、馬蜂窩“造假門”事件所暴露的行業潛規則


上週,估值據傳已高達25億美元、新一輪融資接近尾聲的明星獨角獸公司馬蜂窩陷入了資料造假醜聞。一個由3名年輕海龜組成不足1年、名不見經傳的乎睿資料把馬蜂窩涉嫌資料造假的行為逐條拎出來在社交媒體上傳播。根據乎睿資料團隊提供的資訊,馬蜂窩2100萬條真實點評中,有1800萬條是通過機器人抄襲自點評、攜程等競爭對手;其在馬蜂窩上發現了7454個抄襲賬號,平均每個賬號從攜程、藝龍、美團、Agoda、Yelp上抄襲搬運了數千條點評,佔到馬蜂窩官網聲稱總點評數的85%。而馬蜂窩則發表宣告稱乎睿資料“歪曲事實”,屬於“有組織攻擊行為”,已起訴該公司並獲得立案。同時,乎睿資料迴應,目前已掌握大量證據,期待法院作出的公正裁決,因為“這個案子最終將決定未來中國二十年的網際網路走向”。

 

640?wx_fmt=png


本次事件的雙方你來我往數個回合,一個認為自己鐵證如山,一個咬定“明顯抹黑”,唯獨真正的“受害者”——被“抄襲”了資料的攜程、去哪兒等企業集體陷入沉默。因為當前資料造假、爬蟲刷屏是司空見慣的行為,已成為網際網路行業的客觀現狀,攜程、去哪兒自身的使用者點評資料來源都難以解釋清楚。目前,案件最終結果尚未定論,但司法界人士認為,馬蜂窩訴乎睿資料的案子具有典型意義。該案件一方面反應了當下企業對於大資料基礎性資源的激烈爭奪,另一方面也暴露出我國在資料權責安全相關的法制法規建設上亟待加強。

 

二、“潛規則”背後的技術:網路爬蟲與反爬蟲


1、網路爬蟲技術


爬蟲最早源於搜尋引擎,它是一種按照一定的規則,自動從網際網路上抓取資訊的程式,又被稱為爬蟲,網路機器人等。按爬蟲功能可以分為網路爬蟲和介面爬蟲,按授權情況可以分為合法爬蟲和惡意爬蟲。如今資料資源越來越珍貴,利用爬蟲技術爬取有價值的資料,成為很多公司彌補自身先天資料短板、提高自身估值的不二選擇。

 

針對此次馬蜂窩事件,很多開發者承認,從其他網站或APP上抓取點評資料非常簡單,在技術上沒有任何難度,隨便一個爬蟲工程師就可以做到。有的開發者說,“不涉及到資料庫,直接爬頁面就行了”、“可以批量處理,通常是機器+人工編輯”。

 

很多人好奇報道中稱馬蜂窩2100萬條“真實點評”中,有1800萬條都是通過機器人從競品網站抄襲過來的,究竟是如何做到的。邦盛科技機器防禦專家在接受媒體採訪時說,目前平臺均是通過網路機器人技術從其他網站爬取資訊,並抄襲到自己的平臺。當前大部分的網路機器人是通過直接發起http請求的方式獲取網頁資源,無js引擎,會進行一定的偽裝,並使用動態IP來躲避反爬蟲措施。隨著網站防護能力的不斷提升,網路爬蟲會逐漸向瀏覽器核心型進化,從而具備執行js的能力,並進一步的擬人化,增加被識別的難度。

 

目前,爬蟲技術已經遍佈網路,並且越是涉及個人切身利益的地方,越是佈滿了爬蟲。

 

640?wx_fmt=png

 

根據之前國外網路安全公司的研究報告,50%左右的網路流量來自網路機器人,遍佈各類網站,包括出行、社交、OTA、電商、招聘、銀行、政府等。


例如出行類中的12306票務資訊被各類搶票軟體瘋狂地爬取,高峰時刻每天的訪問量達到千億次。在社交類中,通過網路爬蟲技術可以指揮一幫網路機器人關注某人的微博、公眾號等,進行點贊、關注或者留言,製造大量的殭屍粉。在電商類中,比如在“比價平臺”“聚合電商”和“返利平臺”等平臺上,當用戶搜尋一個商品時,這類聚合平臺會自動把各個電商的商品都放在你面前供你選擇,同樣利用的是爬蟲技術。


此外,馬蜂窩所在的OTA領域同樣也是爬蟲重災區。某大型網際網路公司運營總監表示,儘管不知道馬蜂窩被指控的刷評行為是否屬實,但業內出現刷評行為的根本原因是出於競爭壓力,是幾家線上旅遊網站出於對UGC(使用者生成內容)市場的爭奪,以及維護平臺活躍度的需要。


一位從事搜尋引擎開發的創業者表示,從其他平臺抓資料的目的,就是為了製造流量很大的假象,但爬蟲抓資料的行為很容易識別,就看資本方盡調的時候是否嚴格。


2、反爬蟲技術


爬蟲與反爬蟲領域,一直是網際網路最激烈的對抗戰場之一。


目前,企業經典的對抗方式大概有幾種:圖片驗證碼、滑塊驗證、封禁 IP、給訪問者增加一些加解密運算,耗費爬蟲的程式資源等等。除了這些小模組,企業還可以通過 WAF(Web 應用防火牆)來防護,WAF的功能就是通過設定一些規則,攔截掉那些不符合規則的請求。


640?wx_fmt=png


不過,隨著爬蟲技術的演進,常規的反爬蟲手段已經無法有效阻止爬蟲的訪問。

 

據安全專家介紹,近年來通過多維度、多層次的檢測,並輔以後端大資料分析來識別網路機器人逐漸興起併成為主流。利用裝置指紋技術從裝置維度定位網路機器人,人機識別技術從操作行為判別機器人點選和自動化點選,而後端大資料實時分析技術可根據長週期數據進行復雜規則決策。綜合以上手段,可有效偵測爬蟲行為,保護網站的資訊資產不被爬取和洩露。

 

此外,人工智慧技術的加入讓這場對抗爬蟲的常規戰逐漸升級為“智慧戰”,而且戰線向雲端轉移。

 

此前,騰訊雲鼎實驗室通過深度學習技術對海量真實惡意爬蟲流量進行分析,認為將 AI 技術引入反爬蟲領域能起到極好的補充效果,將是未來此類對抗領域的趨勢所在。目前,騰訊雲網站管家(WAF)聯合雲鼎實驗室基於海量真實爬蟲流量建立更為通用的爬蟲識別模型,已卓有成效。除了騰訊雲,還有很多其他的雲安全廠商,也開始主推反爬蟲的技術。

 

三、如何解決行業資料造假的普遍現狀?


事實上,任何新技術在引導行業變革時,由於自由發展,最開始都會出現一片亂象。唯有相關法律法規的健全,才會對所有從業者行為有所規範,才會對行業的健康發展保駕護航。

 

目前,國家並沒有一項明確法律條文規定爬蟲刷屏是否違法。不過,由於搜尋引擎的存在,所以爬取已經允許公開的資料應該是合法的。搜尋引擎領域一直遵守的是Robots協議。搜尋引擎的原理是通過一種爬蟲spider程式,自動蒐集網際網路上的網頁並獲取相關資訊。而鑑於網路安全與隱私的考慮,每個網站都會設定自己的Robots協議,來明示搜尋引擎,哪些內容是願意和允許被搜尋引擎收錄的,哪些則不允許。搜尋引擎則會按照Robots協議給予的許可權進行抓取。Robots協議代表了一種契約精神,網際網路企業只有遵守這一規則,才能保證網站及使用者的隱私資料不被侵犯。

 

針對此次馬蜂窩事件,法律專家認為,如果平臺方未經允許把其他平臺的客戶評論扒來進行商業化運營,這顯然是違法行為。

 

一方面,內容的作者是使用者,發表在平臺上就構成了平臺的一部分。大量使用其他平臺未獲授權的內容,而且還有競爭關係,就構成了對其他平臺的侵害,這違反了《反不正當競爭法》的第二條:經營者在生產經營活動中,應當遵循自願、平等、公平、誠信的原則,遵守法律和商業道德。

 

另一方面,釋出大量虛假資訊,誤導消費者,又違反了《消費者權益保護法》中關於消費者知情權的規定。該權益在一般情況下可由消費者協會或者是工商管理部門來代替消費者行使,可以依據相關規定對企業進行查處。

 

另外,我們還能通過類似的事件來發現司法判決的要旨。2016年一審宣判的“大眾點評訴百度案”中,大眾點評以百度公司大量抄襲、複製自己點評資訊的不正當競爭行為,向上海浦東新區法院提起訴訟。

 

根據判決書,法院在百度行為是否具有不正當性的分析中提到,點評資訊是核心資源之一,具有商業價值。“百度未對大眾點評網中的點評資訊作出貢獻,卻在百度地圖和百度知道中大量使用,其行為具有明顯的’搭便車’、’不勞而獲’的特點。”最終判定結果,可想而知是大眾點評勝訴,百度違反公認的商業道德和誠實信用原則,給大眾點評造成了實質損害,構成不正當競爭。2017年,百度的上訴被駁回,維持了原判。

 

回看此次馬蜂窩事件,如果案情最終能促使相關法律法規得以補充完善,該事件確實將如乎睿資料所說的振奮人心:“這個案子最終將決定未來中國二十年的網際網路走向”。

 

四、爬蟲集中所在地,最能反映社會問題


640?wx_fmt=png

640?wx_fmt=png


在這張爬蟲光顧top50公司排行榜裡,除了google、Youtube、ask、亞洲航空這四家企業之外,其他全是中國企業或機關。


細看此圖,我們會非常輕易地找到這些企業或機關上榜原因。或許是因為國內東西地域發展不平衡、城鄉貧富懸殊太大、公共假期設定不合理等諸多原因,讓很多漂泊在外工作的人逢年過節買票回家成為難題,這才把12306推上爬蟲榜第一名;或許是我們的信用體系還不是很完善,騙子和老賴還可以繼續矇騙新人,所以才催生了爬蟲收集法院公告,形成民間信用記錄的服務,於是將“最高人民法院公告查詢”推上第八名;此外,由於良好的醫療資源分佈不均導致的掛號難、看病難問題,催生的黃牛用爬蟲搶號現象問題有多麼嚴峻,也在此表中有所表現。

 

爬蟲是趨利的,而爬蟲覺得有利益的地方,往往是我們不忍提及的隱痛。自不用說那些虛假廣告、衝榜刷量,背後都有爬蟲的影子。當一個行業中所有人都在彼此心照不宣地爬取資料以作商用時,我們無法因此斷言爬蟲技術有罪或者無罪。真正該反省的,或許應該是制度是否合理、價值觀是否正確才對。


640?wx_fmt=png640?wx_fmt=jpeg