隱私被賣你怕不怕?原來是這麼回事
【文/ 觀察者網專欄作者 雲球白丁】
很多使用者都煩惱於網際網路廣告的無孔不入,而且這些廣告不像電視廣告一樣漫無目的,似乎很瞭解使用者的需求。你敢去咖啡館,APP就推薦咖啡豆,你敢跑步健身,APP就推薦運動服裝。這讓很多使用者非常不安,因為從直觀上就可以推斷,自己的隱私被網站或APP獲取了。
事實上,這個問題不僅僅體現在使用者對廣告的感受上,在一些重大場合也開始顯現出威力,比如臉書/劍橋分析資料門事件,歐盟為了迴應這一問題,還通過了GDPR法案(《通用資料保護條例》)。
從產業角度上看,隱私問題並不是那麼簡單。就像中美貿易摩擦,製造業和貿易的鏈條非常長,在全世界範圍內錯綜複雜,很難擊其一點而致命,網際網路廣告和隱私問題同樣存在複雜而漫長的鏈條。
一、使用者行為分析
對於手機APP而言,很多人理解,隱私的風險體現在“許可權”上,原則上講這是沒錯的,大家應該注意不要允許沒必要的許可權。但這不是問題的根本,絕大多數的個人資料來自於使用者行為分析,而使用者行為分析並不需要很多許可權。
使用者行為分析在最簡潔的情況下只需要兩個許可權,首先是上網(總不能不上網,那就不是智慧手機了),其次是讀取手機ID,這是為了標識一個單獨的使用者,每部手機都有一個全球唯一的ID。這裡要注意,使用者行為分析並不想知道持有手機的人究竟是誰,只是想要給手機貼上一個標籤,能夠把這部手機從所有手機中區分出來。
可能有人會問,那麼我是不是可以拒絕APP讀取手機ID?當然可以。但是,首先這很可能導致APP沒辦法用或者很難用,比如每次開啟都要登入;其次,除了為APP開發者增加一點麻煩以外,這沒有任何意義,因為開發者可以在SD卡上做一個標記,取代手機ID用來標識這部手機,當然你也可以禁止APP讀寫SD卡,但如果這樣,99%的APP一定是沒法用了。
然後,個人資料的收集就開始了。理論上來說,你開啟任何一個APP,做的每一個划動、點選、回退甚至看著螢幕讓它停在那裡,都可能會被記錄下來,然後以某種資料格式傳遞到某個伺服器上。這聽起來讓人害怕,但這件事的出發點卻完全是善意的:為了讓APP的使用者體驗更好。
經常碰到這樣的情況,一個朋友說微信很好用,而另一個朋友說,微信多麼難用,要不是大家都用,我才不會用——這樣的爭論是很難有結果的,APP開發者幾乎只有一條路:讓資料說話。如果有一個頁面從來沒有人點進去,那麼它就是沒有必要存在的,如果一個頁面讓大多數人呆了五分鐘,那麼它就是受歡迎的,無論網路上有多少人臭罵這個網頁有多醜。
但是,這種資料分析工作從技術角度看其實是很困難的,對APP公司來說,需要多幾個工程師和資料分析專家(取決於要分析到什麼程度)。大多數APP公司都是小公司,多養哪怕一個人都不容易。這件事情和APP的主要功能並沒有什麼直接關係,而這件事情在不同APP之間反倒是一模一樣的。這意味著,不同APP公司在做這件事情時,實際上是在做重複勞動。
所以,有一種公司脫穎而出,專注於使用者行為分析,通常叫做大資料公司。不過,大資料公司種類很多,專注於使用者行為分析的只是其中一種。
二、第三方大資料公司
這種大資料公司會開發一個SDK,或者叫做外掛,提供給所有APP公司使用。APP公司只要把這個外掛通過一種既定的方式插入到自己的APP中,所有資料收集、資料處理和資料分析工作就都完成了,不需要開發,不需要維護,功能最專業,分析最全面,最關鍵的是還不需要花錢,因為大資料公司提供這種外掛是免費的。
APP公司免費獲得了最專業的服務,可以據此提高APP的使用者體驗,有什麼道理不用呢?這就像所有營業場所都會買空調一樣,而空調居然是免費的。
大資料公司為什麼要免費?因為他們獲得了資料。如果是一個APP公司自己做資料收集和分析功能,限於他們的使用者量很可能不大,他們的資料量也是很小的,除了用於提高使用者體驗並沒有什麼其他用處。但如果有十萬個APP使用了同一家第三方大資料公司的外掛,那這家大資料公司的資料就是海量的了。十萬個APP?對,沒錯,就是十萬個APP,成功的大資料公司提供的外掛,使用者可能還不止這個數字。
這就是說,這個大資料公司獲得資料是跨APP的。它同時知道使用者在不同的APP裡的行為,而這些APP互相之間是絕不知道的。
不過要注意,大資料公司獲得的資料是使用者行為資料而不是APP的業務資料,比如,任何交易資料都是APP的核心商業機密,通常情況下,第三方大資料公司是得不到的。大資料公司可能知道你在肉夾饃頁面待了多久,但不知道你究竟買了沒有,也不知道你花了多少錢買的。
大資料公司知道使用者在肉夾饃頁面待了多久,這只是原始資料,需要進行處理,最重要的過程是把這個行為歸納為一個標籤,比如“肉夾饃”,也可能是“肉食”、“麵食”、“十元~二十元”或者其他什麼標籤。每個大資料公司都有自己的一套資料分析體系,標籤是預先制定好的,可能有幾百種上千種預定的標籤,每種標籤都有若干選項,需要挑一個貼上去。這是很專業的活兒,所以APP公司自己是很難完成的,大資料公司更加專業。
最後的結果就是,這部手機被貼了一個標籤。積累一段時間,這部手機就會被貼上很多標籤,被貼了越多的標籤,這部手機就越鮮活。在大資料領域,這被稱作“使用者畫像”。
需要指出,真正的大公司,比如APP使用者過億的公司,通常不會使用第三方資料分析外掛,因為他們足夠大,有能力自己做事情,同時資料也足夠多,已經可以體現出價值。
三、行業鐵律:資料脫敏
這裡有一個重要概念,叫做“資料脫敏”,在百度百科上,對資料脫敏的解釋是:資料脫敏是指對某些敏感資訊通過脫敏規則進行資料的變形,實現敏感隱私資料的可靠保護。大概意思就是,資料庫中某個條目被貼了很多標籤,但要避免對應到某個實體的人。可以這麼理解,一個內部ID為0000001234的條目被貼上了“肉夾饃”的標籤,但不知道這個人是誰。即使原本知道,也要把敏感資料拋棄,變成不知道。正規的大資料公司一定會這麼做。
這個資料處理過程很複雜,涉及更多的第三方,比如有提供大資料技術平臺的公司,有專門提供資料匯入技術的公司,有專門剔除無效資料的資料清理公司,有專門貼標籤的公司,等等,這是一個很大的產業。舉個例子,大家去搜索一下“大資料平臺”(這是所有一切的技術基礎),就會意識到,大資料是全世界經濟生態,特別是網際網路生態的重要組成部分。
四、豐富的資料來源
有一些初創大資料公司,他們的使用者規模不大,資料也不多,無法變現,怎麼辦呢?除了努力做大以外,他們可以把自己不多的資料賣給頂部公司,只要資料有特點,頂部公司是願意買的,作為自己資料的補充。
資料就這麼多了嗎?不,這只是一個基礎,資料來源還有很多。從APP角度看,還有很多類似資料分析的通用功能需要第三方外掛提供服務,比如地圖定位、訊息推送、語音識別、影象識別、APP防病毒加固、二維碼識別、第三方登入、第三方支付等等,道理都是一樣的:節省APP開發工作量,同時第三方的標準外掛功能更加強大和穩定。但是,所有外掛都會獲得某些資料。
獲得資料並不是這些外掛的核心目標,但擁有了某些資料後,不進行變現在商業上是不合理的。不過,變現並不容易,因為這些資料過於片面和零散。所以有一種可能,如果公司亟需變現,可以把這些資料賣給已經擁有大量資料的大資料公司,大資料公司可能恰恰需要這些片面而零散的資料,使自己的資料更加完整。
資料來源不僅僅限於APP,PC端不用說了,當然也會貢獻很多資料,但還有很多線下的資料。比如有一種東西,叫做資料探針,有很多種類,WIFI探針、藍芽探針、4G探針等等。這些探針通常被佈置在公共場所,當用戶走過,探針會探測到。待了多久、重複了多少次,都是有價值的資料。大家在很多公共場所會使用免費WIFI,這種免費WIFI就起到了探針的作用。使用者獲得了免費上網的便利,也貢獻了到此一遊的資料。
WIFI晶片、藍芽晶片、4G晶片都有全球唯一的ID,能夠標識這個晶片,但同樣不會對應到一個真正的人身上。換句話說,這也都是脫敏資料。這些來源有各種用處,比如為線下商家提供資訊,這是不是老客戶,但同時也存在匯入頂部大資料公司的可能,使大資料公司的資料更加完善。
下一個資料來源是APP公司的伺服器所存放的地方。除非很大的公司,否則伺服器通常不會放在自己公司裡,這個運維要求很高,自己來搞風險很大,所以會採用伺服器託管,放在專門的機房裡,甚至大的APP還需要分散式的伺服器來提高使用者訪問速度,提供這種服務的供應商叫CDN(內容分發網路)。不過,現在的趨勢是直接使用第三方雲服務,不買伺服器了。
託管機房、CDN和雲服務都有一定風險,取決於管理水平。他們本身通常是很負責任的,但是面臨黑客攻擊的問題。大多數黑客有商業目的,有可能在路由器或者交換機上植入病毒,通常會幹三件事:攻擊特定目標、植入廣告和盜取資料。和前面的資料來源不同,這是明確的違法行為,需要非常嚴厲的打擊。
然後就是資料通道,也就是電信運營商。手機和PC上網都離不開電信運營商,電信運營商的資料很多,但通常對資料的使用極其謹慎,也基本不和第三方合作。理論上,運營商的交換機也可能被黑客攻擊而洩露資料,但這種可能性很小。
還有一些原本的資料擁有方,比如政府機構、銀行、醫療機構和線下商業機構,但目前來看,政府機構、銀行和醫療機構的資料被整合的可能性很小,商業機構的資料整合理論上可行,但在實施層面非常困難。而所有資料的整合都有一條行業鐵律:脫敏。
另外,無論哪個環節或哪一個機構,都不能排除一個特例:私人行為倒賣資料。這也是明確的違法行為,就像快遞員洩露地址一樣,和大資料產業或者網際網路廣告產業本身應該做出區隔。
總之,資料來源很多,整合這些資料並使其具有商業價值並不容易。舉個例子,PC資料和手機資料來自兩個裝置,如何進行整合?最簡單的方法當然是通過登入的使用者名稱來判斷,但這不是正當做法,違反脫敏原則。多數情況下,需要其他手段進行對應,比如總在一個WIFI區域網中上網就是一個依據,特別是在家中,只有這兩個裝置的時候。
說到這裡,大家會發現一個基本問題,大資料公司彙集了各種來源的資料,為什麼要進行這種彙集?各種資料本身不能自行變現嗎?實際上,這是大資料的一個特點:在一個足夠大的規模上,這些資料是有價值的,而資料規模不足,很可能完全不靠譜。如果有一千萬人被貼上了“肉夾饃”的標籤,那麼你向這一千萬人投放“肉夾饃”廣告是一個靠譜的事,但如果某一個人被貼上了“肉夾饃”的標籤,被貼錯的可能性是很高的。微信剛剛推出朋友圈廣告的時候,很多人覺得推給自己的廣告莫名其妙,就是這個原因。
筆者的兒子是個高中男生,但他認為自己被貼上了“家庭主婦”的標籤,最近總被推送吸塵器、拖把、掃帚的廣告,他分析原因,很可能因為自己總是點外賣和購買各種食品。
不少人提到手機麥克風偷聽的問題,這不能說完全沒有可能,但如果是這樣,實施者確實做了一個很奇怪的商業決策。語音識別並不是一個門檻很低的技術,即使擁有這門技術,這件事情對手機或者伺服器資源消耗也比較大,在大量語音識別中得到有意義資料的命中率恐怕很低,即使得到資料,準確性也不見得有多高,想想蘋果Siri的準確率就知道了。即使完全不考慮法律和倫理風險,純從商業角度看,這麼做似乎也是很不合算的。
有些情況下,隱私洩露的概念有一些混淆。比如新聞中報道的拖庫事件,是指某個網站或者APP的資料庫洩露,這種資料通常是業務資料,而業務資料是未經脫敏的,可能包含很多敏感的隱私資料,例如使用者名稱和密碼,這種情況是很嚴重的問題。但就網際網路廣告而言,所使用的資料通常是使用者行為資料,是經過脫敏的,兩者有很大不同。
五、廣告投放:另一個鏈條
資料有了之後,下一步是廣告匹配投放的問題,這其實又涉及到另一個產業鏈條,而且同樣是很大的產業。原因很簡單:不是每個公司都能把廣告賣出去。廣告界有自己的遊戲規則,所以有專門的第三方廣告外掛公司,會插入到各種APP中,APP和網站們其實並不知道自己投放了什麼廣告,有時自己也很鬱悶,為什麼我的網站是小清新,卻出現了大叔風格的廣告。
可能很多人已經看出了這裡面一個很大的問題:如果有一個APP,自己有大量使用者,自己有大資料分析能力,自己還有廣告售賣能力(可能是賣給自己的網站使用者),那麼就形成了一個閉環,不需要第三方的幫助就可以非常良性地執行。而小的APP,離開了眾多第三方的幫助,將完全無法競爭。
事實上,這是歐盟GDPR法案在制訂時最糾結的事情:過於嚴格的資料保護(例如禁止任何形式的資料交易)將很容易導致大公司的壟斷,扼殺中小企業的發展之路。
六、結語
筆者認為,國家應就個人資料進行更完善的立法。在此之前,權威專業機構首先應該對個人資料建立分級體系。
簡單來說,可以定義重隱私和輕隱私之類的概念,重隱私絕不可以進行任何形式的轉移,更加不能交易,而輕隱私可以允許轉移和交易。像使用者名稱、密碼、身份證號、電話號碼、聊天記錄之類的資訊毫無疑問屬於重隱私,而使用者瀏覽行為或者出沒地點之類的資訊屬於重隱私還是輕隱私就是需要被討論的話題了。
(作者簡介:從事IT和網際網路行業二十餘年,現為科幻作家,2019年1月出版人工智慧長篇科幻小說《雲球》第一部,首月月銷超過四千冊,微博@雲球白丁。)