一文了解AI時代的資料風險(後真相時代、演算法囚徒和權利讓渡)
當今,在基於資料的個性化推薦演算法機制滿足了人們獵奇心、窺探欲、表演慾,讓人們在網路中尋找到共鳴感和認同感時,我們未曾意識到一些新問題和新風險的出現。這些新問題和風險能夠影響個人對世界的認知,影響群體達成共識,甚至影響到整個時代的價值觀。根據清華新聞與傳播學院彭蘭教授的觀點,目前資料時代所面臨的風險來自以下幾個方面:
客觀性資料可能成為後真相時代的另一種推手;
個性化演算法雖然帶來了個人資訊服務水平的提升,但也給人們帶來偏見、歧視、思想被禁錮等困擾;
相關權利保護則受到更多挑戰,特別是在隱私權和被遺忘權方面。
下面,我們將進行詳細解讀。
風險一:大資料帶來的假象
2016年,《牛津英語詞典》將“後真相”(post-truth)作為年度詞彙,揭示世界進入了後真相時代。羅輯思維曾對該名詞做出一個精闢的總結:“過去,我們相信認知源於事實;現在,認知本身就是事實”。
這其中原因,技術自然逃離不了干係。例如谷歌和臉書等公司開發的演算法是基於使用者從前的搜尋和點選進行的,隨著每次搜尋和每次點選,使用者就發現自己的偏見再次得到確認。如今的社交媒體已成為大部分人獲得新聞資訊的主要渠道,其中的推薦演算法機制引導我們進入觀念類似者的小群體空間內,它只為使用者提供他們喜歡、或選擇相信的資訊,是否真實並不重要。
後真相現象提醒我們,資料與演算法這些看上去客觀的手段與方法,並不一定能帶來更多真相,反而可能走向它的反面。如果應用資料的過程不遵守一套完整的規範,或者在資料應用中出現了漏洞而未能察覺,未來我們或許會被更多由貌似客觀的資料堆積成的假象所包圍。根據彭蘭教授的觀點,資料生產的每一個步驟都存在導致假象的風險:
1. 資料樣本偏差帶來的“以偏概全”
儘管已經進入到“大資料”時代,而大資料的賣點之一是“全樣本”,但事實上,在現實中,獲得“全樣本”並不是一件容易的事。
在國內,由於歷史原因,很多行業本身就缺乏完整、系統的資料積累,或者由於隱私、資訊保安等問題,能公開的只有不完整的資料。譬如醫療行業和政府部門,如何打破資訊孤島,在哪種程度範圍內做到公開、透明、共享,依舊是急需攻克的難題。
至於網際網路資料則更是資源緊缺。目前網際網路資料都被少數擁有巨大流量的平臺壟斷,其他中小型企業由於先天資料不足的缺陷,只能依賴於網路爬蟲從這些大平臺爬取資料。此前馬蜂窩被爆1800萬條以上的所謂真實使用者資料是抄襲自其他OTA平臺,暴露了網際網路行業普遍資料造假的潛規則。所以,使用者所看到的對一個酒店或餐廳的好評,並不一定是真實資訊,很有可能由網路機器人爬取而來。如果說資料缺失能夠導致“以偏概全”,資料造假則是直接簡單粗暴地矇蔽使用者了。總之,行業資料可能存在樣本不完整的問題,這也必然對資料分析結果的完整性、代表性產生影響。
2. “髒資料”帶來的汙染
除了樣本的問題外,用各種方式獲取的資料,本身質量也可能存在問題。部分缺失的資料、重複的資料、失效的資料、造假的資料等,都被稱為 “髒資料”。儘管資料處理前都會要求資料清洗,但這未必能完全消除髒資料帶來的汙染。某些資料分析者也可能因為一些原因無視髒資料的存在,甚至會製造一些髒資料。
此前人工智慧對話系統微軟小冰剛上線時,由於她是用實時對話的資料進行訓練的,所以使用者給她一些不好的對話後,導致小冰飆髒話就是資料汙染的很直接例證。不久前,亞馬遜的AI招聘系統被爆出性別歧視也是同樣道理。從技術上講,機器學習過程不會引入任何偏差,但訓練資料中存在的任何偏差都將在演算法中忠實地展現出來。AI的性別歧視,只是成功模仿了亞馬遜當前的招聘狀態。
因此,資料質量永遠是資料分析立項後首先要考慮的。首先要理解資料來源、資料統計和收集邏輯、資料入庫處理邏輯;其次是理解資料在資料倉庫中是如何存放的,欄位型別、小數點位數、取值範圍,規則約束如何定義的;第三是明確資料的取數邏輯,尤其是從資料倉庫中如何用SQL取數的,其中特別是對資料有沒有經過轉換和重新定義;第四是拿到資料後必須要有資料審查的過程,包括資料有效性驗證、取值範圍、空值和異常值處理等。當這些工作都做充足之後才能進行下一步分析。
3. 資料分析模型偏差帶來的方向性錯誤
在美國暢銷書《大規模殺傷數器:大資料如何加深不公和危害民主》中,作者提到現在的資料科學家,習慣用模擬的方式概括人類的行為,以群體畫像推導個人行為,依此判定。這本質上沒有問題,問題出在反饋上:大部分的模型根本沒有矯正的環節,如果模型的結果有偏差,系統本身無從得知,根據錯誤結果持續優化,最終反而變本加厲。此外,作者還認為建立怎樣的資料分析模型取決於我們自己,我們的價值觀、我們的慾望,影響我們種種決策:收集哪些資料,提起什麼樣的問題。所謂的模型,是指內嵌於數學的觀點。
除了以上三個環節可能造成假象外,包括資料探勘能力有限、資料解讀能力有限,都有可能帶來偏差。總之,當今的某些大資料分析在某種意義上就是在分析甚至“製造”人們的視角,然後將符合視角的“事實”推送給他們,雖然推送的“事實”似乎是客觀的,但是,當它們被放置在人們的“視角”下時,就成為了影響主觀判斷和態度的重要手段。
2016年美國總統大選,多家民調機構的預測結果的失敗,讓人們質疑資料的客觀性與準確性。而時隔兩年之後曝出的Facebook資料洩露事件,在某種意義上是對民調結果失靈的一個迴應,儘管我們並不能確定劍橋分析公司對大選結果的干預究竟起了多大作用。這一事件還有著更深層的寓意,它提醒我們面臨的一個新挑戰:一方面,資料分析的目標是追求客觀地描述事物;另一方面,資料分析也可能會成為對客觀事物或客觀程序的干預力量。可以預見的是,未來兩者之間的博弈可能會成為常態。
風險二:資料時代個人所面臨的風險
在大資料時代,從個人角度看,目前資料應用與他們最直接的關聯,是各種具有個性化演算法推薦的應用。但事實上,這種演算法既會對個人視野格局產生影響,也會暴露使用者隱私。
1. 演算法是否會將人們囚禁在資訊繭房中?
“資訊繭房”一詞出自於美國學者桑斯坦,在他看來,資訊繭房意味著人們只聽他們選擇和愉悅他們的東西。
儘管每個人都有自己的閱讀偏好是正常的現象,但如果每個人關注的只是自己興趣內的那一小片天地,他對這以外的世界,就會越來越缺乏瞭解。這或許不會影響到他個人的生活,但是,在需要公共對話的時候,人們會缺乏共同的 “視角”。而共同 “視角”的缺乏,意味著人們對一些事實的判斷會出現差異,共識難以形成。同時,資訊環境的封閉與狹隘,也可能會進一步固化人們的某些觀點與立場。
從面向個人的演算法角度看,要儘可能減少資訊繭房效應,就要在演算法設計時深入理解考慮使用者行為與需求中的矛盾,例如能夠及時預測使用者需求的遷移或擴充套件,或者提供一些慣性之外的資訊,給個體帶來新體驗等。
除了以演算法來完成面向個體的內容推薦,演算法也可以用於公共性內容的匹配,也就是通過演算法洞察公眾的共同心理,使具有公共價值的內容到達更廣的人群,也同樣可能幫助個體掙脫繭房的束縛。
2. 演算法是否會將人們囚禁在偏見與固有的社會結構中?
演算法的另一種風險,是對社會偏見的繼承,以及這些偏見可能帶來的文化或社會禁錮。當演算法用於不當的目的時,會對某些人群或個體造成歧視與傷害。演算法不僅在歸納與“同構”現有文化中存在偏見、歧視,還可能用某種方式將它們放大。譬如此前舉例的亞馬遜AI招聘系統性別歧視一樣,機器的歧視來自於資料的偏差,而資料的偏差來自於人的偏見。
這一點,一些大資料的開發者體會更深,如國內大資料應用領域的代表性學者周濤所言,“讓我們不安的是,這種因為系統設計人員帶來的初始偏見,有可能隨著資料的積累和演算法的運轉慢慢強化放大。”
3. 演算法是否會使人陷入“幸福地被操縱”?
或許,個性化演算法還會帶來另一個深層風險, 那就是在個性化服務下,個體逐漸失去自主判斷與選擇能力,越來越多地被演算法或機器控制。從人的本性來說,懶惰是天然的,想以最小的成本或付出獲得最大的報償,是人之常情,個性化服務在這方面迎合了人性,但是,它也可能正在以方便、幸福的名義,漸漸地使人們對它產生依賴,並在不知不覺中被其麻痺,被其囚禁。
風險三 個人權利的讓渡是資料時代的必然代價?
資料時代對普通個體的另一個深層影響,是個體的全面資料化。在未來,使用者的資料將更為多元,將通過更多渠道生成、儲存,這也意味著使用者資料中暗藏的風險更大,資料權利的保護面臨更大的挑戰。
1. 使用者缺乏對自己資料的知情能力
此前李彥巨集一句“中國人對隱私問題不敏感,願意用隱私換取便利、安全或者效率”的言論讓自己成為眾矢之的。事實上,對於普通使用者而言,並非他們不介意隱私被暴露,而是並不知道自己的隱私會如何被侵犯,以及被侵犯到何種程度。他們與那些掌握並利用甚至可能出賣他們的隱私資料的公司之間是不平等的。在缺乏對自己資料的知情能力的情況下,隱私保護根本無從談起。
雖然在某些時候,以隱私換便利是使用者的一種不得已的選擇,但使用者應該有權利知道,出讓的是哪些隱私資料,能獲取哪些便利,以便他們做出權衡。但今天的網路服務提供者多數並沒有提供充分的解釋,即使有一些隱私條款,也往往語焉不詳或者暗藏陷阱。
2. 使用者資料的邊界問題值得探討
此外,還有使用者資料使用許可權邊界問題。譬如之前第三方公司劍橋分析利用心理測試APP來收集Facebook使用者資料一樣。即使使用者同意向某個服務商提供個人資訊,但服務商是否有權向第三方透露?而第三方是否又可以再次將資料轉手?網路中的資料都是相互關聯的,獲取未經授權的關聯資料是否合法?或許在理論上做出限定是容易的,但在現實中的操作,又並非那麼簡單。
3. 使用者是否應該擁有絕對隱身的權利
再一個事關使用者隱私權的問題是,今天的使用者是否應該擁有一種隱身能力,使自己的資料不被他人獲取或儲存,從而在根本上保護自己。或許,這在國內將很難被執行。譬如人臉識別技術已被廣泛用於街頭巷尾的攝像頭,儘管“天眼”織就“天網”讓罪犯無處可逃,而對於普通個體而言,同樣讓人感覺到這是一種無處不在的監視。
在個體被隨時隨地“數字化”對映的情況下,隱身,也是保護隱私的一個重要方面。雖然在法律上要獨立形成一種“隱身權”或許並不現實(它更有可能是隱私權中的一部分),但至少在技術層面,需要給予使用者更多的“隱身”可能。在物聯網將廣泛應用的未來,隱身許可將變得更為重要。
4. 保護使用者隱私的法律並不能完全保護隱私
在保護使用者隱私的法律方面,2012年歐盟出臺《一般資料保護條例》,稱資訊主體有權要求資訊控制者刪除與其個人相關的資料資訊。該權利被稱為被遺忘及擦除權。在國內,2016年頒佈的《網路安全法》正式確認了個人對其網上個人資訊的“刪除權”:“個人發現網路運營者違反法律、行政法規的規定或者雙方的約定收集、使用其個人資訊的,有權要求網路運營者刪除其個人資訊。”這些都是對數字時代個人資訊的存留風險做出的法律迴應。
不過,目前被遺忘權或刪除權更多地是在學界和法律界被討論,大多數普通人並不知道它的存在。並且,即使有被遺忘權或刪除權,個體也會面臨比以往更多的風險。雖然謹言慎行或許是人們自認為的減少風險的辦法,但在演算法通過若干點贊就可以判斷使用者的性格的情況下,在未來各種感測器可以隨時隨地捕捉人的資料的情況下,被記憶仍會是常態。
以上是對資料與演算法時代可能面臨風險的探討。儘管資料與演算法應用的價值不可否定,但我們需要對資料和演算法應用的失誤或失範有足夠的警惕,也需要增強對抗風險的能力。在國內,由於觀念、基礎條件、規範等方面的障礙,都意味著大資料應用的推進需要時間。任何功利、草率的思維和行為都是對資料應用的損害而非推動。在資料技術的大躍進過程中,我們也需要回歸原點,完成一些基本建設,譬如資料素養的培養、資料資源基礎設施建設、資料質量評估體系建立、資訊倫理規範的約束等。在這個時代,資料、演算法將會成為決定我們生存方式的重要因素。識別、抵抗這其中的種種風險,也應該成為我們生活的一部分,成為各種資料應用機構的基本責任。
責任編輯:陳近梅