1. 程式人生 > >大資料折射演算法“歧視”?王思聰微博抽獎113位,僅有一位男性

大資料折射演算法“歧視”?王思聰微博抽獎113位,僅有一位男性

IG奪冠的喜訊讓網際網路沸騰,玩家們奔走相告,競相慶祝。作為IG戰隊老闆的王思聰隨即在微博抽獎,隨機抽113位使用者每人發放一萬元現金為獎勵。

 

可是抽獎結果出乎意料,獲獎名單中有112名女性獲獎者和1名男性獲獎者,女性獲獎者比率是男性的112倍;然而根據官方資料顯示,在本次抽獎中,所有參與使用者的男女比率是1:1.2,性別比並不存在懸殊差異。

 

(獲獎者名單,來源自微博@夜的咖啡)

 

於是不少網友開始質疑微博的抽獎演算法,甚至有使用者主動測試抽獎演算法,將獲獎人數設定大於參與人數,發現依然有大量使用者無法獲獎。

 

這些無法獲獎的使用者很有可能已經被抽獎演算法判斷為“機器人”,在未來的任何抽獎活動中都可能都沒有了中獎的機會。網友們紛紛開始測算自己是否為“垃圾使用者”,微博的“演算法事件”一時滿城風雨。

 

這已經不是第一次人們質疑演算法背後的“公正性”。在大資料時代,人類會有越來越多的利益分配和大資料直接相關;誰都不想在求職中被大資料自動判斷為“缺乏競爭力的求職者”或者在法庭審判上被大資料抓進監獄。

 

然而事實卻是,在演算法決策的“黑匣子”面前,人類無法瞭解到演算法的決策過程,而只能夠了解到結果。

 

縱觀近幾年,眾多科技公司的演算法都被檢測出歧視,谷歌的搜尋演算法將黑人標記為“大猩猩”;微軟公司的人工智慧聊天機器人Tay出乎意料的被“教”成了一個集反猶太人、性別歧視、種族歧視等於一身的“不良少女”……這些事件都引起了軒然大波,並且最終也導致了演算法被叫停。

 

為什麼大資料演算法會歧視?上樑不正下樑歪

 

在計算機領域,有一句非常有名的縮寫是GIGO(Garbage in, Garbage Out),翻譯過來就是說,輸入的如果是垃圾資料,那麼輸出的也將會是垃圾資料。而在大資料領域也有類似的說法,《自然》雜誌曾用BIBO表示Bias In, Bias Out,也就是說偏見進,偏見出。

 

 

大資料可以理解成是社會的明鏡,能夠折射出人類社會中意識到的和沒意識到的偏見;如果整個社會對某少數族裔或者性別有偏見,那麼大資料也將在結果中展現出這種偏見。

 

亞馬遜公司曾經在2014年開發了一套“演算法篩選系統”來幫助亞馬遜在招聘的時候篩選簡歷,開發小組開發出了500個模型,同時教演算法識別50000個曾經在簡歷中出現的術語讓演算法學習在不同能力分配的權重,但是久而久之,開發團隊發現演算法對男性應聘者有著明顯的偏好,當演算法識別出“女性”(women and women’s)相關詞彙的時候,便會給簡歷相對較低的分數,比如,女子足球俱樂部等;演算法甚至會直接給來自於兩所女校的學生降級。

 

這個演算法最終被路透社曝光,而亞馬遜公司也停止了演算法的開發和使用,但是為什麼看似人畜無害的演算法會變壞呢?

 

亞馬遜全球員工構成

 

通過上圖不難發現,亞馬遜公司的整體員工構成以男性為主,而從路透社整理的自2017年起這些公司公佈的資料中得知,像谷歌、蘋果、微軟、Facebook這些公司,整體上男性佔了2/3,而單獨挑出技術崗位,男性比例則達到了將近4/5。

 

亞馬遜用來訓練演算法的“老師(簡歷資料)”本身就帶有很強的性別偏好,而年幼無知的演算法則只能邯鄲學步,從以往的簡歷資料學習,自然而然就學到了這個偏好,演算法清楚的將網際網路產業的性別偏好擺在了檯面上。

 

也就是說,演算法的歧視是從人類社會學來的。

 

資料不夠,沒法湊

 

現行演算法中很難存在絕對公平。

 

眾所周知的是,當演算法學習的資料量越大時,演算法的錯誤會越少,而且結果會越趨向於精準。就算人類能夠開發出一套篩選系統排除帶偏見的資料,將不帶偏見的資料輸入演算法中給演算法學習,演算法也無法達到絕對公平。

 

因為非主流總是擁有更少的資料,而主流永遠擁有更多的資料;所以當兩套演算法相比較的時候,資料少的一方的錯誤會更多,而資料多的一方錯誤會更少,久而久之,兩套演算法之間的還是會拉開差距。

 

舉個例子,如果你加入IG,同時訓練兩款遊戲,CS1.6和英雄聯盟,而你在此之前從沒有涉獵過相似的遊戲。在加入訓練之後,每天讓你在完全相同的心理和生理狀態下玩3個小時的CS1.6和3個小時的英雄聯盟,剩下的時間吃飯睡覺,如果其他條件相同的情況下,你玩這兩個遊戲的水平應該是以相同的速度穩步提升。

 

 

但是實際情況是,CS1.6這款遊戲已經過時,玩CS1.6的人很少,你只能通過和少數玩家一起對戰,在對戰中提升水平,學習到的地圖槍法相對固定,無法準確的衡量自己的水平提高的程度,並且玩家數量的缺乏讓你的水平在有限範圍內提高,容易達到瓶頸。

 

但英雄聯盟就不同,它是一款非常火爆的遊戲,每天有無數的玩家能夠和你對戰,在每次對戰中你都能夠學到最新的戰法,對英雄的熟練程度穩步提高,並且足夠數量的玩家能夠形成訓練梯隊,在對戰中能夠你能夠清楚的瞭解到自己的水平提升情況;而且永遠能夠遇到比自己強的玩家。久而久之,雖然每天都是花相同的時間玩兩款遊戲,但是水平卻會產生巨大的差距。

 

 

現行演算法中沒有任何演算法的準確率和公正率是百分之百的,這是一個演算法學習領域暫時還未能解決的問題。

 

在不遠的未來可能有依靠少量資料學習的演算法,但是當演算法被應用到現實中的時候,演算法還是有可能會根據實際情況調整偏好,傾向於主流人群。

 

不能向“演算法歧視”低頭,公平是每個人的事

 

不公平的演算法帶來的歧視是無形、不易察覺而又影響深遠的,這種歧視影響到演算法控制的所有領域。

 

如果不是本次懸殊的抽獎比率的差距,很少有人會意識到自己已經被劃歸為機器人,而被標記為機器人之後,少數群體也就被演算法完全孤立了,在一個本來可以廣泛參與的社交軟體中,少數群體成為了旁觀者,所有的抽獎活動都與他們無關,而且他們不知道如何消除自己身上的標籤,久而久之,如果沒有人關注並且發聲,少數群體只能選擇離開這個平臺。

 

 

關於如何解決演算法歧視問題,科技界眾說紛紜,有人曾提出演算法要公正透明,能夠讓公眾監督演算法,但是演算法不屬於每一個人都有能力和願意去監督的,它有其專業性的壁壘。現在已經有不少的科學家在努力開發出一套“公平公正”的算法系統,演算法的未來可期。

 

然而不容置疑的是科技公司以及組織不應該將“帶有明顯歧視性質的演算法”在不經測試之下應用到現實情景中。

 

如果要將演算法應用到更廣泛的領域,就需要根據各行各業的情況定製演算法並且對不同情況下的公平進行合理的定義,以保證人類社會中的法律規則、制度以及司法決策行為受到程式正義(Procedural Justice)和正當程式約束。

 

而在未來的演算法開發過程中應該對演算法開發者進行適當的“演算法倫理”教育,並且確定一些演算法的“基本準則”,如同“機器人永不能傷害人類一樣”。

我自己是一名大資料架構師,目前辭職在做線上教育大資料講師,每天都會直播分享免費公開課,大家可以加群參加。以及我自己整理了一套最新的大資料學習系統教程,包括Hadoop,資料探勘,資料分析。送給正在學習大資料的小夥伴!這裡是大資料學習者聚集地,歡迎初學和進階中的小夥伴!加QQ群:584900118