「養豬」還是「屠龍」,怎樣才算入行 AI?
各位老鐵都開工了嗎?
新的一年,新的壓力
春節假期也有很多關注了我的新朋友,藉著新朋友們來的機會,想跟大家聊聊資料那些事~~
眾所周知,近兩年來,人工智慧,已經跌入到兩三年前大資料風口上,全民皆“資料科學家”的套路里了。大家都對各種人工智慧的崗位好奇憧憬,但普遍都不瞭解各個崗位具體是做什麼工作的。在這裡給大家打個比喻,雖然不太恰當,但非常形象!!
做演算法是屠龍,仗劍江湖,天外飛仙; 做工程是狩獵,躍馬奔騰,縱酒狂歌;做資料是養豬,每天拌豬食清豬糞,一臉土一身泥。
作為碼農一枚,筆者的工作內容正好在資料這個領域,今天就想聊聊做資料的到底都在幹啥。
工業界直接應用 AI 技術的人員,大致可以分為三個不同角色:演算法、工程,和 資料。
01做資料是在做什麼
對於資料,需要從:i). 具有業務含義的資訊,和ii).用於運算的數字,這兩個角度來對其進行理解和掌握。
1.1 特徵選取:從業務角度區分輸入資料包含的特徵,並認識到這些特徵對結果的貢獻。
- a) 對資料本身和其對應的業務領域有所瞭解。
- b) 能夠根據需要標註資料。
- c) 知道如何從全集中通過劃分特徵子集、加減特徵等方法選取有效特徵集。
1.2 向量空間模型(VSM)構建:瞭解如何將自然語言、圖片等人類日常使用的資訊轉化成演算法可以運算的資料。
- a) 能夠把文字、語音、影象等輸入轉化成演算法所需輸入格式(一般為實數空間的矩陣或向量)。
- b) 能夠根據資訊熵等指標選取有效特徵。
1.3 資料清洗和處理:對直接的業務資料進行篩選並轉換為模型可處理形式。
- a) 能夠運用統計學方法等ETL手段清洗輸入資料。
- b) 能夠對資料進行歸一化(normalization), 正則化(regularization)等標準化操作。
- c) 能夠採用bootstrap等取樣方法處理有限的訓練/測試資料,以達到更好的運算效果。
02資料標註是什麼
此處說得做資料並非資料的清洗和處理——大家可以看到做工程的崗位,有一部分工作內容就是ETL和處理資料。此處說的做資料是指資料標註。
2.1 標註資料的重要性
雖然機器學習中有無監督學習,但在實踐領域被證明有直接作用的,基本上還都是有監督模型。近年來,深度學習在很多應用上取得了巨大的成功,而深度學習的成功,無論是影象、語音、NLP、自動翻譯還是 AlphaGo,恰恰依賴於海量的標註資料。
無論是做 ML 還是 DL 的工程師(演算法&工程),後者有甚,都共同確認一個事實:現階段而言,資料遠比演算法重要。
2.2 資料人工標註的必要性
很多人誤以為 AlphaGo Zero 100:0 大勝 AlphaGo 是無監督學習的勝利。其實,之所以有這樣的結果,恰恰是因為 Zero 利用圍棋嚴格完備而明晰的規則,自己製造出了巨大量的標註資料——這些標註資料的數量遠超其前輩 AlphaGo 的輸入,而且可以隨時造出更多。
圍棋是一個人為定義的在 19x19 點陣範圍內,按完備無二義性規則執行的遊戲,因此計算機程式才能依據規則自動產生標註資料。真實人類世界的事情,基本沒有完全按矩而行無意外的情況。因此,對人類真正有用的模型,還是需要人工標註的訓練資料。
固然,目前有多種技術用以在標註的過程中輔助人工,以減小工作量及降低人工標註比例。但至今沒有能在應用領域完全自動化標註的技術出現。
換言之,在看得見的未來之內,人工標註資料仍然是 AI 落地的必要和主流。
2.3 什麼叫做標註
舉個很簡單的例子說明一下什麼是資料標註:
在開發聊天機器人的時候,我們需要訓練意圖判定和實體識別模型,因此也就需要標註使用者問題的意圖和出現的實體。
這是使用者問題原始資料:“00183 號商品快遞到伊犁郵費多少?”
這樣一句話,很顯然問它的使用者是想知道某一種商品發往某地的郵費。郵費是商品的一個屬性,我們把所有查詢商品屬性的意圖都定義為“商品查詢”。
因此,這樣一句話的意圖是“商品查詢”。其中有包含了幾個實體,分別是商品 Id,目的地和商品屬性。
這句話被標註出來以後,就是下面這個樣子:
[00183]<-{商品Id}號商品快遞到[伊犁]<-{目的地}[郵費]<-{商品屬性}多少?||商品查詢
具體格式不必糾結。核心一點: 標註就是將原始資料內全部或者部分內容,按照業務需求打上定義好的標籤。
03資料標註的日常工作
3.1 資料標註的日常工作
簡單說:資料標註的日常工作就是給各種各樣的資料(文字、影象、視訊、音訊等)打上標籤。
【好訊息】:資料標註工作幾乎沒有門檻。一般任何專業的大學畢業生,甚至更低學歷,都能夠勝任。上手不需要機器學習之類的專業知識。
【壞訊息】:這樣一份工作,是純粹的“髒活累活”,一點都不 cool,起薪也很低。
所以,雖然這是一件誰都能幹的工作,但是恐怕,沒幾個人想幹。
3.2 資料標註的難點
就單個任務而言,資料標註是一項很簡單的工作。它的難點在於資料的整體一致性,以及與業務的集合。
【1】資料一致性是指:所有資料的標註原則都是一樣的。
當資料很多的時候,一致性是相當難以保證的,尤其是在有精標需求的情況下。
如果一份 raw data 由多個人同時標註,就算是反覆宣講標註原則,每個人也都有自己的理解和側重,很難保證一致,很可能一句話在某個人看來是“查詢商品”,而在另一個人看來就是“要求售後”。(即使是將所有資料交給一個人,也可能在不同時間段理解不同。)
出於對資料標註工作的不重視(正好與對演算法的過分重視相映成趣),很多公司外包了資料標註工作。對於資料標註的不一致性,則採取一種暴力解決方案:讓多個人(比如 3 個)同時標註同一份資料,一旦出現不一致,就採用簡單多數法,取最多人一致認定的那種結果(比如 3 個人中兩個都選“查詢商品“,則選定”查詢商品“為最終 label)。
這種方案對於粗標資料還可以起到一定作用,但如果是精標,則往往連多數人一致的情況都難以出現。如果三個人所標結果完全不一樣,那麼這條資料也就失去了標註價值。在現實中,經常會出現同一份資料因為質量過低,被要求重複標註的情況出現,費時費力。
【2】與業務的集合是資料標註面對的另一個挑戰。
這一點在目前還不是很明顯。因為:目前人工智慧的落地點還比較有限,真正的商業化領域也就是語音和影象處理的少數應用;owner 都是大公司,有自己的標註團隊,或者僱傭有長期合作關係的第三方標註公司,標註人員都相對有經驗;業務要求也相對穩定,所需資料標註又相對通用化,普通人都不難理解資料含義和標註原則。
一旦未來人工智慧的落地點在各個領域全面鋪開,很可能需要的是針對具體企業、具體業務,不斷變更的標註需求。
標註這件事情看似容易,但是一旦標註原則有所改變,就要整個重新來過。以前的標註不但不是積累,反而是累贅。如何應對快速變更的業務需求,同步更新標註結果,將是一個在AI真正服務於大眾時全面爆發的問題。偏偏現階段還未引起足夠重視。
04資料標註的職業發展
4.1 資料標註的潛力
就目前而言,資料對模型的影響遠勝於演算法。一群年薪百萬起步的演算法工程師耗費經年的成果,對於模型質量直接的影響甚至比不上一個靠譜標註團隊一兩個月的精心標註。對模型的影響尚且如此,更何況是商業價值。
此時此刻,AI 在風口浪尖,商業企業能承受多少年不掙錢只燒錢?待潮湧過後,行業迴歸理性,模型還是要用來掙錢的。到了那個階段,大小企業不會去算成本收益嗎?他們會意識不到將資源投入資料和演算法的不同產出比嗎?
企業為了創造利潤應用 AI 技術,演算法工程師不是剛需,而資料標註這個人工智慧領域的“勤行”,人工智慧藍領,一定是剛需!一切標註工作的難點和潛藏的風險,也就是這項工作的潛力和從事這項工作未來職業發展的可能性所在。
4.2 資料標註的職業發展
如前所述,資料標註的難點在於:
- 如何根據業務設定標註原則
- 如何快速統一地實現標註原則
同時,和所有門檻低的工種一樣,從事資料標註工作,要面臨如何從極大量基數資質類似的人員中脫穎而出的問題。還有就是如何與越來越多的自動化標註技術共處的問題。
因此,筆者個人建議的資料標註職業提升路徑:經驗+業務+管理。大致步驟為:
- 通過實踐積累資料標註的工作經驗
- 深入理解業務需求並將其體現到資料的標註結果中
- 管理標註團隊達到高效的標註結果與業務變更align
未來也許會出現一個“資料經理”之類稱謂的職位:其職責以負責提供高質量標註資料為基礎,技術上銜接工程領域的 ETL 和資料處理,產品上對接業務,帶領團隊為公司產品或服務的 revenue 提供直接貢獻。
05認清形勢,腳踏實地
來總結一下,近來一段時間,根據在公眾號諮詢我的朋友們,能明顯感到,想入行 AI 的人越來越多,而且增幅越來越大。
為什麼這麼多人想入行AI呢?真的是對電腦科學研究或者擴充套件人類智慧抱著無限的熱忱嗎?說白了,大多數人是為了高薪。人們為了獲得更高的回報而做出選擇、努力工作,原本是非常正當的事情。
關鍵在於,找對路徑。而我們做資料的也算是近水樓臺先得月了,可能相比其他的技術人員,入行 AI 更容易一些,學一學人工智慧的基礎知識,例如機器學習、深度學習等。瞭解不同層次人才定位,並結合自己實際尋找一條可行之路。
新的一年,新的 flag
給大家推薦一個入行 AI 的訓練營課程 《21 天入門機器學習》 ,改變,從挑戰 21 天技能升級開始。想參加的老鐵們可以掃碼瞭解一下詳細內容
微信掃描二維碼檢視詳情

訓練營導師介紹
李燁,微軟(Microsoft)高階軟體工程師,曾在易安信(EMC)和太陽微系統(Sun Microsystems)任軟體工程師。先後參與聊天機器人、大資料分析平臺等專案的開發。
關於課程的其他介紹及報名方式
1. 開營時間:3 月 1 日開營。
2. 學習形式:圖文課程內容 + 打卡學習+課後練習題 + 實踐專案+助教監督提醒+獎學金助學。
3. 訓練營名額:限額 200 人。
3. 訓練營價格:前 200 名特價 399 元。
4. 報名後如何參加學習:報名成功後加助教-「夢夢」微信,提交購買截圖,助教會拉你進學習訓練營社群。
5. 購買疑問請諮詢:訓練營小助手微信(gitchat2018)
