1. 程式人生 > >機器學習的路徑和職業規劃(轉)--作為學習過程的參考

機器學習的路徑和職業規劃(轉)--作為學習過程的參考

一、這個小冊子要寫什麼東西(關於哪些方面的問題進行思考和探討)

第一部分內容,機器學習由基礎到高階,由簡單到應用,由理論到應用有哪些資源。如果要學習的話,可以選擇從什麼樣的起點按照什麼樣的路線前進。

第二部分內容,機器學習相關的工作崗位有哪些?什麼樣的行業裡的什麼樣的公司,在應用機器學習解決什麼問題?設定了大概什麼樣的崗位?這些崗位的工作內容是什麼,這些崗位未來有什麼樣的出路,怎麼樣才能順利的應聘到這些崗位?

二、為什麼要寫這個小冊子

我生於七十年代,在我的求學生涯中最令我激動的是中學時候學習的梁啟超先生的《少年中國說》,寫的激情澎湃,大概的意思是少年強大了國家才能強大,印象中花了很大的力氣,用了大量的氣壯山河的語句來描述國家強大是一件多麼美好的事情,但是就是沒有說什麼叫做少年強大?怎麼才能做到少年強大?

後來大學畢業了,開始儘量看一些有思考的人寫的東西,甚至是書信原稿。後來就看了蔡元培的書信稿。我原來一直以為蔡元培就是當過北大的校長,然後後來在國民黨政府裡任職,五四運動的時候是北大的校長。只知道這麼多。

後來看一本蔡元培自傳,裡邊有大量的蔡元培的書信和日記之類的東西。才知道蔡元培是反對五四運動的,蔡元培當時的觀點是“唯有學生認真學習,工人認真工作,科技發達了,人民體魄發達,才有能力去地域外敵,人民生活才能幸福。”再往前看,原來蔡元培先生早年是一個憤青,是文藝青年,相比五四運動的那些砸幾個官員的學生來說,簡直就是鼻祖。

蔡元培先生早年留學歐洲,給我印象最深的倆件事情,一個是思考為什麼歐洲的青年身體簡況,笑臉如花?蔡元培先生有了自己的答案,認為是藝術,體育和思考,讓這些人不僅是物質條件上要比我們國家好很多,而且精神上很開心。蔡元培先生不論是在北京大學工作,還是後來去教育部工作,都是在實現這個理想。甚至具體到我國小學生在缺乏體育器械的情況下,如果通過遊戲強健身體,增加和人的交往這樣的細節問題都要進行考慮。

蔡元培先生做的第二件事情是學習製造炸彈,要炸死不遵守憲法的袁世凱。蔡元培的一個好朋友和蔡元培一起在歐洲學習製造炸彈,不幸實驗失誤身亡;蔡元培認真學習製造炸彈,學到了這個本領,然後在清華西門外去往頤和園的路上埋伏了半個月左右要炸死這個不遵守憲法,說話不算數的人,後來沒有等到,沒有成功。(這個事我沒有繼續追蹤下去,但是我是反對暴力的。除非極端情況下。)(我想蔡老一定是意識到了殺死一個袁世凱,還有無數的想當皇帝的人,所以沒有一直在這個方向上走下去。)

然後,等我到了工作,成家立業的階段,我就看到中國社會有很多的問題,中國和其他國家相比,有很多非常落後的地方,我也曾經想著如何改變這個現狀,最先想到的是通過武力手段,因此我第一份自己選擇的工作是和武力對抗比較接近的一個工作,可以說是“競爭情報”,本來的初衷是通過做競爭情報相關的工作,掌握一些獲取機密的技能,能夠在關鍵的時候力挽狂瀾。

我也同時在思考,作為一個有責任的中國人,該怎麼辦?後來我想到日本的興起,歐美的發達等,以及蘇聯的解體和重新探索新的社會制度。我也想到了泰國的政變,臺灣的民主程序。

也想到了秦暉“中國社會最大的問題是一批身體好的農村青年的存在,這些農村青年沒有受過多少教育,只要給錢,認為殺人也是可以的,這樣的人越多,中國的發展阻力就越大。”

想來想去,我覺得在一個社會,通過辛勤勞動,誠實的為別人提供服務或者產品,從而過上幸福的生活的人越多,社會就越有可能變得好。而屠殺,戰爭只是一種極端的手段,有極大風險的一種手段。

想想毛爺爺當年一再強調的一句話“人民群眾才是決定歷史方向的最重要的力量”,我想潛臺詞就是“如果中國社會上有一大批渴望把地主殺死,然後把田地分了,財產分了,吃幾天好吃的的窮人,我不點這把火,也會有無數的投機分子點這把火。”(這一部分太暴力,三十歲以下的青年覺得勁太大可以忽略。)

而回頭想想日本在明治維新前後就因為學習了西洋,就可以橫行整個亞洲,甚至敢和美國俄羅斯開戰;而蘇聯在堅持了幾十年以後戈爾巴喬夫就說不幹了,不行,走不通,基本上也沒有什麼流血就轉變了軌道;泰國動不動就軍隊接管政府,但是基本上死不了多少人。我想都是和國民的心智相關的,如果大多數老百姓都想吃好喝好,而且不想通過貪汙和殺人來滿足自己對於權力,財產和美色的慾望,那些壞人哪裡有忽悠的空間?

所以,我的想法是,我們這個社會是有很多的問題,但是每個人都坦誠的生活,通過辛苦吃飯,通過奉獻得到回報,不亂丟垃圾,不偷東西,不貪汙;同時影響儘量多的人按照這樣的生活方式生活,這個社會才有希望。

很多人通過學習機器學習的相關知識,創立了偉大的公司;很多人通過學習機器學習相關的知識,掙到了比較多的錢,過著問心無愧的生活,如果能夠讓更多人成為這樣的人,是一件很有意義的事情!

三、適合的閱讀物件和可能的收穫

1、打算從工程轉到資料工作的人。

2、大四,研一,博一前後的學生。

3、剛進入機器學習領域工作,但是看的不夠遠,沒有比較清晰的目標,也沒有提升策略的人。

可能會藉助這個冊子的幫助找到一個職業的目標,開始能夠藉助一些資料向目標前進。

四、作為獵頭的我為什麼要學習機器學習的專業知識

獵頭行業是近年來變動非常大,微博,Linkedin,技術沙龍,競賽,行業會議,內部顧問,內推,拉勾,github,開源,創始人或投資人兼顧招聘,晒內褲。以上各個方面都對獵頭行業有很大的影響。我覺得在這樣的大環境下,獵頭如果繼續按照傳統的Cold call+list+KPI的方式推進的話,獵頭公司的生存空間會越來越小,獵頭顧問的日子會越來越難過。

因此這倆年我在思考如何創新,嘗試如何創新,獵頭顧問專注在一個方向上並且積極的學習一些專業知識,是我創新的一個部分。舉例來說,是想盡量達到這樣的效果。

如果我是幫助企業找餐廳設計(假設包括地板,餐桌,餐具等)的獵頭,那麼我如果能夠對於各個餐廳的設計有很強的評價能力的話,那麼我就能夠更容易的找到那些銷售能力不強的公司裡的設計能力很強的設計師。這個時候有一些專業知識有助於我評價的更好。

如果我是一個幫助收藏公司收購古畫的人,那麼對於各個時代的主要名家的創作特點,以及做舊手段有很深入的瞭解,我才能夠找到真正有價值的古畫。多做,才能學會。

另外一點,我有很強的好奇心。

五、致謝

感謝這幾年我的女兒對我的鼓勵,和對我的熱烈的愛,讓我在不論多麼艱難的情況下都能夠鼓足勇氣向前走。

也非常感謝機器學習讀書會的同學們的指導,鼓勵,支援。雖然有的時候只能到寥寥的四五個人,但是執著的氣氛馬上就能夠讓我因敬佩而產生追趕的勇氣;大多數時候是書本在虐我,但是將近2年的堅持下來,我覺得我還是感受到了很多的奧妙,是非常棒的一個歷程。

第一章機器學習的學習路徑

一、為什麼是列出一堆可以探索的書,而不是要去尋找一條路

機器學習的研究和應用已經有很長的時間了。隨著人類的發展,資料和計算能力都在不斷的增加,因此機器學習這幾年變得異常火熱,很多公司開始部署相關的部門。

常常在各種途徑看到和多人問問題,有沒有什麼好的入門書籍或者資料;也看到一旦有前輩推薦一些好的學習材料的時候,很多人都在積極的下載和學習;機器學習相關的講座也非常的火熱。

從2013年年初,我也開始了機器學習方面的學習,我參加了北京的機器學習讀書會,我不斷的收集各類資料。我也一直在尋找一條既不難,又能持續下去的路,這麼長時間我基本上一直在退縮,最開始李航前輩的《統計學習方法》,後來的《MLAPP》,我都看不懂。後來我又往下走,補充微積分,線性代數和概率的東西。有的時候又耐不住性子,去看PRML。

機器學習的書籍和paper很多,學習機器學習的人各自的基礎以及學習目的不同;常常看到很多前輩給出的一些書單建議,我覺得就我自己來說,給出書單這樣的方式不如給出一大堆書單的方式更好。要給書單,就要對書很瞭解,然後對於學習者的基礎和目的有很好的瞭解,這樣的做法會是快速但是有的時候貼切性不太好的一種辦法。

我的觀點是可以把一大堆經過別人評價的書,放在一起,就象一個兒童的玩具屋一樣,我們適當的把受別的兒童喜愛的東西儘量多準備一些,然後適當的做一下分類,讓孩子自己在這個屋子裡探索,我們的目的是讓他們玩的開心,我們的方式是給他足夠的東西,讓他保持興趣並且能夠走下去,而不是隻給三種大多數兒童很喜歡玩的玩具,讓他去從那些玩具裡獲得樂趣。

二、書籍清單和使用方法建議

1、深長難基礎

A User's Guide to Measure Theoretic Probability

A course in large sample theory

Bayesian Data Analysis 2nd

Introductory Functional Analysis with Applications

Matrix Computations(Golub,VanLoan,Hopkins,3rd Ed)

Monte CarloStatistical Methods

Probability and Random Processes, Geoffrey R. Grimmett, David R. Stirzaker, 3ed, OUP, 2001

Probability-Theoryand Examples

Elements_of_Large-sample_Theory

*Introductory Lectures on Convex Optimization1

*Asymptotic Statistics

*Introduction to Nonparametric Estimation

*Large-Scale_Inference

備註:根據Michael Jordan的建議書單整理。有基本沒有找到電子版的書籍沒有列出來。其中待星號的書籍是Michael Jordan第二次推薦的四本書中的倆本。關於第一批書單和第二批書單的不同,Michael Jordan是這樣描述的“That list was aimed at entering PhD students at Berkeley,who I assume are going to devote many decades of their lives to the field, and who want to get to the research frontier fairly quickly.I would have prepared a rather different list if the target population was (say) someone in industry who needs enough basics so that they can get something working in a few months.”

2、淺短易基礎

Thomas' Calculus

Gilbert_Strang-Linear_Algebra_and_Its_Applications_4ed

Casella_Berger_Statistical_Inference

Convex optimization by Stephen;

Numerical Optimization

3、入門概論

Machine.Learning.with.R(2013.10).Brett.Lantz

Introduction to machine learning .Ethem

(Christopher M. Bishop) Pattern Recognition and Machine Learning

An introductio to statistical learning with applications in R Hastie

The Elements of Statistical Learningsecond edition

Pattern Classification .Duda

Machine.Learning.A.Probabilistic.Perspective,.Kevin.P..Murphy,.MIT.Press

統計學習方法.李航(沒有電子版)

4、應用專論書籍

Web data mining,LiuBING

Data mining for scientific and engineering applications

Data Mining Techniques For Marketing, Sales, and Customer Relationship Management (2004)

Statistical Methods for Speech RecognitionJELINEK

Computer Vision:Algorithms and Applications.Richard Szeliski

Multiple_View_Geometry_in_Computer_Vision__2nd_Edition

Computational advertising, AZ Border, 2008(沒有找到電子版)

Foundations of Statistical Natural Language Processing

Speech_and_Language_Processing

Recommender Systems Handbook

Collective Intelligence

Mining.the.Social.Web(2nd,2013.10).Matthew.A.Russell.

Urban Computing-An overview-Yu Zheng

Data Mining in Bioinformatics

Statistics for Spatio-Temporal Data 2011

5、使用方法

1)可以以the five elements of effecetive thinking作為點睛書目,不然容易有迷路的感覺。

2)這個部分的學習可以作為“開眼”過程,結合行業,公司,職位等資訊就可以確定下一步的興趣目標了。

4)確定了大概的興趣目標目標以後,需要根據具體情況補充一些關於模型和paper方面的資料。然後儘早開始程式碼和系統方面的實際工作。(我認為比較有競爭力的求職者具備基礎寬廣紮實,同時及早的確定了自己的興趣和目標,聚焦於特定的崗位和工作目標進行不斷的提升優化的特點;常見的倆類誤區一是基礎沒有紮實就去挑戰應用,結果做出來的東西很爛,做起來很慢;另外一類誤區是成天打基礎,但是由於缺乏目標而茫然,也沒有針對具體的問題為基礎和銜接部分提出指導,也沒有用具體的問題把知識進行錘鍊,技能進行提升。

5)我個人覺得企業創業,個人職業發展以及個人學習中最大的誘惑是選擇了一個方向以後,因為太艱難而不斷的動搖和轉變方向;所以可以通過團隊結伴學習,沒有三次以上高水平的提升不考慮其他的方向,學習自己能夠消化的簡單資料等方式來確保自己堅持在這個道路上。

第三章機器學習的職業規劃

一、含義與方法

1、本文所說的“職業規劃”是指經過對自我的認知,和行業,公司,職業的認知,確定一個或者幾個工作目標,並進行相應的差距分析和提升的過程。

2、職業規劃可以理解為一個匹配的過程;將個人和眾多的備選職位進行匹配。按照傳統的職業相關理論,結合機器學習者的思維習慣,本文把職業規劃分為個人認知(相當於取人的feature),職業認知(相當於獲取職業相關的資訊和取出feature),以及人職匹配(相當於模型演算法部分)三個部分。

3、本文的重點是職業認知部分。

二、機器學習相關的公司分析

1、大的有師傅的公司

這類公司主要是百度,阿里和騰訊。共同的特點是資料很大,機器學習的團隊比較龐大,一般進去的同學都可以有師傅帶著學習,進步會比較快。

但是三個公司的特點也有所不同。

百度是我認為在業務和技術之間匹配的最好,並且從基礎到應用搭配的最好的公司。機器學習方面的能力對於百度的廣告,搜尋,移動搜尋,LBS,應用分發,移動音樂,移動閱讀,移動新聞,圖片搜尋,語音輸入,瀏覽器,視訊等所有業務都非常重要;而百度也非常重視機器學習團隊的搭建。目前在產品方面的表現也非常不錯。如果近期加入的團隊一旦在基礎研究以及產品化方面有巨大突破的話,百度的各個核心產品都可能大大的超出其他公司的產品。

百度的機器學習人才的需求種類最寬。

阿里目前的機器學習人才主要用在業務挖掘,廣告和推薦方面。和阿里的業務非常的匹配;根據IPO公告,以及近期的動作,阿里未來的業務發展方向主要是電商業務的區域擴張(向下是向縣城擴張,向上是跨國業務的發展)以及產品品類的擴張(從實物產品的電商向服務,金融方向的擴張。)從這種趨勢來看,未來阿里的機器學習人才需求還是以業務挖掘,廣告和推薦方面的人才需求為主(影象處理和NLP作為feutrue的提供者,也有需求)。

騰訊公司過去的主要業務是建立在社交網路之上的遊戲,網際網路增值服務(會員和道具之類的),廣告等。根據年報,我認為騰訊今後的重點是在微信的基礎上來發展盈利性業務,目前能夠看到的業務有遊戲,電商,支付,嘀嘀打車等;騰訊也單獨把廣告和視訊業務提出來當做重點業務。

結合以上對於騰訊的業務分析和預測,以及之前對於騰訊的職位的一些認識,我認為騰訊今後對於機器學習類人才的需求主要有業務挖掘,廣告演算法,推薦等。

從業務上來看,三家公司都具有收入和利潤基本都來自核心業務(百度主要來自於搜尋廣告;騰訊主要來自於遊戲和增值服務,阿里主要來自於電商廣告),同時有向其他倆家的核心業務擴充套件的動作但是沒有成功的特點(百度嘗試過電商和社交;阿里嘗試過社交,也正在做搜尋;騰訊嘗試過搜尋,也在做電商)。

從戰略和職位設定來看,百度是從基礎到產品都做;而阿里和騰訊主要側重於應用。

2、中等規模的團隊搭建中的公司以及專業公司

有一些公司,相對於BAT來說,市場地位相對較弱,但是公司的市場地位也不錯;同時機器學習的團隊相對較小,或者佈置的普遍程度相對較弱。

比如噹噹,攜程,去哪兒,360,58同城,優酷,樂視。這類公司一般會設定倆類機器學習的崗位,一是業務挖掘類崗位,另外就是推薦和廣告演算法的團隊。這類公司具有市場地位不夠穩固,機器學習團隊相對較弱或者較新的特點。

同樣有一些中等規模的廣告行業的專業公司,也有機器學習的團隊,比如MediaV,品友互動等公司。這類公司主要的崗位是計算廣告演算法工程師。

3、小的專業公司

在移動網際網路快速發展的今天,有一些專業性的小公司,產品本身對於機器學習技術的依賴性非常大,也設定了機器學習的崗位,這些小公司大多數是創業公司,業務發展的不確定性比較大,同時需要的機器學習人才和業務本身的相關性非常大。

比如口袋購物(主要需求的是推薦演算法,廣告演算法,NLP和影象處理人才),今日頭條(主要需要的是文字挖掘,推薦等人才),微博易(主要需要的是文字挖掘類人才),出門問問(主要需要的是語音識別,搜尋的人才)。

不同型別的公司對於人才的要求不同,對於能夠帶給人才的東西也不同,各有優劣。同學們可以根據自己的情況靈活的選擇,每類公司中都有非常好的公司和崗位!

三、機器學習相關的職位分析

從面臨的問題和考核方式來看,機器學習的職位可以分為研發類和應用類倆大類。

研發就是專門尋找沒有好的解決辦法的問題尋找解決辦法,一旦找到了解決辦法以後就基本上不管如何實現,以及如何迭代的問題了。這類職位一般都帶有“research”字樣。這類崗位的主要考核結果可能是paper的質量和數量。

應用類機器學習職位在工作中距離使用者更近,和機器和程式碼更近,更加側重於應用比較成熟的方法不斷的提升解決問題的效果。這類崗位主要的考核結果是基於系統的“率”,比如CTR預估工作的點選率,推薦演算法的各種率等。

本文主要介紹應用類的職位。

1、網際網路業務挖掘

使用的主要資料和要解決的問題:

參考《Data Mining Techniques For Marketing, Sales, and Customer Relationship Management》

。初級的業務挖掘人員的工作會離資料和演算法更近;高階的業務挖掘人員會離使用者和業務更近。

職位需求趨勢:

這類職位的需求量非常大,基本所有的主要網際網路公司都設定了這個崗位。這個崗位的名字常常有“分析師”,“資料探勘工程師”等。

零售,金融,電信,製造業等行業對於網際網路業務挖掘人員也持歡迎態度。近幾年對於這類人才的需求很能會有非常大的增長。

薪水狀況:

從我接觸到的獵頭職位的情況來看,在這個崗位上工作三四年,能夠獨立和業務部門以及技術部門溝通,並且能夠靈活的應用資料為業務部門提出解釋和建議的人才的年度薪水在20萬元到35萬元左右。

2年前見過大的網際網路公司的分析總監給到50萬元以上。

職業發展前景:

我個人認為人類曾經經歷過火車時代,電力時代,汽車時代,電子時代;當下的時代是資料時代。具有良好的資料分析能力的人對於越來越多的企業具有至關重要的作用。根據海德思哲公司的分析,未來的企業領袖人物往往是business+science+technology三方面都很強的人,業務挖掘工程師的工作內容和其中的倆項密切相關。

2、推薦演算法

使用的資料和要解決的問題:

參考《Recommender Systems Handbook》。

解決的核心問題是給使用者想要的,不要給使用者不想要的,降低使用者找東西的難度,給使用者更多的驚喜。

不同的網際網路產品在不同的階段,可以通過推薦系統解決不同的問題和實現不同的目標。

職位的設定情況和需求趨勢:

相對業務挖掘崗位,有推薦演算法職位的公司數量相對比較少。能夠看到的一些公司如下。

電商:淘寶,噹噹,京東,口袋購物。

視訊:優酷土豆,愛奇藝,風行線上,樂視。

音樂:豆瓣,蝦米,網易雲音樂,百度。

新聞APP:今日頭條,網易新聞客戶端,百度新聞,指閱。

閱讀:盛大文學,掌閱科技。

團購:美團,糯米。

社交:微博,linkedin。

手機助手:豌豆莢,

LBS推薦:百度,高德。

相對電腦,手機的私密性更強,螢幕資源更小,可能會有更多的移動應用公司會部署推薦演算法的崗位。

薪水狀況:

我接觸到的推薦演算法負責人的職位(能夠直接面對工程和產品部門,對推薦系統的效果負責),招聘方給到的年度薪在30萬元到50萬元左右。

職業發展前景:

移動網際網路是近幾年網際網路行業最大的潛力細分領域,而推薦對於移動網際網路的所有產品都有非常重要的作用,從這個角度來講推薦演算法工程師的職業前景非常不錯。

在多個移動網際網路的細分領域,推薦都處於核心地位,因此成熟的推薦演算法人才創業的機會也比較多。

3、廣告演算法

使用的資料和要解決的問題:

參考《Computational advertising, AZ Border, 2008(沒有找到電子版)》;另外劉鵬前輩也在做一些計算廣告相關的課程,大家可以在網上搜索具體的課程內容。

資料主要是倆塊,一塊是使用者的資料,除了公司自有的資料以外,也可以通過DMP(資料管理平臺)獲取到一些使用者的資料;另外一塊是關於廣告的資料。

需要解決的問題就是把使用者和進行更好的匹配,提升總體的市場效率。

其中CTR預估是非常重要的工作內容。

職位的設定情況和需求趨勢:

和其他的職位相比,計算廣告的公司數量比較集中。公司主要分為三類。

一類是有Exchange或者類似體量的公司(相當於有設局或者設立證券交易所的公司),有百度,淘寶,騰訊,搜狗,360,微軟,雅虎。這類公司的流量很大,廣告主的數量也很大,他們制定各自的市場內的遊戲規則(主要是資源分配的辦法以及結算辦法。)

另外一類是DSP(Demand side platform),比如MediaV,品友互動,浪淘金等。這類公司本身沒有大的流量,但是都在努力建立相對廣告主更為有效的廣告投放能力,主要從廣告主掙錢。主要的目標是幫助廣告主更有效率的把廣告投放到目標群體身上。

第三類公司是類似五八同城,優酷,新浪微博這樣的大媒體。或者多盟這樣的SSP(Supply side platform)。這類公司自己有一定的流量,也有一些廣告主客戶。也需要有人來做市場效率的提升。

新增職業機會的來源,我能夠看到的主要有以下幾種。一種是在搜尋市場上取得突破後需要建立商業變現體系的360;還有一些是來自於對淘寶模式模仿的電商公司,比如噹噹;還有一類是網際網路廣告公司的業務拓展和創新,比如SSP公司向DSP業務的拓展,或者網際網路廣告監測公司,或者廣告生態種新的角色誕生帶來的新職位機會。

近幾年看到的網際網路廣告相關的變化主要有2個,一個是谷歌採用GSP(General second price)競價方式並逐步被別的公司跟進;另外一個變化就是有些DSP公司大力倡導RTB(Real time bidding)。

這些變化都沒有帶來行業內計算廣告人才需求量的急速增長。看未來,廣告生態系統的逐漸完善而催生出的新的細分行業和公司,也沒有看到能夠帶來大的新增職位的急速增長。

但是網際網路廣告行業面臨的挑戰和機會也很多,比如多屏互動的期望,以及廣告主日益增長的需求,都對企業的創新提出了要求。

綜合以上,計算廣告行業未來的人才需求特點可能是“少而精”。

薪水狀況:

廣告目前是網際網路行業最重要的收入來源。從百度公司和阿里集團招股書中就可以看出,這倆個公司收入的絕大部分都來自廣告。

因此計算廣告人才的薪水也非常的高。

我瞭解到的比較成熟的計算廣告人才(同時在演算法和工程方面很成熟)的年收入有50萬元到150萬元左右。

職位發展前景:

一旦進入計算廣告行業,相對其他職位來說,創業機會較少。更有可能的是在行業內的少數幾個公司成長。

該類人才的創業機會可能需要具備幾個條件,第一是外圍環境的重大變化導致的新型別公司的創立機會比較成熟,這個週期可能比較長;另外要有大量資金的支援;另外相對來說可能風險會比較大。

4、NLP

使用的資料和要解決的問題:

參考《Foundations of Statistical Natural Language Processing》,《Speech_and_Language_Processing》。

使用的資料主要是人們日常隨意寫出來的或者說出來的話。比如新聞,文章,微博上的話,qq的聊天,貼吧裡的話,部落格上的話,企業呼叫中心的對話等。

要解決的問題主要是對這些內容進行抽象,對映或者響應。比如資訊抽取(命名實體識別,情感分析等),機器翻譯,聚類,分類,自動問答等。

職位的設定情況和需求趨勢:

目前看到的NLP崗位設定主要有以下幾類。

一類是在搜尋公司的query處理相關的工作。目前我瞭解到的工作主要分倆個部分,一個部分是做query的糾正,改寫,或者近義詞分析等;另外一類工作是做Topic model的研究,意思就是把使用者的需求抽象在一個“model”上,而同時預先把網頁到抽象到一個“model”上,然後在model內部挑選出使用者最感興趣的網頁優先展示。

還有一類是研發機構的研究崗位,比如微軟,富士通研發,三星通訊等機構都有NLP的研發崗位。

第三類崗位就是一些專業性公司,比如口袋購物,微博易,今日頭條,掌閱科技,簡網世紀這樣的公司。在這些公司裡NLP和影象處理的工作地位類似,就是為下一步的處理提供feature。

從使用者端來看,WEB2.0的出現,以及社交網路的大力發展,為NLP積累下了大量的資料,同時企業也越來越重視通過網路來傾聽使用者,以及和使用者進行溝通;同時資訊的急速增長,導致使用者對於個性化產品的需求越發明顯,也促進了NLP工作的推進和崗位的設定。

今後NLP的崗位會急速增長。增長的來源一部分來自於搜尋引擎公司,根據李航前輩的微博,未來搜尋突破可能來自倆個方向,一個方向是LTR(Learning to rank),另外的一個方向是Semanticmatch。我的理解可能semantic mtach需要大量的NLP的工作和人才。

另外一類職位我覺得來自於大量的已經產生的大量非結構化的資料處理相關的公司,以及從大量的語音識別轉化出來的資料的利用相關的公司。這個具體是在哪個方向上不好說,但是我想趨勢上一定是企業對於海量使用者產而生的嘈雜的聲音的理解和利用。資料的量還在不斷的急速增加,NLP工作量和任務型別也在增加,最終導致崗位需求的增加。

薪水狀況:

NLP人才的需求不象資料探勘和推薦那樣量大和緊缺,和其他的職位相比薪水比較溫和。

我接觸過的獵頭職位,有公司願意給工作2年左右的NLP工程師20到30萬元的年度工資;也有創業公司願意給NLP leader50萬元以上的年度工資。

職位發展前景:

我預測NLP工程師在原公司的職業生命活力會比較強(資料,演算法以及工作目標可能都會有新的挑戰和機會進來);同時成熟的人才也會有很多創業機會可以考慮。

5、影象處理

使用的資料和要解決的問題:

參考《Computer Vision:Algorithms and Applications.Richard Szeliski》,《Multiple_View_Geometry_in_Computer_Vision__2nd_Edition》

面對的資料是影象,具體也會有處理靜態影象和動態視訊的區別。以及離線處理和線上處理的區別。

常見的要解決的問題有檢測(就是看某個圖片裡是否有某類東西,比如是否有人臉),識別(就是輸入一個圖片,看這個圖片和庫裡的哪個圖片是一致的。)分割,拼接,3D重建,聚類,分類等。

職位的設定情況和需求趨勢:

傳統的影象處理崗位主要分佈在類似智慧眼,漢王這樣的IT公司和類似佳能,微軟這樣的研發機構中。

智慧眼和漢王這樣的IT公司的產品,主要以行業使用者為主,應用的場合有門禁,安全,社保識別等。

在大資料在中國興起的前後,更多的網際網路公司開始設立影象處理的崗位。其中百度是把影象和語音作為文字之外的新的搜尋物件來看待的,設立了影象處理的崗位並招聘了人才,但是具體如何產品化目前還不太清楚,目前看到的只有圖搜,就是把圖片拷貝到檢索欄裡,然後可以看到一些檢索的結果。

淘寶以及一些其他的電商公司也設立了影象處理或者正在招聘相關的人才,主要的工作目標是為廣告和推薦等應用提供feature。

與資料探勘,推薦和NLP職位相比,影象處理的職位數量相對較少,發展相對比較滯後,能夠看到的大眾使用者使用的產品相對比較少。

我個人的感覺是影象處理行業正處在一個爆發的前夕;象智慧交通事故報告系統(自動對攝像頭採集到的影象進行處理,即使在夜間也可以自動的識別出來重大事故並且提醒交警去救援),自動駕駛,離群人群自動檢測(比如機場和火車站的恐怖分子檢測)等應用都具有足夠的價值,目前系統能夠做到的水平也非常接近商品化。

我的判斷是隨著技術的突破和外圍配套(包括法規或者硬體等)的成熟,影象處理的崗位會有大的爆發。

薪水狀況:

相對其他職位來說,影象處理的職位比較少一些;同時薪水不是很高。但是未來的收入前景不錯。

職位發展前景:

不論在公司內部的提升,還是未來創業的角度來看,影象處理工程師的發展機會都會越來越多。其他相對比較小眾的語音識別,語音合成,網頁或者廣告反作弊,urban computing,生物資訊挖掘,金融資料探勘,社交網路挖掘等職位就不在這裡介紹了。總體來說,機器學習的職位型別,職位的人才需求數量,以及能夠應用的行業都在增加,前景大好!以上為個人觀點,難免有誤,歡迎大家通過以下方式和我聯絡,進行指正或者補充,最終能夠幫到更多的朋友成為專業,敬業,優秀,正直的靠辛勤勞動過上幸福生活的人!