1. 程式人生 > >對話吳恩達(Andrew Ng):超級大咖深度解析人工智慧 以及如何成為已經資料探勘工程師

對話吳恩達(Andrew Ng):超級大咖深度解析人工智慧 以及如何成為已經資料探勘工程師

【數盟致力於成為最卓越的資料科學社群,聚焦於大資料、分析挖掘、資料視覺化領域,業務範圍:線下活動、線上課程、獵頭服務、專案對接】

【優惠倒計時】資料定義未來,2016年5月12日-14日DTCC2016中國資料庫技術大會登陸北京!4月20日前輸入數盟專屬購票優惠碼iir46am3立享88折上折,猛戳文末“閱讀原文”直接購買!

本文轉載自微信公眾號“機器學習研究會”

時間:2016年4月14日(週四)21:00 - 22:30


嘉賓:- 吳恩達(Andrew Ng):百度首席科學家,“百度大腦”、“谷歌大腦”負責人,斯坦福大學計算機科學系和電子工程系終身教授,人工智慧實驗室主任,Coursera聯合創始人- 徐偉:百度IDL傑出科學家,前Facebook大規模推薦平臺負責人、NEC lab高階研究員- 韓旭:密蘇里大學教授,百度矽谷人工智慧實驗室任Principal Scientist
主持人:雷鳴:北大大資料與機器學習中心聯合主任,百度創始七劍客,酷我創始人
內容:1)深度學習的技術現狀和未來發展2)語音識別、計算機視覺和自然語言等領域的現狀、挑戰和未來發展預期3)自動駕駛、機器人等AI技術產業化的未來預期和相關探索4)對於AI領域專業人士的職業發展建議


【精華實錄】環節一:沙龍對話話題一:深度學習的技術現狀和未來發展【雷鳴】首先我們探討第一個問題:深度學習的技術現狀和未來發展,是否會成為通用基礎技術?現在深度學習非常火熱,被吹得神乎其神。這個技術是否會成為某種意義的終極技術? 【徐偉】深度學習是為人工智慧的一個重要部分。未來人工智慧會是運用非常廣泛的技術,所以深度學習也將被廣泛使用。 【吳恩達】Regarding the second question, yes there's been a lot of hype about Deep Learning. I think it is creating tremendous value today—it is letting us turn the huge amounts of data we have into huge amounts of value. I'm also confident that deep learning will keep on creating a lot of value in the next few years—we still have far too many ideas, and too few people to do them. But we're also very far from "human level intelligence," and do not yet see any clear path to get there. I think some of the 炒作 has been a bit irresponsible.人工智慧會對整個社會有很大的影響力,so I think it's important that all of us have a clear understanding of what's coming, but also what is not, so that we can plan appropriately.關於第二個問題,現在確實有太多關於深度學習的誇大的宣傳。我認為深度學習正在創造很多價值——幫助我們把海量資料轉化成巨大的價值;同時,我也相信深度學習在未來若干年仍將繼續創造大量的價值——我們仍有太多的想法需要去實現,卻只有很少的人在做這些事情。但是,我們離真正人類水平的人工智慧還相差甚遠,而且也還沒有找到清晰的實現路徑。我認為一些相關的炒作是不太負責任的。人工智慧會對整個社會有很大的影響力,所以我認為,對於我們來說了解清楚它能帶來什麼和不能帶來什麼是非常重要的,所以我們需要制定相應的規劃。
【雷鳴】
一個問題,如果在有比較充分的資料和運算能力的條件下,是否深度學習可以超越幾乎所有的經典的資料探勘演算法?【徐偉】可以說對大多數監督式學習問題,深度學習會超越傳統的演算法;對於一些非監督學習的問題,似乎還不是很明確。
【雷鳴】@徐偉,那對於半監督學習呢?【徐偉】目前為止一個比較成功的非監督的例子是word embedding;不過也有很多人不認為word embedding 是深度學習。另外word embedding 和傳統的非監督學習也並不完全一樣,實際上運用了上下文作為監督。我認為非監督學習要取得成功,實際上更會使用類似這樣的弱監督學習。
【吳恩達】I agree with Xu Wei. Despite all the value created by Deep Learning, most of it is currently supervised learning, meaning learning relatively simple A-->B mappings. For example, perhaps A is an email, and B whether or not it is spam. That's a spam filter. Or perhaps A is an image, and B is an object label. That's object recognition. With a lot of labeled data (i.e., (A, B) pairs) and a big enough network, you can prove that a deep learning algorithm can learn almost any function to a very high level of accuracy. one of the most exciting recent breakthroughs is Deep Learning algorithms can now learn A-->B mapping where B isn't just 0/1 or an integer (like the examples above), but can be very complex things like a sentence.我同意徐偉的觀點。深度學習所創造的所有價值,大部分現在都是監督學習,也就是學習相對簡單的A-->B對映。舉例來說:可能A是一封電子郵件,B表示A是或不是垃圾郵件,這就是一個垃圾郵件過濾器;或者A是一個影象,B是一個物件標籤,這就是物體識別。有很多標記的資料(例如A,B配對)和一個足夠大的網路,你可以證明一個深度學習演算法可以以極高的精度學習任意函式。近期最激動人心的重大突破之一就是:深度學習演算法現在可以學習一個A-->B的對映,其中B不只是1 /0或一個整數(如前述的例子),而可以是非常複雜的事情,比如一句話。 【雷鳴】@Andrew,你在說自然語言嗎?是指的翻譯,語音識別,還是語義處理級別的?

【吳恩達】For example, if A is an image, and B is a caption, then that's image captioning. (The first paper to do this was by Xu Wei and his colleagues. :-)) Or if A is an English sentence, and B is a french sentence, then that's machine translation, which was done by Ilya Suskevar and others. Or if A is an (Image, Question) pair and B is an answer, that's Image Question Answering (also by Xu Wei!). Supervised learning has been very successful for both 翻譯 and 語音識別。Our most successful approach at Baidu on speech recognition has been to use a very large neural network, and to learn an A-->B mapping directly where A is an audio clip and B is the text transcript. Tony who's next to me had led the team working on the mandarin version of this, and we believe this is now the world's best mandarin speech recognition system.例如:A是圖片,B是對應的文字說明,這個問題就可以被定義為影象摘要生成 (第一篇論文由徐偉以及他的同事發表);如果A是英語句子,B是法語句子,這個問題就是機器翻譯問題(可以參考Ilya Suskevar等人的研究);如果A是圖片問題對,B是相應的答案,這個問題就變成了基於影象的QA問題(也是徐偉的成果)。監督學習在機器翻譯和語音識別裡得到了廣泛的應用。例如,在百度語音識別系統裡,我們利用大規模的神經網路系統讓機器學習將語音片段對映到相應的文字。坐在我身邊的Tony負責其中的普通話識別版本,我們相信這個系統是目前最好的普通話識別系統。 【雷鳴】看起來不僅僅是語言,還包括了影象,這個進展是非常大的。
話題二:語音識別、計算機視覺和自然語言處理等領域的現狀、挑戰和未來發展預期【雷鳴】下面我們聊一下在一些領域,深度學習帶來的一些新的進展。比如說語音識別,我前些時間到百度美國研究院,看到Andrew給我演示的語音識別:在非常大的噪音環境下,我基本上聽不出來裡面的人說什麼,但是語音識別出來了;之後我仔細聽,發現語音識別是對的。@Andrew,方便介紹一下全球在語音識別方面的最新進展嗎?對於語音識別,隨著技術進步,我們做出超過人對人聲識別的系統,是否是一個必然結果?
【吳恩達】I think speech recognition will move toward end-to-end learning. We are finding that the dataset size is one of the biggest drivers of performance. I find some of the recent work on attention models also promising. We were also very heavily influenced by Alex Grave's work on CTC.我認為語音識別會逐步使用端到端的學習方法。在這些方法裡,資料集的大小是影響效能的重要因素。最近我發現使用基於attention模型的結果很好。我們的工作也深受Alex Grave在CTC工作上的影響。Two challenges that remain: Transcribing long utterances. We surpass human-level performance for short phrases, out of context. But we are still much worse than human-level performance when there's more context, such as long conversations. A second major challenge is understanding the content of the text, rather than only transcribing it.目前還有兩個主要的挑戰:第一個是對於長句子的識別。我們的語音識別系統,在沒有上下文的時候,對短句子的識別超過了人類的水平;然而在有上下文的情境下,比如在長對話中,系統的識別效果還是不如人類。另一個挑戰就是理解文字的內容。But I'm excited about building a speech-enabled world. Just as (thanks to Steve Jobs) the smartphone touchscreen fundamentally changed how we interact with computers, I think that speech will also fundamentally transform how we interact with computers in the next few years.儘管如此,我還是很期待建立一個語音驅動的世界。就如喬布斯用觸控式螢幕改變了我們與手機互動的方式,我認為語音會在未來進一步改變我們與機器互動的方式。
【徐偉】目前的語音識別系統還沒有像人那樣能夠很好的利用上下文資訊。
【雷鳴】另外一個問題是關於圖片識別以及視訊內容識別,全球的最新進展如何?微軟最近的一個影象識別的進展,用了100多層的深度神經網路,得到了不錯的效果。是否超深的神經網路,也是一個發展方向?
【徐偉】對像ImageNet這樣的問題,目前的deep residue net的結果已經非常好了。目前我們也看到很深的模型在一些NLP也有很好的效果。對於視訊內容,運算能力還是一個重大的瓶頸;只有百萬級別的資料,訓練就需要數天。
【雷鳴】對於計算機視覺,尤其是運動影象(視訊)處理,當前的進展和挑戰如何?在自然語言對話領域,現在深度學習應用的效果如何?
【徐偉】目前深度學習模型最大的難點之一還是記憶以及知識表達,還有推理也是一個難點。
【雷鳴】@徐偉,是否面臨的最大問題,正如你上面說的,是記憶和知識表達?
【徐偉】深度學習模型還不能很好地利用已有知識庫。
話題三:自動駕駛、機器人等AI技術產業化的未來預期和相關探索【雷鳴】下面我們聊一下一些實用的領域,比如現在百度大力發展的無人駕駛,這塊的挑戰和機遇是什麼?對於無人駕駛,在5年內我們真的能夠在大街上乘坐商用的無人駕駛汽車嗎?
【吳恩達】I'm fortunate to have gotten to work on several different cars before. The Baidu one is the 4th car I've helped build. But this is the first time in my life that I've felt we see a clear path to making autonomous vehicles a reality. Just for fun, here're pictures of some other cars I had worked on!我很幸運我之前做過幾次無人車的專案。在百度,已經是我第四次參與無人車研發了。但是這一次,我們將會把自動駕駛變成現實!這也是我有生以來,第一次感到前路如此的清晰!下面是我之前幾次研發的無人車。 
【吳恩達】Here in China, 500 people a day die from car accidents. If we can make autonomous driving a reality only one day sooner, that's an extra 500 people whose lives we save. This will be one of the most important applications of AI in this decade. Why do I think we now have a clear shot toward making this a reality? We now have very sophisticated deep learning algorithms that are performing far better than ever before. We were fortunate that Lin Yuanqing had joined Baidu a few months ago and is now leading a big part of this effort. But in addition to that, we have also developed a unique strategy that is different than most others that have been working on autonomous driving. We call this strategy TRAIN TERRAIN (鐵軌戰略).在中國,每天都有500人死於車禍。我們的無人駕駛技術早實現一天,就相當於多拯救了500人的生命,這將會是十年來最重要的科技應用之一。為什麼我覺得這一技術非常有希望實現呢?一方面,我們有著效能遠超從前的複雜的深度學習演算法。我們非常榮幸林元慶先生幾個月前加入百度,承擔其中的重要工作;另一方面,我們也制定了獨一無二的無人車發展戰略——鐵軌戰略。
【雷鳴】@Andrew,你是說給無人駕駛汽車規定路線?那我們五年內有可能在大街上乘坐無人駕駛車嗎?【吳恩達】We hope to have commercial autonomous driving services by 2018, and be in mass production by 2020. Here're the key elements of the TRAIN TERRAIN strategy:我們計劃在2018年開始提供商用的無人駕駛服務,並在2020年前將其推廣普及。下面是“鐵軌戰略”的核心要點:1.Don't try to roll out autonomous vehicles everywhere all at once. Instead, start from a small region (such as a shuttle route or small city), and grow from there.不要試圖將無人車一下子覆蓋到每個地方,先從區域性展開(比如班車或者小城市),然後逐步推廣。2.Realize that computer-driven cars are not the same thing as a human-driven car. They behave differently: They never drive drunk. But, they don’t understand a policeman’s hand gestures. Make sure people in the “autonomy enabled” regions have realistic expectations.計算機駕駛車輛和人駕駛車輛有所不同:計算機從不醉酒,但也不能理解交警的手勢。所以需要確保人們對無人車有切合實際的期望。3.Design autonomous cars to be clearly recognizable, so that people can immediately spot them for what they are.將無人車設計的容易識別,這樣大家能夠很快發現他們。4.Make the behavior of the autonomous cars highly predictable. Predictability, even more than cleverness, leads to safety.讓無人車的行為非常容易預測,這一點比“智慧”更能帶來安全。5.Implement modest infrastructure changes in the autonomy enabled regions to make sure the cars understand what they need to do. For example, give emergency workers a clear way (such as a wireless becon) to communicate with the car. Make sure the roads are well maintained, with clearly painted lines. And so on. With these changes, I think we can safely put autonomous cars on the roads soon.適度改變一些基礎設施,讓無人車明白它們需要做什麼。比如,給應急人員配備同無人車互動的裝置(例如無線航標器),確保道路維護良好,劃線都很清晰等等。有了這些改變,我想無人車應該很快就可以上路了。6.We are rapidly growing our teams in both Beijing and in the US (Silicon Valley) office. Thanks to our unique strategy, we've been thrilled at the number of people applying to join us to work on this grand mission of saving 500 lives per day!我們在北京和矽谷的團隊都在快速壯大。在這一戰略的指導下,我們非常地興奮的看到,有大批的人都在申請加入我們,為“每天拯救500人”而努力!
【雷鳴】自動駕駛,一個挺科幻的概念,再有幾年就滿大街都是,真讓人感慨技術發展速度啊。我們再談一下機器人,Google現在要銷售掉Boston Dynamics,讓人非常震驚! 【吳恩達】Yes I agree! I want to say something to all the young people reading this. I think we're in an unique moment in history where AI can really change the world. If you know how to use or apply AI, you can be a position where the decision you make today will really change how the world is in 10 years. There will be thousands or millions whose would have lost their lives but for your efforts. Or you can transform entire industries, and help countless people. That's why I'm really excited about AI. If you are young and considering what career path to pursue, I hope that you will consider learning about AI, and joining the AI research and development community at Baidu or elsewhere, so that we can all work together to make the world a better place!是的!我想和在座的年輕人說幾句話。我們處在一個獨特的時期,一個人工智慧改變世界的時期。如果你知道怎麼運用人工智慧,你將有可能在這十年裡改變世界。你的努力可能會拯救數以萬計甚至百萬計的生命。也正因如此,我對人工智慧如此興奮!如果你還年輕,正在考慮未來的職業如何規劃,我希望你能夠考慮人工智慧,加入百度或者其他地方的人工智慧研發團隊。讓我們一起讓世界變得更加美好!
【雷鳴】@Andrew,這確實非常激動人心!現在已經有無數的人為AI痴迷。現在的理科學生們確實都在學習機器學習。
【吳恩達】我很高興聽到有很多人對機器學習感興趣。現在的問題是機器學習的想法和機會太多,不過能做的人太少。The world needs more AI people!
【雷鳴】@Andrew,你也多做一些好的線上課程,讓大家多學習!這次活動,一共有20個大群,近10,000人蔘加,可見現在大家對AI是多麼感興趣。
【雷鳴】機器人真的離我們還非常遙遠嗎?是否近5年都沒有巨大的商業化機會?
【徐偉】功能非常專用的機器人,應該還是會有很快的發展和應用。但像人那樣的機器人,還比較遙遠。self-driving car可能是最重要的一種。未來幾年內,家用機器人還很難真正幫人做事。
【雷鳴】現在銷售量最大的應該是掃地機器人,不過很多人都覺得他們不像機器人。那麼在未來幾年,會有那些機器人領域大放異彩?工業機器人?家庭機器人?服務機器人?【吳恩達】There's a lot of exciting work in robotic applications right now that focuses on specific narrow/vertical applications. Other than autonomous cars, I see exciting work in precision agriculture, automated power plant inspection, automated picking (for ecommerce fulfillment), automated security robots, and so on. Most of these robots have hardware and software designed to carry out that particular task, and so do not look like humanoid robots. I think truly general-purpose robots (other than robot arms in factory automation) are still a little further away.機器人在一些垂直細分的領域也有了很多令人振奮的應用。除了無人駕駛,還有精準農業、電站自動檢查、電子商務自動取件、安全機器人等等。這些機器人中,大部分的硬體和軟體都是為了特定任務設計的,因此他們並非人形機器人。我認為,真正的通用機器人(並非工廠裡面的機械臂)離我們還有一些距離。
【雷鳴】What do you think about Amazon Echo. It's pretty popular in US now.你怎麼看待Amazon Echo,它在美國非常流行
【吳恩達】I have an Amazon Echo in my home. I think it is a nice start to home automation using voice commands, but it is still the very early days of a new industry. I've been impressed by Amazon's work, but it's still too early to say whether this will be the right design in the long term.我家裡面就有一個Amazon Echo。我認為這是基於語音的家庭自動化的很好的開始,但這一新的產業現在仍然處於最早期。亞馬遜的產品非常棒,但是從長期來講,我認為現在來討論這個設計是否正確仍然為時尚早。
【吳恩達】But I do think that in the future, we should be able to talk to all the devices in our homes and have them understand and respond to us. I hope that a few decades from now, I will have grandchildren who are mystified as to how, back in 2016, if you were to go home and say something to your microwave oven, it would just sit there and rudely ignore you!但是我的確認為在將來,我們可以與家裡面所有的裝置對話,讓它們理解並且能迴應我們。我期待幾十年後,我們的孩子們會對我們今天的生活感到非常神祕。他們會感到非常不可思議,當你和家裡的微波爐講話時,它居然會不搭理你!
話題四:對於AI領域專業人士的職業發展建議
【雷鳴】對於AI從業的人士,Andrew有什麼職業發展建議?【吳恩達】AI is changing so rapidly, I think all of us that work in AI have to keep on learning. Once again, I want to say something to the young people reading this. Every Saturday, you will have a choice: You can either watch TV, or you can study. If you study, it turns out that there will be almost no short term reward. The following Monday, you won't be that much better at your job, and your boss almost certainly won't know you spent all day studying nor tell you "good job." So, you have almost nothing to show for your day of hard work. But here's the secret: If you study hard not just for one weekend, but do so weekend after weekend… for a year… then you will become great at it. I think studying has almost no short term rewards. But the long term rewards are huge!人工智慧發展的如此迅猛,從事這一行業的我們應該不斷的學習。再一次,我想跟在座的年輕人共勉:每個週六,你可以選擇看美劇,也可以選擇學習。如果你學習,兩天後的週一,你不會很快的就在工作中出彩,你的老闆也不會知道你花了整天的時間學習,更不會誇獎你什麼。這一整天的努力,你卻無法顯示出任何的收穫。但是我想告訴大家:如果你每個週末都這樣努力工作,持之以恆,你會發現你已經突飛猛進。我認為,學習是一件幾乎沒有短期回報,但是長期回報巨大的事情。
【雷鳴】非常鼓勵的話,大家共勉!
【吳恩達】So one of the challenges - which I hope many readers will rise to—is to keep ourselves motivated and to keep learning and studying, week after week, year after year.所以,一個巨大的挑戰——我想大家都會遇到的挑戰——就是讓我們自己始終充滿動力地學習,日復一日,年復一年!
【徐偉】說到reward, 延遲很久的reward目前也是deep reinforcement learning很難處理的一點。
【雷鳴】@徐偉,對人類也相當複雜的問題,對機器學習也一樣啊。
環節二:問答探討
1、End to end的方法,對資料的依賴有多高?機器學習如何提高對資料的學習和處理能力,而不是所有的資料必須人工標註後才能使用?如果不能解決這個問題,AI如何真正的進化?【徐偉】所以需要Agent在環境中能主動地獲取資料,像人那樣。
2、深度學習應用在自然語言處理方面感覺還是不怎麼理想。有這麼一種說法:影象是你直接看到的,語言卻是人類抽象之後的;特別是將深度學習應用在貼吧的帖子,或者電商網站上的評論資料,貌似效果都不如人為的規則+傳統的模型。你們怎麼看呢?
【徐偉】人類對話還涉及了大量的知識的運用,目前深度學習還很缺乏這一點。在較少依賴語言的一些NLP問題上(比如機器翻譯),我們的試驗顯示深度學習目前已經可以超越傳統模型了。
3、在傳統的機器學習任務上,模型選擇一直是個問題。現在深度學習給人的感覺是要比傳統的svm、決策樹、或者boosting等都要好,但是實際應用中真是這樣嗎?像搜尋排序、推薦等問題,業界已經成熟運用深度學習了嗎?【吳恩達】謝謝你的問題。Yes, Deep Learning is the best algorithm for a lot of the most important tasks that we use in production systems, including search, recommendations, and others. The general pattern is as follows: If you have a relatively small training set, then the performance depends more on your skill at hand-engineering features, and deep learning won't have a significant advantage over SVMs, Boosting, Decision Trees. But in the regime of big data—where you have a massive labeled training set—the supervised deep learning is more likely to do well. This is partially because deep learning algorithms are very "high capacity" (say high VC dimension, if you know what that is). This lets it exploit very large datasets better than most other algorithms. They are also more scalable than say an SVM with a non-linear kernel. This lets us build the systems needed to train them on huge datasets. To help visualize all this, here is a cartoon plot that explains how I think of the overall trends of the performance of DL vs. more traditional algorithms.謝謝你的問題。是的,深度學習是業界在許多重要任務上所使用的效果最好的演算法,包括檢索、推薦等等。一般的情況是這樣的:如果你的訓練集相對較小,那麼最終的效能更多地取決於你設計特徵的能力,深度學習同SVM、boosting、決策樹等傳統方法相比就沒有很大的優勢。但是在大資料領域——也就是你可以獲得龐大的帶標記的訓練集——那麼有監督的深度學習往往更合適。這種情況的部分原因是由於深度學習是“大容量的”(也就是很高的VC維,如果你知道這個的具體含義)。這個特點使它與其它的許多演算法相比能更好地處理非常大的資料集。深度學習模型往往比傳統方法,比如非線性核SVM具有更好的資料擴充套件性,這讓我們可以構建基於大量資料集的訓練模型。為了幫助大家更直觀地理解,這裡用一個標圖來幫助解釋我對於深度學習同傳統演算法的效能比較整體趨勢的觀點。

4、請問兩位老師:第一個問題,怎樣用深度學習做點選率預測CTR?其中一個難點在於輸入特徵維度高而且sparse,深度學習針對這類問題怎麼解決?第二個問題,深度學習在推薦方面有什麼好的方法?【徐偉】其實這是深度學習的一個優勢,把高位稀疏直接作為輸入,它學到的是類似embedding一樣的東西。Thus, my question is whether it is possible to apply some methods in NLP to deal with biology problems, and which ones might be most possible? -- The most widely used model for NLP is recurrent models. Perhaps they are already used for biology problems.其實這是深度學習的一個優勢,把高位稀疏直接作為輸入,它學到的是類似embedding一樣的東西。所以,我的問題是能否將一些在NLP(自然語言處理)上的方法應用到生物學問題上?如果可以,那哪個方法最有可能呢?——在NLP中應用最廣泛的模型是遞迴模型。它們已經在解決生物學問題上有所應用了。
5、Do you know any work is being done where AI actually helps extending and training human intelligence? Take the example of google AlphaGo. Would it be nice if professional GO players can benefit from AlphaGo's reasoning of a game?您知道有什麼方面AI(人工智慧)實際上能幫助擴充套件或者訓練人類的智慧嗎?例如谷歌的alphaGO,專業的圍棋選手是否可能通過學習它的推理過程獲得提升?
【吳恩達】We saw this happen after Gary Kasparov lost to Deep Blue. Human chess players are now far better through learning from and also partnering with computer chess players. I've heard of this starting in Go as well, but that feels like it's in an earlier stage. But more generally, I see a lot of opportunities for computers to supplement the human brain. I am especially excited about online education. I think MOOCs like Coursera and open.163.com have been a great start. I hope that online education becomes more adaptive and flexible over time, and that computers can really help customize our learning experiences, the way a personal tutor might.其實從Gary Kasparov輸給深藍之後,這種情況就發生了。現在的象棋選手可以通過向電腦棋手學習或者與其對戰而提高自己的水平。我也聽說了關於圍棋這方面的訊息,但是這麼說還為時尚早。更一般地說,我看到了許多計算機可以來彌補人腦的機會。我對線上教育很感興趣,我認為像Coursera和網易公開課都是一個很好的開始;我希望隨著時間的推移,線上教育將來可以更加靈活、更能適應需求,可能會成為大家的私人導師。
6、For medical imaging, it's very difficult to collect large scale, accurate, well labeled data. How can we get a better performance?對於醫學影像處理,收集大規模、準確以及帶標記的資料是非常困難的。請問我們如何提高效能?
【吳恩達】There's a lot of low-hanging fruit today in deep learning in problems with a lot of data. If you don't have a lot of data, in the short term you might end up have to just rely on more traditional engineering methods (including careful feature design). But looking slightly further out, I'm excited about other forms of learning, including transfer learning, semi-supervised learning and unsupervised learning - and quite possibly ones we haven't imagined yet - that would help us do well even on small amounts of data. There's a lot of active research on these topics in Baidu and elsewhere. I don't think any of us feel like we have the right algorithms yet, but I'm seeing a lot of progress each year.深度學習目前在大規模資料的應用上取得了許多唾手可得的成果。如果你並沒有大的訓練資料,那麼短期來看,你只能從更傳統的工程方法入手(包括細心設計你的特徵提取)。稍微往前來看,有許多激動人心的其他形式的學習方法,包括遷移學習、半監督學習以及無監督學習——以及其他一些我們現在沒法想像的方法——能幫助我們在小訓練集上也能取得更好的效能。百度和其他機構都在這些領域積極開展研究。我認為沒有誰現在已經找到了最佳演算法,但是我可以看到每年都會有許多進步。
【徐偉】Human has the amazing ability to learn from a small amount of data, partly from its modeling capability, partly from its ability to learn from other human. Current deep learning is still lacking these abilities.人類擁有基於小規模樣本進行學習的能力,一部分依賴於人類的建模能力,一部分來源於可以向其他人學習。深度學習目前還缺少這些能力。
7、Will deep learning networks evolve to develop logical thinking? Or logical thinking is completely different from deep learning methods in nature so we need different method to compensate deep learning network?深度學習網路會進化到能夠進行邏輯思考嗎?或者說邏輯思考與深度學習方法在本質上相差甚遠,所以我們需要其他的方法來彌補深度學習網路?
【徐偉】Right now, there is no good way for to evolve a large deep learning model (there's work on evolving small models). So whether we will have deep learning model capable of handling logical reasoning will depends on the new models designed by researchers. But I do believe it is possible to be achieved by deep learning model, as evidenced by the rapid progress in the area of NLP using deep learning.目前為止,還沒有好的方法去進化一個大型的深度學習模型(但在小模型的進化上有一些研究)。所以,能否讓深度學習網路具有邏輯思辯能力就取決於研究者設計的新的模型。但是我認為深度學習是有可能實現這一點的,這個判斷是基於深度學習在NLP上取得的飛速進展。
【雷鳴】回答結束,那我們就結束今天的講座吧。很高興和各位分享交流!非常感謝幾位嘉賓在百忙之中參加活動!
【吳恩達】 謝謝大家的熱情,這麼晚的時間還在和我與徐偉交流。我們也希望未來會有更多的機會和中國的人工智慧人士交流,也希望會有機會來支援中國的人工智慧發展!

【徐偉】謝謝大家的非常好的問題。時間有限,不能一一解答。我們今天的溝通到此結束!謝謝大家!

如何在一年之內成為一名資料探勘工程師?

時間:2016-04-13 09:59 來源:CDA資料分析師 作者:胡曉曼 分享到:QQ空間新浪微博騰訊微博人人網0

不管是資料分析師還是資料探勘工程師,我們的目標都是認識資料,從資料中發現需要的資訊。

所需要的技能

做資料分析,統計的知識肯定是需要的,Excel、SPSS、R等是需要掌握的基本技能。

我是做資料探勘的,所以重點講一下資料探勘方面的技能。我本身是學數學專業的,接觸數學比較多。資料探勘要從海量資料中發現規律,這就需要一定的數學知識,最基本的比如線性代數、高等代數、凸優化、概率論等。

舉個栗子,比如樸素貝葉斯演算法需要概率方面的知識,SKM演算法需要高等代數或者區間論方面的知識。當然,你可以直接套模型,R、Python這些工具有現成的演算法包,可以直接套用。但如果你想深入學習這些演算法,最好去學習一些數學知識,也會讓你以後的路走得更順暢。

我們經常會用到的語言包括Python、Java、C或者C++,我自己用Python或者Java比較多。有時用MapReduce寫程式,再用Hadoop或者Hyp來處理資料,如果用Python的話會和Spark相結合。

工作內容

資料分析更偏向統計分析,出圖,作報告比較多,做一些展示。知乎上有一個叫團支書的答主,他就比較偏向於資料分析。

資料探勘更偏向於建模型。比如,我們做一個百貨的資料分析。萬達電商的資料非常大,具體要做什麼需要專案組自己來定。百貨資料能給我們的業務什麼樣的推進,我們從這一點入手去思考。我們從中挑出一部分進行使用者分群。

消費者在商場購物消費會有一個刷卡的資料記錄,萬達會員卡的卡號資訊以及購物記錄也會在資料中呈現,資料體量是很大的。我們用這些資料做一個聚類,分成幾個使用者群,比如偏向親子的、時尚女裝和奢侈品的、汽車配飾的,分群之後再去給他們做推薦就相對更加容易。

我們做使用者分群會用到一些聚類模型,比如K-means、K-means++等,處理資料的維度特別大,是300w*142維,如果全部拿來聚類,效果不太好,因為有一些是沒有含義的,所以我們會進行降維。

降維一般會用到主成分分析,我們用的是深度學習的一個演算法——Auto Encoder。它有一個輸入層,一個隱含層,一個輸出層,資料從輸入層進去時會進行編碼,從輸出層出來時解碼,比如我們把142維資料灌進去,在隱含層降成50維資料,輸出還是142維資料。也就是說把一開始的142維資料投射到50維資料之後,再還原成142維,這142維與之前的142維資料之間的對映關係是一樣的,那麼我們就可以用中間50維的資料做聚類分析。

最後我們得到了一個評價指標,你可以理解為這個指標數值越小越好,越小代表各個值離中心越近。如果不用深度學習演算法,得出的評價指標是20萬左右,而降維之後得出的指標是600多,效果是很顯著的。

我講這個例子也是想告訴大家,如果你不具備數學知識,只是去套模型也可以做,但永遠只是停留在入門階段。大家如果想做資料探勘工程師的話,我建議程式語言至少要會一門,數學方面至少需要線性代數、概率論和凸優化的知識,瞭解一些機器學習演算法的推導,以及深度學習的演算法。這個學習起來並不是特別難,我從畢業到現在有一年的時間,一些基本的演算法已經瞭解的差不多了。

發展的建議

每個人都有自己的偏好。有的人會說,數學太難了,我不想做挖掘,就想做一些資料分析,做一些酷炫的分析圖,這個當然可以。如果想要自己的職業生涯有長足發展的話,不要貪多貪雜,在某一個領域深入進去。你可以結合自己的興趣,在那一個領域成為專家。

提高自己的技術和業務能力。技術能力相對來說是比較好提高的,學R或者Python這類簡單的語言是很快的,Java或者C++會比較慢。當技術能力提高到一定程度的時候,就很難跟別人有技術上的差別了。可能工作一年的時候你只會R,等兩三年之後相關的工具技術你都會了,這個時候你跟其他同事的區別就在於業務能力。

很多做技術的一開始會覺得技術就是特別牛特別厲害,但是光有技術並不能讓你成為公司的核心成員,必須要提高自己的業務能力。如果你做的技術出的結果跟業務不相關,對公司無法產生效益,領導是不會要這個結果的,除非你是研究人員。

幾個小tips

學歷重要嗎?

校招渠道比較看重學歷,但是隨著工作經驗的增加,你的技術達到了一定的水平,你是二本三本實際上和985畢業的人並沒有太大區別。當然,對於應屆畢業生來說,學歷高學校好更有優勢,這是大廠的敲門磚。

也有人會問需不需要考研。考研要跟你以後的工作道路結合起來,如果想做資料探勘,就可以選擇考數學類專業的研究生,可以提高自己的競爭力。

以我的經歷來說,我本科是在湖北一個很普通的學校,研究生報考武漢大學的計算數學專業。但因為兩分之差,調劑到了基礎數學。當時家人勸我服從調劑,好歹研究生是武大出來的。不過我的興趣不在基礎數學,這個專業也並不能給我想要從事的資料探勘加分,還不如先在工作中積累一些實踐經驗,所以就放棄了讀研。如果我工作幾年之後需要提升能力,可以再去考個研究生,不一定非要現在就考。

轉行可不可以學?

現在這個行業越來越火,很多人想要轉行做資料分析。轉行學資料分析師是可以的,但最好先去看一下招聘單位的工作內容,如果招聘要求懂PPT、Excel之類的就可以不要考慮了,因為這種通常招的是統計員,不是分析師,對你的職業道路不會有太大的幫助。如果要求會Python、R或者建模,你可以去嘗試一下。可能別人不一定會要你,但如果你表現出足夠的誠意和自學能力的話,依然有被錄用的機會。

我大學讀數學專業時只學了MATLAB,學了不到一年,當時在學校參加MATLAB建模比賽得了一等獎,覺得自己挺牛。但是在找工作時發現很多公司不用MATLAB或者SAS,因為比較貴,很多都會用開源的R。面試的時候,我說我不知道R是什麼,領導說,給你兩個星期,學。後來在工作裡一點點看書,也就入門了。

跳到第四個問題,選資料分析還是資料探勘?

很多人覺得資料探勘很厲害,但是一轉行就跳到資料探勘是不太可能的。資料探勘要求比較深的程式碼功底。

一開始我也不會寫程式碼,畢業之後我去了一家公司,Title是中級資料分析師,但乾的是資料探勘的事兒。剛入職的一個月內,老闆讓我用Python出結果。之前沒學過Python,我邊學邊做,這樣把Python也學會了。後來在這家公司做過一個垃圾文字分類的專案,這個方面以前也沒有接觸過,就一邊查資料一邊自己做。一開始用公式套,但是準確率只有80%左右,我就開始看公式的推導,看懂公式原理之後就知道某些地方是可以挑優的,自己可以對演算法做一些改進。不要只套公式,也要弄明白其中的公式推導,搞懂原始碼,慢慢提高自己的程式碼能力。

怎麼選公司

大公司當然是最好的。大公司一般走校招,如果你通過校招進了大公司,但是非核心的崗位,比如百度搜索方面的挖掘,當然是最好的,如果進入不了這樣的崗位,不如去一些新發展起來的公司,比如美團、滴滴,這樣的公司有一定的資料量,也會有一些比較強的人。

第三類公司是創業公司。如果是剛畢業最好不要選創業公司,風險比較大。你比較難以從表面上判斷這家公司能不能存活下來,有沒有牛人值得跟。而一些二線公司的業務骨幹大多是從BAT過來的,具有比較豐富經驗,跟著他們學習能讓自己快速成長。

怎麼面試

一定要誠實。不要造假工作經驗和年限,沒有必要,對自己也沒有好處。畢業生求職時可以表現得真誠一點,不能說一上手就能做很多工作,但是可以展示自己的學習能力。

我也不是一開始就做資料探勘,也是在工作中慢慢轉。如果你真的想做這一行,就要有決心,不能著急。

講個小故事,當時想轉資料探勘的時候,我不知道是選擇Java還是C++。當時我投了很多資料探勘崗位,我知道面試通過的可能性不大,但我就跟面試官聊天,請教經驗。我說自己是數學專業畢業的,想要轉做資料探勘工程師,需