1. 程式人生 > >黃海廣:那些年做的學術公益——你不是一個人在戰鬥

黃海廣:那些年做的學術公益——你不是一個人在戰鬥

來源:機器學習初學者

我叫黃海廣,這篇文章主要寫了我的學術公益之路。我希望初學者少踩一些坑,我也希望我能做個“雪中送炭”的人,希望越來越多的人加入到學術公益的道路上來。

2014年9月,我考上了博士,那時候已經36週歲7個月了,然後,第一次知道了“機器學習”,開始了學習之路。在學習的道路上,我踩了無數的坑,直到博三才感覺漸入佳境。我發現初學者最需要的是“雪中送炭”,而不是“錦上添花”。作為博士,要有社會責任感,我希望初學者少踩一些坑,我也希望我能做個“雪中送炭”的人。

一、學術作品

我的作品都比較簡單,不需要太高知識水平,但是很少有人認真去做,或者堅持做下去,因為大部分人在學習過程中學會了,很少會把學習的東西重新整理分享給別人。做這些事情,需要專注和嚴謹。

我相信:贈人玫瑰,手有餘香。

以下是幾個學術公益作品,都是站在巨人的肩膀上完成的。

1.翻譯吳恩達機器學習課程

2014年12月開始到mooc網上學堂學習機器學習課程,該課程內容非常不錯,但好多視訊沒有中文字幕,我就發動幾位博士來一起翻譯字幕,我整理和翻譯了大部分視訊,並把視訊和中英文字幕壓制到mkv檔案中去。(該視訊字幕已經無償送給網易雲課堂:吳恩達機器學習課程,由他們進行潤色,致謝裡有我的名字。這個課程有好多個翻譯版本,我的可能是最差的一個版本,但可能下載最多。)

這個視訊可以上網易雲課堂搜尋“吳恩達機器學習”,目前是最受歡迎的機器學習課程,課程免費。

此外,我的github裡有離線視訊下載,中英文字幕的。

https://github.com/fengdu78/Coursera-ML-AndrewNg-Notes

2.機器學習筆記

在學習機器學習課程時,我發現看視訊有點累,就邊看邊寫筆記,大概寫了三個月,寫了差不多了,我在mooc學院發個帖子給大家下載。後來我也忘了發帖這個事情了,直到博二下學期有人發郵件告訴我連結失效了,我才發現筆記已經被下載了7000多次了,然後被百度雲和諧了。我覺得筆記應該幫助了不少人,給了我繼續修改完善筆記的動力,一直斷斷續續改了兩年,期間收到幾千封感謝郵件,後來我把筆記放到了github上提供下載,被下載了幾十萬次,獲得11500+star。原課程的作業程式碼是octave的,現在幾乎用不到了,我用python3.6復現了課程程式碼,並且公開了筆記的word和markdown版本。

圖:四年來的筆記更新記錄

以上資料都放在了我的github:

https://github.com/fengdu78/Coursera-ML-AndrewNg-Notes

3. 深度學習筆記

2017年8月,吳恩達老師推出了深度學習課(DeepLearning.ai),這門課是陸續推出的,我開始組織翻譯課程,很多朋友加入義務翻譯的隊伍,翻譯了第一門課之後,網易雲課堂宣佈他們得到授權翻譯所有五門課程,我們就不再翻譯了,開始編寫這門課的筆記,我組織了很多同學來一起編寫,最後由我來整理成word和markdown檔案,那時候正好是寫博士論文的時候,特別忙,但還是抽出時間來整理筆記。此外特別要感謝林興木和祝彥森同學,他們提供了自己做筆記,我來修改整合。此外,我對DeepLearning.ai的課後測試題進行了翻譯,建議初學者學習。所有題目都翻譯完畢,適合英文不好的同學學習。

這個筆記相當詳細,有700多頁。

圖:深度學習筆記列印後的效果

筆記放在github下載:

https://github.com/fengdu78/deeplearning_ai_books

為了宣傳筆記,我把筆記放到了知乎,收到了6600多贊,並被各大人工智慧方向的媒體廣泛報道。

知乎連結:

https://zhuanlan.zhihu.com/p/35940466

4.統計學習方法的程式碼實現

我初學機器學習過程中,李航老師的《統計學習方法》給我極大的幫助,我試著從github搜尋下載和自己修改程式碼,把這本書用python程式碼實現了,並放到了github下載(差不多7000star):

https://github.com/fengdu78/lihang-code

今年7月我參加機器之心舉辦的GMIS峰會,見到來了李航老師,加了微信,簡單交流了下,我做的這個專案得到了李航老師的肯定,後來我邀請李航老師加入了我的博士微信群,李航老師熱情應邀。

5.數學基礎翻譯

機器學習的基礎是數學,數學內容真的太多,初學者根本學不完。

我把考研和考博的數學筆記中跟機器學習有關的部分做成了markdown檔案,提供下載。

今年8月,我學習了Stanford cs229 manchine learning課程,相比於Coursera中的機器學習有更多的數學要求和公式的推導,課程全英文,基礎材料部分還沒有翻譯。這個基礎材料主要分為線性代數和概率論,而且針對機器學習課程做了優化,非常適合學習。我已經翻譯了線性代數部分,石振宇博士翻譯完了概率論部分,我修改製作後放在github和百度雲提供下載。

數學基礎的github:

https://github.com/fengdu78/Data-Science-Notes/tree/master/0.math

6.其他

  • python深度學習程式碼註釋翻譯

《python深度學習》由Keras之父、現任Google人工智慧研究員的弗朗索瓦•肖萊(François Chollet)執筆,詳盡介紹了用Python和Keras進行深度學習的探索實踐,包括計算機視覺、自然語言處理、產生式模型等應用。書中包含30多個程式碼示例,步驟講解詳細透徹。

作者在github公佈了程式碼,程式碼幾乎囊括了本書所有知識點。在學習完本書後,讀者將具備搭建自己的深度學習環境、建立影象識別模型、生成影象和文字等能力。但是有一個小小的遺憾:程式碼的解釋和註釋是全英文的,即使英文水平較好的朋友看起來也很吃力。

本人認為,這本書和程式碼是初學者入門深度學習及Keras最好的工具。

我對全部程式碼做了中文解釋和註釋,並下載了程式碼所需要的一些資料集(尤其是“貓狗大戰”資料集),並對其中一些影象進行了本地化,程式碼全部測試通過。

github地址:

https://github.com/fengdu78/machine_learning_beginner/tree/master/deep-learning-with-python-notebooks

  • 翻譯官方PyTorch簡易入門教程(PyTorch1.0版本)

“PyTorch 深度學習:60分鐘快速入門”為PyTorch官網教程,網上已經有部分翻譯作品,隨著PyTorch1.0版本的公佈,這個教程有較大的程式碼改動,我對教程進行重新翻譯,並測試運行了官方程式碼,製作成Jupyter Notebook檔案(中文註釋)在github予以公佈。

https://github.com/fengdu78/machine_learning_beginner/tree/master/PyTorch_beginner

  • 特徵工程的寶典-《Feature Engineering for Machine Learning》翻譯及程式碼實現

由O'Reilly Media,Inc.出版的《Feature Engineering for Machine Learning》(國內譯作《精通特徵工程》)一書,可以說是特徵工程的寶典,我在知名開源apachecn組織翻譯的英文版基礎上,將原文修改成jupyter notebook格式,並增加和修改了部分程式碼,測試全部通過。這個資料可以說是特徵工程的寶典,值得推薦。

翻譯程式碼放在資料科學的github倉庫提供下載,倉庫地址:

https://github.com/fengdu78/Data-Science-Notes/tree/master/9.feature-engineering

備註:我們的翻譯版本與人民郵電出版社出版的《精通特徵工程》有所不同,屬於獨立完成。

我的學術作品大部分放在我的github(fengdu78),獲得很多好評,star數累計達到28785,排在世界123名。

二、學術交流

1.交流群

我的qq和微信的機器學習愛好者朋友越來越多,我產生了建立機器學習交流群的想法。

2016年2月我建立了第一個qq群,群友是這麼過來的:

  • 我的筆記上印了群號,通過群號搜尋加入

  • 群內朋友介紹

  • 我發出邀請

qq群只有通過群號才能找到,因此加人比較精準,而且群實行實名制,群的質量和活躍度在相關領域處於top1%行列,群人數平穩增長,每天增加幾十人,就這樣過了三年半,現在已經有9個機器學習愛好者qq群了(7個2000群,2個3000群),群友慢慢成長起來,我見證了很多菜鳥到大牛的轉變。

此外,我也建立了微信群,目前有8個微信群,其中一個群是人工智慧博士群,有430多人,包括李航老師那樣的大佬也在群裡。

通過網上的交流,我認識了李航老師、徐亦達老師等業界大神,也認識了很多學術界和工業界、競賽圈的大佬。

2.知乎和公眾號

2017年底,我遇到了向老師,一位多次獲得資料競賽冠軍的資料分析師,她推薦我註冊了知乎(ID:黃海廣),還介紹了很多資料競賽的top選手給我認識。

我的知乎兩年來,發了幾十篇機器學習相關文章,粉絲達到20500多人。

在向老師指導下,2018年9月,我註冊了公眾號“機器學習初學者”,為機器學習愛好者提供學習的路線和基礎資料,一年來粉絲達到31000人。

3.知識星球

由於各個群的人數有限,不同的群很難互通訊息,而且群裡討論氣氛熱烈,群友的問題很容易被覆蓋,不利於知識的沉澱。

有位同學給我提了一個建議,建立知識星球

他是個優秀的研究生,研二就獲得了20萬競賽獎金,而且,現在研三開學,已經獲得了多個大廠的offer。我相信緣分,他的名字叫黃海龍,非常親切的感覺,於是我請他做了知識星球的合夥人。

關於知識星球是否收費,我們討論了好久,後來決定象徵性地收費,第一是作為星球的運營費用,如嘉賓的和優秀回答者的獎勵,第二是保證了群友的質量,加入的人比較精準,知識星球從今年3月建立至今,吸引了4000多名愛好者加入,知識星球名稱:黃博的機器學習圈子

其實,我們一直對優秀的愛好者免費,比如資料競賽高手、博士等,目前星球是機器學習方向排名第一的星球。

4.線下交流

由於在不同的城市,我和機器學習愛好者的線下交流不是很多,但有機會一定會當面交流。

圖:2018年12月,CCF BDCI決賽,瀋陽,擔任嘉賓,和資料競賽大師擼串(左三)

圖:2019年7月GMIS峰會,上海(C位)

5.學術公益合作

我和幾個知名AI一直有合作,聯合Datawhale,ApacheCN,AI 有道推出了完備的 AI 學習路線:內容涵蓋 AI 入門基礎知識、資料分析\挖掘、機器學習、深度學習、強化學習、前沿 Paper 和五大 AI 理論應用領域:自然語言處理,計算機視覺,推薦系統,風控模型和知識圖譜,學習 AI 從入門到專家必備的學習路線和優質學習資源。

完備的 AI 學習路線,最詳細的中英文資源整理:

https://zhuanlan.zhihu.com/p/64080846

結語

機器學習課程在國內還不夠普及,大部分初學者還是很迷茫,走了很多彎路,我是一名博士,博士應該有社會責任感,希望能儘自己的微薄之力,為機器學習初學者“雪中送炭”。

慶幸的是,很多朋友加入了學術公益的行列,有萌新,也有百萬年薪的大佬。

在學習的道路上,你不是一個人