黃海廣:那些年做的學術公益——你不是一個人在戰鬥
來源:機器學習初學者
我叫黃海廣,這篇文章主要寫了我的學術公益之路。我希望初學者少踩一些坑,我也希望我能做個“雪中送炭”的人,希望越來越多的人加入到學術公益的道路上來。
2014年9月,我考上了博士,那時候已經36週歲7個月了,然後,第一次知道了“機器學習”,開始了學習之路。在學習的道路上,我踩了無數的坑,直到博三才感覺漸入佳境。我發現初學者最需要的是“雪中送炭”,而不是“錦上添花”。作為博士,要有社會責任感,我希望初學者少踩一些坑,我也希望我能做個“雪中送炭”的人。
一、學術作品
我的作品都比較簡單,不需要太高知識水平,但是很少有人認真去做,或者堅持做下去,因為大部分人在學習過程中學會了,很少會把學習的東西重新整理分享給別人。做這些事情,需要專注和嚴謹。
我相信:贈人玫瑰,手有餘香。
以下是幾個學術公益作品,都是站在巨人的肩膀上完成的。
1.翻譯吳恩達機器學習課程
2014年12月開始到mooc網上學堂學習機器學習課程,該課程內容非常不錯,但好多視訊沒有中文字幕,我就發動幾位博士來一起翻譯字幕,我整理和翻譯了大部分視訊,並把視訊和中英文字幕壓制到mkv檔案中去。(該視訊字幕已經無償送給網易雲課堂:吳恩達機器學習課程,由他們進行潤色,致謝裡有我的名字。這個課程有好多個翻譯版本,我的可能是最差的一個版本,但可能下載最多。)
這個視訊可以上網易雲課堂搜尋“吳恩達機器學習”,目前是最受歡迎的機器學習課程,課程免費。
此外,我的github裡有離線視訊下載,中英文字幕的。
https://github.com/fengdu78/Coursera-ML-AndrewNg-Notes
2.機器學習筆記
在學習機器學習課程時,我發現看視訊有點累,就邊看邊寫筆記,大概寫了三個月,寫了差不多了,我在mooc學院發個帖子給大家下載。後來我也忘了發帖這個事情了,直到博二下學期有人發郵件告訴我連結失效了,我才發現筆記已經被下載了7000多次了,然後被百度雲和諧了。我覺得筆記應該幫助了不少人,給了我繼續修改完善筆記的動力,一直斷斷續續改了兩年,期間收到幾千封感謝郵件,後來我把筆記放到了github上提供下載,被下載了幾十萬次,獲得11500+star。原課程的作業程式碼是octave的,現在幾乎用不到了,我用python3.6復現了課程程式碼,並且公開了筆記的word和markdown版本。
圖:四年來的筆記更新記錄
以上資料都放在了我的github:
https://github.com/fengdu78/Coursera-ML-AndrewNg-Notes
3. 深度學習筆記
2017年8月,吳恩達老師推出了深度學習課(DeepLearning.ai),這門課是陸續推出的,我開始組織翻譯課程,很多朋友加入義務翻譯的隊伍,翻譯了第一門課之後,網易雲課堂宣佈他們得到授權翻譯所有五門課程,我們就不再翻譯了,開始編寫這門課的筆記,我組織了很多同學來一起編寫,最後由我來整理成word和markdown檔案,那時候正好是寫博士論文的時候,特別忙,但還是抽出時間來整理筆記。此外特別要感謝林興木和祝彥森同學,他們提供了自己做筆記,我來修改整合。此外,我對DeepLearning.ai的課後測試題進行了翻譯,建議初學者學習。所有題目都翻譯完畢,適合英文不好的同學學習。
這個筆記相當詳細,有700多頁。
圖:深度學習筆記列印後的效果
筆記放在github下載:
https://github.com/fengdu78/deeplearning_ai_books
為了宣傳筆記,我把筆記放到了知乎,收到了6600多贊,並被各大人工智慧方向的媒體廣泛報道。
知乎連結:
https://zhuanlan.zhihu.com/p/35940466
4.統計學習方法的程式碼實現
我初學機器學習過程中,李航老師的《統計學習方法》給我極大的幫助,我試著從github搜尋下載和自己修改程式碼,把這本書用python程式碼實現了,並放到了github下載(差不多7000star):
https://github.com/fengdu78/lihang-code
今年7月我參加機器之心舉辦的GMIS峰會,見到來了李航老師,加了微信,簡單交流了下,我做的這個專案得到了李航老師的肯定,後來我邀請李航老師加入了我的博士微信群,李航老師熱情應邀。
5.數學基礎翻譯
機器學習的基礎是數學,數學內容真的太多,初學者根本學不完。
我把考研和考博的數學筆記中跟機器學習有關的部分做成了markdown檔案,提供下載。
今年8月,我學習了Stanford cs229 manchine learning課程,相比於Coursera中的機器學習有更多的數學要求和公式的推導,課程全英文,基礎材料部分還沒有翻譯。這個基礎材料主要分為線性代數和概率論,而且針對機器學習課程做了優化,非常適合學習。我已經翻譯了線性代數部分,石振宇博士翻譯完了概率論部分,我修改製作後放在github和百度雲提供下載。
數學基礎的github:
https://github.com/fengdu78/Data-Science-Notes/tree/master/0.math
6.其他
- python深度學習程式碼註釋翻譯
《python深度學習》由Keras之父、現任Google人工智慧研究員的弗朗索瓦•肖萊(François Chollet)執筆,詳盡介紹了用Python和Keras進行深度學習的探索實踐,包括計算機視覺、自然語言處理、產生式模型等應用。書中包含30多個程式碼示例,步驟講解詳細透徹。
作者在github公佈了程式碼,程式碼幾乎囊括了本書所有知識點。在學習完本書後,讀者將具備搭建自己的深度學習環境、建立影象識別模型、生成影象和文字等能力。但是有一個小小的遺憾:程式碼的解釋和註釋是全英文的,即使英文水平較好的朋友看起來也很吃力。
本人認為,這本書和程式碼是初學者入門深度學習及Keras最好的工具。
我對全部程式碼做了中文解釋和註釋,並下載了程式碼所需要的一些資料集(尤其是“貓狗大戰”資料集),並對其中一些影象進行了本地化,程式碼全部測試通過。
github地址:
- 翻譯官方PyTorch簡易入門教程(PyTorch1.0版本)
“PyTorch 深度學習:60分鐘快速入門”為PyTorch官網教程,網上已經有部分翻譯作品,隨著PyTorch1.0版本的公佈,這個教程有較大的程式碼改動,我對教程進行重新翻譯,並測試運行了官方程式碼,製作成Jupyter Notebook檔案(中文註釋)在github予以公佈。
https://github.com/fengdu78/machine_learning_beginner/tree/master/PyTorch_beginner
- 特徵工程的寶典-《Feature Engineering for Machine Learning》翻譯及程式碼實現
由O'Reilly Media,Inc.出版的《Feature Engineering for Machine Learning》(國內譯作《精通特徵工程》)一書,可以說是特徵工程的寶典,我在知名開源apachecn組織翻譯的英文版基礎上,將原文修改成jupyter notebook格式,並增加和修改了部分程式碼,測試全部通過。這個資料可以說是特徵工程的寶典,值得推薦。
翻譯程式碼放在資料科學的github倉庫提供下載,倉庫地址:
https://github.com/fengdu78/Data-Science-Notes/tree/master/9.feature-engineering
備註:我們的翻譯版本與人民郵電出版社出版的《精通特徵工程》有所不同,屬於獨立完成。
我的學術作品大部分放在我的github(fengdu78),獲得很多好評,star數累計達到28785,排在世界123名。
二、學術交流
1.交流群
我的qq和微信的機器學習愛好者朋友越來越多,我產生了建立機器學習交流群的想法。
2016年2月我建立了第一個qq群,群友是這麼過來的:
-
我的筆記上印了群號,通過群號搜尋加入
-
群內朋友介紹
-
我發出邀請
qq群只有通過群號才能找到,因此加人比較精準,而且群實行實名制,群的質量和活躍度在相關領域處於top1%行列,群人數平穩增長,每天增加幾十人,就這樣過了三年半,現在已經有9個機器學習愛好者qq群了(7個2000群,2個3000群),群友慢慢成長起來,我見證了很多菜鳥到大牛的轉變。
此外,我也建立了微信群,目前有8個微信群,其中一個群是人工智慧博士群,有430多人,包括李航老師那樣的大佬也在群裡。
通過網上的交流,我認識了李航老師、徐亦達老師等業界大神,也認識了很多學術界和工業界、競賽圈的大佬。
2.知乎和公眾號
2017年底,我遇到了向老師,一位多次獲得資料競賽冠軍的資料分析師,她推薦我註冊了知乎(ID:黃海廣),還介紹了很多資料競賽的top選手給我認識。
我的知乎兩年來,發了幾十篇機器學習相關文章,粉絲達到20500多人。
在向老師指導下,2018年9月,我註冊了公眾號“機器學習初學者”,為機器學習愛好者提供學習的路線和基礎資料,一年來粉絲達到31000人。
3.知識星球
由於各個群的人數有限,不同的群很難互通訊息,而且群裡討論氣氛熱烈,群友的問題很容易被覆蓋,不利於知識的沉澱。
有位同學給我提了一個建議,建立知識星球。
他是個優秀的研究生,研二就獲得了20萬競賽獎金,而且,現在研三開學,已經獲得了多個大廠的offer。我相信緣分,他的名字叫黃海龍,非常親切的感覺,於是我請他做了知識星球的合夥人。
關於知識星球是否收費,我們討論了好久,後來決定象徵性地收費,第一是作為星球的運營費用,如嘉賓的和優秀回答者的獎勵,第二是保證了群友的質量,加入的人比較精準,知識星球從今年3月建立至今,吸引了4000多名愛好者加入,知識星球名稱:黃博的機器學習圈子。
其實,我們一直對優秀的愛好者免費,比如資料競賽高手、博士等,目前星球是機器學習方向排名第一的星球。
4.線下交流
由於在不同的城市,我和機器學習愛好者的線下交流不是很多,但有機會一定會當面交流。
圖:2018年12月,CCF BDCI決賽,瀋陽,擔任嘉賓,和資料競賽大師擼串(左三)
圖:2019年7月GMIS峰會,上海(C位)
5.學術公益合作
我和幾個知名AI一直有合作,聯合Datawhale,ApacheCN,AI 有道推出了完備的 AI 學習路線:內容涵蓋 AI 入門基礎知識、資料分析\挖掘、機器學習、深度學習、強化學習、前沿 Paper 和五大 AI 理論應用領域:自然語言處理,計算機視覺,推薦系統,風控模型和知識圖譜,學習 AI 從入門到專家必備的學習路線和優質學習資源。
完備的 AI 學習路線,最詳細的中英文資源整理:
https://zhuanlan.zhihu.com/p/64080846
結語
機器學習課程在國內還不夠普及,大部分初學者還是很迷茫,走了很多彎路,我是一名博士,博士應該有社會責任感,希望能儘自己的微薄之力,為機器學習初學者“雪中送炭”。
慶幸的是,很多朋友加入了學術公益的行列,有萌新,也有百萬年薪的大佬。
在學習的道路上,你不是一個人