《文科生資料科學上手指南》分享

據說技術門檻在降低。作為文科生的你,該如何從這種趨勢中收穫更多?
苦惱
你大概經常聽別人提起,技術的門檻在降低。
資料科學、機器學習、自然語言處理、神經網路、人工智慧……一系列的名詞讓你眼花繚亂,讓你對這個時代充滿興奮的感覺。你躍躍欲試,希望自己動手,也能用新技術做出卓有成效的工作。
但是,如果你不是IT專業的學生,特別糟糕的是,你還是一名文科生,那你可能會逐漸發現,技術的世界似乎不那麼友好。
你只想對文字提取主題,人家給你寫了這麼長的公式:

你想做個時間序列的預測,結果人家告訴你,一個處理單元,就有這樣的結構:

除了迅速“從入門到放棄”,你還能怎麼辦?
應用
別急,這 不是 真相。
真相是,只要你知道如何找到正確的工具包,就可以用短短几行程式碼,完成從前需要手工幹幾天的活兒。不信?可以看看我這篇《 ofollow,noindex" target="_blank">如何用4行 R 語句,快速探索你的資料集? 》
寫程式碼,如今已經變成了和開車一樣的基礎技能。開輛自動擋的汽車,不難掌握對吧?
你即便已經安全行駛幾十萬公里,成為名副其實的老司機,也不必理解發動機(或者電動機)的構造,對不?
需要維護保養,那是自然,但是這些工作,我們都可以交給專業人士代勞。
你需要了解的,無非是轉向、剎車、油門、訊號燈……
技術門檻的降低,就應該體現在處理資料問題的時候,你會像開車一樣自然。而不應當像學習發動機構造一樣挑戰自我。
受眾
在機械師的眼中,發動機的構造非常簡單易懂。所以他們中大部分人寫發動機構造教程的時候,不會去考慮那些對物理一無所知者的感受。
同樣,那些製造資料科學與人工智慧工具的人,一樣很聰明,覺得這些原理就是“應知應會”。所以他們中寫資料科學類教程的時候,大多數人也根本不會考慮那些閱讀數學公式和分析模型構造有困難的文科生。
Youtube 上有位老兄,就是因為 Tensorflow 的官方教程寫得太爛,跟著走一遍都完成不下來。於是一賭氣,自己做了一套 Tensorflow 的教程。
這個教程,我在知識星球為你分享過。
你可能會挑戰我的說法:
老師,我最近剛看過 Tensorflow 官方教程,寫得很好啊!
給你5秒鐘,思考一下……
現在,你明白原因了吧。改進,大都是源於外部壓力的。
文科生們充滿恐懼和緊張,試圖掌握資料科學工具,來完成科研與工作任務;寫教材的人,依然在完完整整列出公式,甚至是推導過程。
你想學開車,他卻一定先要你學會發動機構造。
你可能產生了自卑感——好像看不懂這些公式,你就不配成為他的讀者。
其實,這又有什麼?你完全不必成為他的讀者。
你們之間,沒有誰對誰錯,只是沒有緣分而已。
想必你我都認同,普通的非專職司機,智商並不比掌握內燃機構造的機械師低下。他可能是成功的生物學家,成功的作家。即便不動發動機構造和工作原理,依然可以很好地開車,順利安全到達自己的目的地。
同樣,作為文科生,你也不該在這場數字技術洪流中受到歧視。特別是,你不應該把自己推到數字鴻溝的另一端。
適合
你需要的,是適合自己閱讀的教程。
這種教程的特點是什麼?
在我看來,大致包括:
- 以問題為導向。用例子講明白如何用合適的工具,簡單高效解決問題;
- 解決問題的方法,完全可以重複。教程必須給出全部的程式碼和步驟流程。你自己拿過來就能上手,做出的結果會增強你的信心;
- 儘量不使用數學公式,和一大堆把人繞暈的術語。即便使用術語,也需要給你解釋清楚。
秉持這樣的原則,從2017年6月開始,我在自己的公眾號“玉樹芝蘭”和簡書、知乎、科學網專欄,為你寫了一系列的資料科學教程。
這些教程,受到了很多讀者的歡迎。你熱情的留言和討論,是激發我不斷寫作的源動力。
可惜不論是公眾號,還是專欄,似乎文章一多,檢索都是個問題。公眾號的問題更多一些,因為釋出後無法修改和迭代改進。
現在,我覺得這一系列文章,應該可以組合成為一本書了。所以,我就寫了這樣一本書,交付給你。
架構
在書裡你可以通覽內容架構,檢索也可以方便許多。
這本書分為以下章節:
- 導讀
- 環境設定
- 上手
- 探索分析
- 自然語言處理
- 機器學習
- 深度學習
- 雲端環境
- 資料獲取
- 答疑時間
以上只列出了章的名稱。建議你拿到書後,先看看目錄。
每一小節,我都保持了原汁原味的問題導向風格標題。希望瀏覽之後,你可以迅速定位到自己需要的部分,實踐和複用程式碼,解決自己遇到的實際問題。
我在不同章節間,設定了交叉引用。需要參考其他章節的位置,你都可以在文中找到連結,進行快速方便地跳轉。
絕大部分的章節,都配備了 github 配套程式碼和樣例資料。你可以盡情下載、修改和使用。只是別忘了在我的 github 上面,點個星星,相當於點讚了。謝謝!
這些文章,經歷了成百上千讀者實際執行檢驗。他們提供的反饋,也曾幫助我查找出了許多問題。我通過觀察他們提問,找到了教程講解中,他們還不是很理解的部分,不斷迭代改進表述方式和用例。
特別地,對於某些問題集中的重點概念,我還專門寫了答疑文章,甚至做了視訊教程。
獲取
好了,我知道讀到這裡,你的耐心已經經受了極大的考驗,是吧?
你可以點選這個連結( http:// t.cn/EvMHAyo ),訪問這本書的 免費線上開放 版本。
希望你動手嘗試以後,會明白“技術門檻降低”不是一句騙人的話。而是真實世界裡,實實在在發生的趨勢。
說明
你不是文科生?
那也沒有關係啊。
雖然這本書中的內容,或許有些部分對於你來說過於簡單,甚至有些囉嗦。
但你未必非要站在不具備基礎知識的讀者角度,來看它啊。
歡迎你幫我挑挑硬傷,改進這本書的質量。咱們可以共同協作,以避免“誤人子弟”的悲慘狀況發生。
告訴你一個小祕密——我的專欄和公眾號讀者裡面,不乏名牌大學資訊科學、電腦科學、統計學和數學專業的老師和研究生。
我曾經納悶,他們怎麼也來讀我的教程?
後來我弄明白了。
有的老師,是希望這些教程幫助自己的學生快速上手。
有的老師,是希望切磋教學用例,以及教學方法。
有的老師,是從專業的角度,幫我把關。
他們給了我很多的鼓勵,也提供了諸多有益的反饋和點撥。在此,我向他們表示衷心的感謝!
所以你看,你並不孤獨。開放的資料科學教育,需要你這樣的專業人士貢獻自己一份力量。
Welcome on board!
喜歡請點贊和打賞。還可以微信關注和置頂我的公眾號 “玉樹芝蘭”(nkwangshuyi) 。
如果你對 Python 與資料科學感興趣,不妨閱讀我的系列教程索引貼《 如何高效入門資料科學? 》,裡面還有更多的有趣問題及解法。