1. 程式人生 > >我看你骨髓清奇,是個學數據分析的奇才。

我看你骨髓清奇,是個學數據分析的奇才。

fir 做廣告 data tutorial peter span union mon log

本文轉自知乎

作者:鄒昕

—————————————————————————————————————————————————————

整理一些數據分析入門的學習資料,順便送幾本書,有興趣的請看文章最後。

【0】入門互聯網數據分析

不同行業不同公司要求會很不一樣,比如說銀行做數據分析、建模會要求 SAS/SQL,而互聯網行業數據分析只要會 SQL 就可以了。

再比如說小公司可能會要求還會 R/Python 什麽的,但是稍微中型一點的公司則可能只需要會 SQL 就行了。

乍一看有點奇怪,但其實也不奇怪,因為大一點的公司基礎設施 (infra) 做得好,很多事情比如說 A/B test 這種都自動化了,不需要專門寫代碼。

接下來的內容都以中型以上互聯網公司為例,講講如何準備工作需要的三個維度:技術,數據分析方法,行業知識。

【1】技術
技術方面 SQL 是最基本的,也是最重要的。

幾個可以學習 SQL 的網站,基本上不會有什麽太大的區別

https://community.modeanalytics.com/sql/tutorial/introduction-to-sql/

https://sqlzoo.net/

中文版的 https://www.w3cschool.cn/sql/

一些可以練習的網站:

http://www.programmerinterview.com/index.php/database-sql/advanced-sql-interview-questions-continued-part-2/

重點需要註意的:where / group by / order by / left join / right join / inner join / null / not null / having / distinct / like / union / avg / sum / min / max
像 rankover 這種已經算是挺高級的了。

當然除了 SQL 之外,Excel 也是要會一點的,比如說做個圖,算算總合、平均之類的,稍微復雜點的數據透視表 (pivot) 就夠了。

如果 SQL 上手比較快,時間充裕,那就練練 Tableau, 主要目的是看看都有什麽樣的圖表,感受一下各自適用什麽樣的場景。

具體怎麽做圖不是非常重要,真要用的時候搜索一下現學就好了。

Tableau 很貴,所以下個試用版的就可以了,然後試用期學點最基本的就可以了。

說到數據可視化,再提一下這個 blog,作者寫了《Storytelling with Data》:

http://www.storytellingwithdata.com/

【2】數據分析方法

經常被問到學習數據分析推薦哪些書,通常答案是我沒看過什麽數據分析的書,大部分時候是搜索整合各種網上的資源,後來仔細想了想,還是有一些的。

Case in point. 經典的管理咨詢的書,哪個版本的都無所謂了,印象中大概看了一半左右。好像是因為懶,所以沒看完,也因為套路都是類似的,看一半也就差不多可以了。

Introduction to Probability Models by Sheldon M. Ross. 應該是出到第 11 版了,但內容應該區別不大,看第一章就可以了,需要搞清楚條件概率,這個概念還是有點重要的。

Storytelling with Data,中文版《用數據講故事》,作者也就是前面提到的 http://storytellingwithdata.com 的作者。

然後再找本統計基礎的書(隨便哪本教科書都差不多,實在不行的話把 wiki 上統計長條目下的多看幾遍也可以),不要太糾結於理論、證明,時刻記住你要能把這些概念解釋給不懂統計的人聽,解釋不清楚的東西你自己搞清楚了,效果也要大打折扣。

搞清楚幾種常見的分布,假設檢驗,假陽性,假陰性,區別估算,顯著性差異,p-value,平均值,中位數,p1/p25/p50/p75/p99,相關性,因果性,幸存者偏差,大數定律,80/20 等等。
Thinking, Fast and Slow. 當科普書看看就好,如果看不下去的話那就看《牛奶可樂經濟學》。

【3】行業知識
很不幸,這一部分就真的沒有特別有針對性的書可以看的了,基本都靠搜索,總結,思考,再搜索,總結,思考。。。

如果平時對互聯網、科技行業相對比較關註,這一部分會上手很快,了解一些基本概念,試用一些產品,基本上 20 天可以達到一個入門的程度。

【3.1】試用相關的產品

所有互聯網公司都強調員工要使用自己的產品,也就是所謂 dogfooding,這是提高產品思維最有效的辦法,沒有之一。

比如 Airbnb 會每個季度提供一定額度的金額讓員工去度假的時候可以用上,住 Airbnb 上的房源,Uber 會給員工提供 credit 打 Uber 的,Facebook 會給員工提供 credit 在 Facebook 上做廣告,通常來說每個季度幾百塊的樣子。

通過這種方式員工可能會發現一些 bug,或者提供一些產品相關的反饋等等。

很顯然,即使你不是上述公司的員工,你仍然是可以使用他們的產品,想想他們為什麽樣這麽做,有什麽可以改進的。

以 google map 為例,有一個功能是在達到目的地的時候,會顯示出目的地的街景。那麽接下來可以有一系列的問題。

為什麽要顯示出街景?方便用戶辨認目的地。

除了顯示街景還可以顯示什麽?可以顯示附近停車場,或許目的地本身是沒有停車場的,那麽用戶需要停車的話如果能自動給用戶一些選擇或許是一個不錯的功能。

假設要做這麽一個功能的話,什麽情況下應該顯示呢?

比如顯然應該只有在用戶在開車的時候才應該顯示,那麽如何辨別用戶之前是開車而不是走路?

比如假如有目的地有停車場的話,那就不需要顯示,這又如何辨別?

如果要顯示停車場,又需要顯示哪些信息?比如停車場的距離?價格?開放時間?

假設做了這麽一些新的功能出來了,又如何驗證效果是否好?A/B test?如何選 metrics?選用哪些用戶?

類似的問題可以一直問下去,多進行類似的思維訓練,對積累行業相關知識,訓練產品思維是很有幫助的。

而且這種積累並不是說一定要坐在桌子前開始慢慢想,形成習慣了之後,使用產品的過程中會自然而然的想到這些。

比如上面的例子就是在一次導航完發現 google map 自動顯示了目的地的街景而想到的。

數據分析的工作除了需要技術上的打磨,如何訓練分析過程中的思路,也就是 analytical/critical thinking也是非常重要的一環。

很有效的一個辦法就是碰到一個問題的時候,至少問自己5個為什麽,不斷深入,剝絲抽繭,問題也自然越來越明朗了。

【3.2】善用搜索引擎

信息爆炸的時候,如何搜索信息、匯總、提煉出有用的信息變得尤其重要。具體關於如何使用 google的一些技巧,這篇文章就不細說了。

另外,墻內的同學們,試試FQ或者用 Bing 吧。

除此之外,知乎和 quora 上都聚集了大量互聯網相關從業人員,很多問答也是與此相關的,至於能不能找到你想要的信息,搜索技巧就很重要了。

【3.3】跟行業前輩交流

這裏面的行業前輩可以是已經在行業裏工作的師兄師姐(有時候是師弟師妹),也可以是這個行業裏並沒有什麽關系的人。

那麽如何結識這樣的人,並且讓他/她願意幫助你呢?Linkedin 是一個很好的地方。就我個人來說,我很願意幫助有一定準備的同胞。

註意是有一定準備,自己花了一定時間進行積累思索,讓問題更有針對性,效果也會更好。

如果不直接認識在這個領域工作的人,很有可能也是可以通過你的好友間接認識的,此外還有一些社交網站,諸如微信群、知乎等,也可以認識不少行業大牛。

比如曾經有人問

@曾加

,作為十幾萬粉的知乎大V,最好的變現方式是什麽?

他回答的大意是,通過這樣一些資源認識更多的行業大牛,不斷增強自己,這是最好的“變現方式”, 就是這個意思。

還有一個很好的辦法是通過各種線下聚會,比如美國這邊尤其是灣區比較常見的 meetup,不時會有各個行業的活動。

這些活動上通常可以跟業內人士聊聊他們做的東西,請教一些問題,而且一般他們也會宣傳他們的招人計劃,可謂一舉兩得。

【3.4】網絡資源

不管你是處在世界的哪個地方,只要有網絡,也就意味著你可以接入到世界上無數的公開課、行業領頭人物的分享。

但是信息太多,也就意味著如何精簡挑選變得更加的困難。

這裏我分享一下過去幾年來我總結的一些資源,以及簡單的講一下推薦的理由。

【3.5】書籍

Zero to One by Peter Thiel -- 從0到1

The Hard Thing about Hard Things by Ben Horowitz -- 創業維艱

這兩本書是講創業的,都有中文版。如果你還沒看過,又想從事互聯網行業的話,一定要看一下。雖然是講創業的,但是卻可以讓人退一步,在一個更高的角度理解如何做好產品。

【3.6】網站

http://jwegan.com/

Pinterest 的一個用戶增長工程師的 blog,很多各種產品開發的思路、實驗、分析。

https://www.kissmetrics.com/

產品思維裏重要的一面,metrics metrics metrics。看名字你應該就能猜出來我為什麽推薦這個網站了。

https://medium.com/

各種科技相關資訊。

http://firstround.com/review/

同上。

http://www.slideshare.net/

LinkedIn 旗下的網站,有大量專業人士分享的 slides (幻燈片)。

視頻資源

https://www.youtube.com/channel/UCxIJaCMEptJjxmmQgGFsnCg

矽谷最出名的 YC 創業孵化器在斯坦福的講課,中文版的看這裏:

http://startupclass.club/

【3.7】微信/知乎推薦(排名不分先後)

張溪夢

微信公眾號:GrowingIO

https://www.zhihu.com/people/simonzhang1

LinkedIn 前 Business Analytics 的大頭創辦的公眾號,現在在國剛創業數據分析服務。

曹政

微信公眾號:caozsay

https://www.zhihu.com/people/cao-zheng

心得分享

朱赟

微信公眾號:AngelaTalk

Airbnb 工程師,矽谷技術、文化、故事、職業發展等。

曾加

微信公眾號:PlusZeng

https://www.zhihu.com/people/zengjiaplus

螞蟻數據分析

何明科

https://www.zhihu.com/people/he-ming-ke

做過投資做過互聯網產品;目前專註於數據和互聯網產品中。

chenqin

https://www.zhihu.com/people/chenqin

知乎數據帝

路人甲

微信公眾號:一個程序員的日常

https://www.zhihu.com/people/sgai/

空白白白

https://www.zhihu.com/people/jiafeimao/

數據咨詢

我看你骨髓清奇,是個學數據分析的奇才。