1. 程式人生 > >為什麼說,隨波逐流是成為一個數據科學英雄最大的阻礙

為什麼說,隨波逐流是成為一個數據科學英雄最大的阻礙

如果你集齊演算法,業務,計算機知識這三顆龍珠,那麼你就可以召喚一個小一點兒的“神龍”了。

但是想要召喚全能“神龍”,除了技術過硬之外,你還需要過硬的獨立思考能力和洞察力。

 

我們如何才能才能擁有獨立思考能力呢?不隨波逐流!

 

有著豐富的資料科學經驗的SharpestMinds聯合創始人Jeremie Harris將從一個比特幣買賣的例子為你講述:隨波逐流為什麼是一個數據科學英雄最大的挑戰!

在這裡我還是要推薦下我自己建的大資料學習交流裙:805127855, 裙 裡都是學大資料開發的,如果你正在學習大資料 ,小編歡迎你加入,大家都是軟體開發黨,不定期分享乾貨(只有大資料開發相關的),包括我自己整理的一份2018最新的大資料進階資料和高階開發教程,歡迎進階中和進想深入大資料的小夥伴。
 

下文是作者第一人稱敘述,enjoy

 

流行有可能是炒作或者泡

 

我還記得我的兄弟決定出售他的比特幣的那一刻。那是2017年,我們在星巴克。一位阿姨正在接近我們,她向我們贈送了一本小冊子。 在這些冊子的頂部用粗體字寫著:“BITCOIN:提前退休之路”。

 

我很好奇,所以我詢問她對加密貨幣市場的看法,但事實證明她除了比特幣之外不知道其他加密貨幣。

 

以太坊?

 

“從來沒有聽說過。”

 

萊特幣?

 

“這是比特幣的廉價版本,對吧?”

 

現在,有這麼一條經驗法則,如果當普通阿姨向你展示最新的科技潮流,那麼你可能正在陷入最火熱的炒作之中。或者,如果深入思考的話,其中還有“泡沫”。

 

當然,這不是一個新的發現。每個人都有這樣的共識:在投資方面,如果你正在做其他人正在做的事情,你不可能得到任何回報。

 

但奇怪的是,人們在投資自己時卻沒有這樣的意識。

 

假設你想成為一名資料科學家。如果你正在做所有標準的“我想成為一名資料科學家”的事情,那麼這意味著你得不到夢寐以求的工作。

 

市場目前充滿了初級人才,因此,有抱負的新手不太可能獲得高質量的崗位。所以,如果你想變得更優秀,為什麼要做別人正在做的事情呢?

 

巧合使你做了同樣的事情

 

問題是,大多數人在開始他們的資料科學旅行時都不這麼想。我在SharpestMinds(工作已經和數百名有抱負的資料科學家進行了交談,其中大約80%的人有相同的故事:

1、首先,他們都是按照這條線路學習(Python + sklearn + Pandas + SQL等等)。

2、然後在慕課上找學習資源。

3、讀了一些工作要求的描述,並擔心著自己沒有這個能力。

4、也許換一個慕課繼續聽課,也許開始通過求職網站申請工作。

5、沒有收到求職回饋(最好的情況也只是有屈指可數的面試)

6、感到沮喪,考慮讀碩士,申請更多的工作。

7、得出一個起決定作用的點:重複上述第2條到第7條,直到奇蹟出現?

 

如果這種情況發生在你身上,那麼你也可能處於一個自我改善的泡沫中:你正在做其他人正在做的事情,但如果期待和別人不一樣。你需要做的第一件事就是停下來。

 

如果你想要高於平均水平,你就不能做平均水平所做的事情。所以為了避免做平均水平的事情,你需要知道平均水平是什麼。

以下是一些例子:如果你需要慕課來學習所需知識,那很好。但是不要陷入慕課的螺旋中:慕課幾乎是為普通人設計的,所以就算通過大量學習,你也不能成為一個出色的資料科學工作的候選人。同樣地,如果你的GitHub上有4或5款Jupyter筆記本,上面有相同的無聊的sk./Pandas/sea./Keras堆疊,不要再重設計一份。

 

總的來說,規則是:如果事情的下一步非常明顯,那麼停下吧,因為其他人都在這樣做,那是價效比非常低的事情。相反,你需要找到其他人沒有做過的事情,並儘快做好這些事情。

 

我就是我,不一樣的煙火

這些異於常人做法的思路是什麼?基於我所瞭解到的,大概有5個:

 

1.復現論文。如果你是一個深度學習愛好者,這一步是必須要做的。人們通常不這樣做是因為它比抓取資料集並使用簡單的ANN或XGBoost進行千篇一律的分類更難。在arXiv上找到與你的領域相關的最有趣的論文(理想情況下是一篇相對較新的論文)閱讀它並理解它。然後在新資料集上覆現它,寫一篇關於它的部落格文章。

在這裡我還是要推薦下我自己建的大資料學習交流裙:805127855, 裙 裡都是學大資料開發的,如果你正在學習大資料 ,小編歡迎你加入,大家都是軟體開發黨,不定期分享乾貨(只有大資料開發相關的),包括我自己整理的一份2018最新的大資料進階資料和高階開發教程,歡迎進階中和進想深入大資料的小夥伴。
 

 

2.別在舒適區域懶惰下來。如果你開始一個新專案,最好是學習一些新的框架/庫/工具。 如果你正在構建以df = pd.read_csv(檔名)開頭並以f1 = f1_score(y_true,y_pred)結尾的第6個Jupyter筆記本,那麼就該改變你的策略了。

 

3.做點無聊的事情。其他人沒有這樣做,因為沒有人喜歡無聊的事情。但是學習一個合適的Git流程,如何使用Docker,如何使用Flask構建應用程式,以及如何在AWS或Google Cloud上部署模型,這些都是公司迫切希望申請人擁有的技能。

 

4.做讓人感到厭煩的事。1、提議在當地資料科學會議上發表論文。或者,至少參加當地的資料科學會議。2、向LinkedIn上的人傳送建議訊息。儘量提供價值(比如“我剛注意到你網站上的拼寫錯誤”)。然後讓你的問題儘可能具體(“我很想在我的部落格文章中得到你的反饋”)。3、參加大型會議並構建社交網路。4、開始一個研究組。

 

5.做一些看似瘋狂的事情。每個人都使用UCI儲存庫,或使用一些庫存資料集來構建他們的專案。不要那樣做,瞭解如何使用Web抓取庫或一些不受重視的API來構建自定義資料集。資料很難獲得,公司通常需要依靠他們的工程師為他們提供資料。你應該以作為資料科學痴迷的瘋子為目標。

 

這些步驟中的每一條都是能夠使面試官眼前一亮。雖然,它們都不是具有驅魔功效的武器的銀色子彈,但它們確實有助於你在資料科學就業市場上獲得更大的吸引力,併成為一個更有能力的資料科學家。

 

在一天結束時,請記住,當你痛苦的學習技能時,你就是在為自己投資。這意味著所有適用於投資的經濟原則都適用於此:如果你想要一個出色的結果,你必須做出傑出的事情。