1. 程式人生 > >獨家 | 這15個最熱門的GitHub庫你不可錯過!

獨家 | 這15個最熱門的GitHub庫你不可錯過!

640?wx_fmt=png&wxfrom=5&wx_lazy=1

原文標題:15 Trending Data Science GitHub Repositories you can not miss in 2017

作者:SUNIL RAY

翻譯:楊金鴻

校對:閔黎 

本文長度為3400字,建議閱讀5分鐘

本文為你分享2017年最熱門的GitHub專案列表。

簡介

GitHub最初的只是一個控制軟體版本的工具,如今已經發展成為由來自不同背景的GitHub使用者共享他們自己開發的工具/庫,甚至是有用程式碼庫。

GitHub是一座蘊藏了豐富資源的知識寶庫,您不僅可以看到最優秀的開源貢獻專案,還可以看到這些專案的程式碼是如何編寫和實現的。作為一名狂熱的資料科學愛好者,我在2017年末我整理了一份最熱門的GitHub專案列表。快來享受和堅持學習吧!

目錄

一、學習資源庫

1.強大的資料科學

2.機器學習/深度學習手冊

3. 牛津深度自然語言處理課程講座

4. PyTorch——教程

5. NIPS 2017資源

二、開源軟體

1. TensorFlow

2. TuriCreate-一個簡化的機器學習庫

3. OpenPose

4. DeepSpeech

5. 移動深度學習

6. Visdom

7. 深度照片型別轉換

8. CycleGAN

9.Seq2seq

10.Pix2code

一、學習資源庫

1. 強大的科學資料科學

GitHub庫是資料科學首選的終極資源指南。多年來,它是建立在多個不同的開源的資源專案基礎之上,這些資源包括從入門指南、資訊圖表到人們的社交資源網站如:twitter、facebook、Instagram等。不管你是新手還是老手,這裡都有大量的專案資源等待著你學習。


從GitHub庫的目錄結構中可以看出,所有的Github庫都是與各種資源庫的深度集合。

0?wx_fmt=png

Github庫的連線地址:

https://github.com/bulutyazilim/awesome-datascience

2. 機器學習/深度學習參考指南

這個資源庫把常用的工具和技術以參考指南的形式組織起來。這些參考指南內容從非常簡單的工具(如pandas)到非常複雜的技術(如深度學習)應有盡有。當你提供了一顆星星或分支一個資源庫之後,就不再需要通過谷歌瀏覽器來搜尋常用的提示和小技巧。

讓我們來看一看有哪些不同型別的參考指南,例如pandas, numpy, scikit learn, matplotlib, ggplot, dplyr, tidyr, pySpark 和神經網路等。

這些參考指南資料的連結地址:

https://github.com/kailashahirwar/cheatsheets-ai

3. 牛津大學深度自然語言處理課程

斯坦福大學的NLP課程一直是人們想要進入自然語言處理領域的黃金課程。但是隨著深度學習的出現,NLP已經取得了巨大的進步,這一切都要歸功於像RNN和LSTMs這樣的深度學習架構。

基於牛津大學NLP課程的資源庫把NLP的學習帶向了新的高度。這些課程涵蓋了與實踐操作相關的技術和術語,例如使用RNNs進行語言建模,語音識別,語音合成文字等。這個資源庫是牛津課程所有教材的一站式儲存,為實踐操作提供了必備的資料。

這個庫的連結地址:

https://github.com/oxford-cs-deepnlp-2017/lectures

4. PyTorch——教程

0?wx_fmt=jpeg

到目前為止,PyTorch是Tensorflow唯一的競爭對手。PyTorch的Python化的編碼風格、動態計算和快速的原型設計贏得了盛讚,因此獲得了深度學習社群的高度關注。

這個資源庫包含了用於深度學習的工作程式碼,例如在PyTorch中建立一個神經網路這樣的基本任務,以及編寫RNN、GANs和神經風格遷移演算法的程式碼。大多數模型的功能實現只需要30行程式碼。這說明PyTorch所提供的抽象化功能,使研究人員能夠集中精力快速尋找正確的模型,而不是糾纏於程式語言或工具選擇這些細節的問題。

PyTorch庫的連結地址:

https://github.com/yunjey/pytorch-tutorial

5. NIPS 2017資源

這個資源庫提供了NIPS 2017大會的資源列表,包括了所有邀請的會談、教程講座和研討會上的資料和幻燈片。NIPS (Neural Information Processing Systems), 是專門為機器學習和計算神經科學領域舉辦的年度頂級國際會議。

在過去幾年中,在資料科學行業中發生的大多數突破性研究成果都是在這個會議上提出的。如果你想立於資料科學的潮頭,那麼這裡是你獲得正確資源的源頭。

二、開源軟體

1. TensorFlow

0?wx_fmt=png

TensorFlow正式釋出已經有2年了,但它一直保持著頂尖的機器學習/深度學習庫的地位。Google大腦和TensorFlow開發的社群一直在積極地作出貢獻,並保持與最新的技術發展同步,特別是在深度學習領域。

TensorFlow最初是一個採用資料流圖(data flow graphs),用於數值計算的開源軟體庫。但是從TensorFlow的發展現狀看,可以說它是一個構建深度學習模型的完整資源庫。雖然TensorFlow主要支援Python,但它也支援C、C++、Java等語言,最要的是它可以在移動平臺上執行。

TensorFlow的連結地址:

https://github.com/tensorflow/tensorflow

2. TuriCreate-一個簡化的機器學習庫

0?wx_fmt=png

最近最熱的話題是蘋果公司的開源貢獻專案TuriCreate。它簡化了機器學習模型的建立和部署,可用於複雜的任務,如物件檢測、活動分類和推薦系統。

作為一名資料科學愛好者,我記得Turi建立了GraphLab——一個神奇的機器學習庫,因而被蘋果公司收購。資料科學行業的每個人都在期待這種爆炸性的事情發生。

TuriCreate是專門為Python的使用者開發的。它提供的最好的功能之一是可以輕鬆地將機器學習模型部署到Core ML(蘋果公司的另一個開源軟體)中,使用在iOS、macOS、watchOS和tvOS的應用程式中。

TuriCreate的連結地址:

https://github.com/apple/turicreate

3. OpenPose

0?wx_fmt=png

OpenPose是一個多目標人體關鍵點檢測庫,它可以幫助你實時檢測影象或視訊中人的位置。OpenPose由CMU的感知計算實驗室開發,下面這個例子很好地說明了開源的研究專案也可以很容易被工業界接受。

0?wx_fmt=png

動圖請檢視原文連結

OpenPose這個最好的使用案例是幫助人們解決活動檢測的問題。例如,參與者所做的動作可以被實時捕獲。然後,這些關鍵點和他們的動作可以被製作成動畫電影。

OpenPose用C++的API訪問。同時,也可以用簡單的命令列介面來處理影象或者視訊。

OpenPose的連結地址:

https://github.com/CMU-Perceptual-Computing-Lab/openpose

4. DeepSpeech

0?wx_fmt=png

DeepSpeech庫是百度研究中最先進的語音文字合成技術的開源專案。它基於TensorFlow,可以在Python,NodeJS和命令列中使用。

Mozilla是從無到有參與構建開源DeepSpeech庫的主要成員之一“只有少數幾家主導商業優質語音識別服務的大公司才可以做出好的深度語言技術。這不僅減少了使用者的可選擇性,也降低了初創公司、研究人員甚至更大的公司對產品的可用性。因此這些公司想要讓他們的產品和服務變得更好,就要與志同道合的開發者、公司和研究人員組成一個社群。我們採用了先進的機器學習和各種各樣的創新技術來構建一個語音到文字的引擎”。Mozilla的技術戰略副總裁肖恩懷特在一篇博文(https://blog.mozilla.org/blog/2017/11/29/announcing-the-initial-release-of-mozillas-open-source-speech-recognition-model-and-voice-dataset/)中寫道。

DeepSpeech庫的連結地址:

https://github.com/CMU-Perceptual-Computing-Lab/openpose

5. 移動深度學習

這個知識庫為移動平臺帶來了最先進的資料科學技術。該知識庫是由百度研究開發,目的是在Android和IOS等移動裝置上部署深度學習模型,降低複雜性,提高執行速度。用移動深度學習庫中的一個簡單的用例來解釋,例如物件檢測,它可以識別一個移動物體在影象中的確切位置,是不是很酷啊?

0?wx_fmt=png

動圖請檢視原文連結

移動深度學習庫的地址:

https://github.com/baidu/mobile-deep-learning

6. Visdom

Visdom是一個支援在協作者之間傳播圖形、影象和文字的庫。您可以通過編寫程式程或UI生成您的視覺化空間,建立實時資料的顯示板,檢查實驗結果,或除錯實驗程式碼。

0?wx_fmt=png

對於繪圖函式輸入的精度不同,儘管它們中的大多數都是輸入一個張量(三維)X不包含資料,和一個(可選擇)張量(三維)Y包含可選的資料變數(如標籤或時間戳)。繪圖函式支援所有的基本繪圖型別,建立由Plotly提供的視覺化。

Visdom支援在Python中使用Torch和Numpy。

Visdom庫的連線地址:

https://github.com/facebookresearch/visdom

7. 深度照片型別轉換

該庫來源於一篇研究論文(https://arxiv.org/pdf/1703.07511.pdf),介紹了一種深入學習攝影型別轉換方法,它可以處理大量的影象內容,忠實傳遞圖片相關型別樣式。該方法成功地抑制了失真,並在各種場景中,,包括時間的轉移、天氣、季節和藝術編輯,產生了令人滿意的相片般逼真的風格。這段程式碼是基於Torch實現。

0?wx_fmt=png

該庫的連線地址:

https://github.com/luanfujun/deep-photo-styletransfer

8. CycleGAN

CycleGAN是一個有趣且功能強大的庫,展示了潛在的最先進技術。舉個例子,下面的圖片是該庫可以做的事情——調整影象的深度感知。它的先進性在於不需要你告訴演算法,需要處理影象的哪一部分,它能通過自己的演算法做出判斷。

0?wx_fmt=png

目前,該庫是用Lua編寫的,但也可以在命令列中使用。

該庫的連結地址:

https://github.com/junyanz/CycleGAN

9. Seq2seq

Seq2seq最初是為機器翻譯而編寫的,但後來被開發用於各種其他任務,包括摘要、會話建模和影象字幕。只要一個問題能夠以一種格式編碼輸入並解碼成另一種格式輸出,就可以使用這個框架。它是用Python中流行的Tensorflow庫編寫的。

0?wx_fmt=png

該庫的連結地址:

https://github.com/google/seq2seq

10. Pix2code

Pix2code是深度學習領域一個非常振奮的專案,這個專案的功能點在於試圖給GUI自動生成程式碼。當構建網站或移動介面時,前端工程師通常需要編寫重複的程式碼,這個耗時且非生產性的工作阻礙了開發人員將大部分時間用於實現他們正在構建的軟體的實際功能和邏輯。Pix2code可自動完成這個這個繁瑣的工作。它基於一種新穎的方法,允許從單個GUI螢幕截圖中生成計算機標識語言作為輸入。

這有是一個解釋pix2code用例的視訊,連結地址:

https://youtu.be/pqKeXkhFA3I

Pix2code是用python編寫的,可用於捕獲移動和web介面的影象並將其轉換成程式碼。

該庫的連線地址:

https://github.com/tonybeltramelli/pix2code

尾註

我希望你能瞭解到2017年GitHub上釋出的一些新開源工具或技術。如果你在過去看到過更多這樣有用的資源,請在下面的評論中告訴我。

原文連結:

https://www.analyticsvidhya.com/blog/2017/12/15-data-science-repositories-github-2017/

640?wx_fmt=jpeg

楊金鴻,北京護航科技有限公司員工,在業餘時間喜歡翻譯一些技術文件。喜歡閱讀有關資料探勘、資料庫之類的書,學習java語言程式設計等,希望能在資料派平臺上熟識更多愛好相同的夥伴,今後能在資料科學的道路上走的更遠,飛的更遠。

翻譯組招募資訊

工作內容:將選取好的外文前沿文章準確地翻譯成流暢的中文。如果你是資料科學/統計學/計算機專業的留學生,或在海外從事相關工作,或對自己外語水平有信心的朋友,資料派翻譯組歡迎你們加入!

你能得到:提高對於資料科學前沿的認知,提高對外文新聞來源渠道的認知,海外的朋友可以和國內技術應用發展保持聯絡,資料派團隊產學研的背景為志願者帶來好的發展機遇。

其他福利:和來自於名企的資料科學工作者,北大清華以及海外等名校學生共同合作、交流。

點選文末“閱讀原文”加入資料派團隊~

轉載須知

如需轉載,請在開篇顯著位置註明作者和出處(轉自:資料派THUID:DatapiTHU),並在文章結尾放置資料派醒目二維碼。有原創標識文章,請傳送【文章名稱-待授權公眾號名稱及ID】至聯絡郵箱,申請白名單授權並按要求編輯。

釋出後請將連結反饋至聯絡郵箱(見下方)。未經許可的轉載以及改編者,我們將依法追究其法律責任。


640?wx_fmt=jpeg

點選“閱讀原文”加入組織~