1. 程式人生 > >近200篇機器學習&深度學習資料分享(含各種文件,視訊,原始碼等)

近200篇機器學習&深度學習資料分享(含各種文件,視訊,原始碼等)

編者按:本文收集了百來篇關於機器學習深度學習的資料,含各種文件,視訊,原始碼等。而且原文也會不定期的更新,望看到文章的朋友能夠學到更多。

介紹:這是一篇介紹機器學習歷史的文章,介紹很全面,從感知機、神經網路、決策樹、SVM、Adaboost 到隨機森林、Deep Learning.

介紹:這是瑞士人工智慧實驗室 Jurgen Schmidhuber 寫的最新版本《神經網路與深度學習綜述》本綜述的特點是以時間排序,從 1940 年開始講起,到 60-80 年代,80-90 年代,一直講到 2000 年後及最近幾年的進展。涵蓋了 deep learning 裡各種 tricks,引用非常全面.

介紹:這是一份 

Python 機器學習庫,如果您是一位 python 工程師而且想深入的學習機器學習.那麼這篇文章或許能夠幫助到你.

介紹:這一篇介紹如果設計和管理屬於你自己的機器學習專案的文章,裡面提供了管理模版、資料管理與實踐方法.

介紹:如果你還不知道什麼是機器學習,或則是剛剛學習感覺到很枯燥乏味。那麼推薦一讀。這篇文章已經被翻譯成中文,如果有興趣可以移步 http://blog.jobbole.com/67616/

《R語言參考卡片》

介紹:R語言是機器學習的主要語言,有很多的朋友想學習R語言,但是總是忘記一些函式與關鍵字的含義。那麼這篇文章或許能夠幫助到你。

介紹:我該如何選擇機器學習演算法

,這篇文章比較直觀的比較了 Naive Bayes,Logistic Regression,SVM,決策樹等方法的優劣,另外討論了樣本大小、Feature 與 Model 權衡等問題。此外還有已經翻譯了的版本:http://www.52ml.net/15063.html

介紹:<機器學習與優化>這是一本機器學習的小冊子, 短短 300 多頁道盡機器學習的方方面面. 圖文並茂, 生動易懂, 沒有一坨坨公式的煩惱. 適合新手入門打基礎, 也適合老手溫故而知新. 比起 MLAPP/PRML 等大部頭, 也許這本你更需要!具體內容推薦閱讀: http://intelligent-optimization.org/LIONbook/

《深度學習與統計學習理論》

介紹:作者是來自百度,不過他本人已經在 2014 年 4 月份申請離職了。但是這篇文章很不錯如果你不知道深度學習與支援向量機/統計學習理論有什麼聯絡?那麼應該立即看看這篇文章.

介紹:這本書是由谷歌公司和 MIT 共同出品的電腦科學中的數學:Mathematics for Computer Science,Eric Lehman et al 2013 。分為 5 大部分:1)證明,歸納。2)結構,數論,圖。3)計數,求和,生成函式。4)概率,隨機行走。5)遞迴。等等

介紹:這本書是由谷歌公司和 MIT 共同出品的電腦科學中的數學:Mathematics for Computer Science,Eric Lehman et al 2013 。分為 5 大部分:1)證明,歸納。2)結構,數論,圖。3)計數,求和,生成函式。4)概率,隨機行走。5)遞迴。等等

介紹:資訊時代的電腦科學理論,目前國內有紙質書購買,iTunes 購買。

介紹:這是一本由雪城大學新編的第二版《資料科學入門》教材:偏實用型,淺顯易懂,適合想學習R語言的同學選讀。

介紹:這並不是一篇文件或書籍。這是篇向圖靈獎得主 Donald Knuth 提問記錄稿: 近日, Charles Leiserson, Al Aho, Jon Bentley 等大神向 Knuth 提出了 20 個問題,內容包括 TAOCP,P/NP 問題,圖靈機,邏輯,以及為什麼大神不用電郵等等。

介紹:不會統計怎麼辦?不知道如何選擇合適的統計模型怎麼辦?那這篇文章你的好好讀一讀了麻省理工 Joshua B. Tenenbaum 和劍橋 Zoubin Ghahramani 合作,寫了一篇關於 automatic statistician 的文章。可以自動選擇迴歸模型類別,還能自動寫報告...

介紹:對深度學習和 representation learning 最新進展有興趣的同學可以瞭解一下。

介紹:這是一本資訊檢索相關的書籍,是由斯坦福 Manning 與谷歌副總裁 Raghavan 等合著的 Introduction to Information Retrieval 一直是北美最受歡迎的資訊檢索教材之一。最近作者增加了該課程的幻燈片和作業。IR 相關資源: http://www-nlp.stanford.edu/IR-book/information-retrieval.html

介紹:Deniz Yuret 用 10 張漂亮的圖來解釋機器學習重要概念:1. Bias/Variance Tradeoff 2. Overfitting 3. Bayesian / Occam's razor 4. Feature combination 5. Irrelevant feature 6. Basis function 7. Discriminative / Generative 8. Loss function 9. Least squares 10. Sparsity. 很清晰

介紹:雅虎研究院的資料集彙總: 包括語言類資料,圖與社交類資料,評分與分類資料,計算廣告學資料,影象資料,競賽資料,以及系統類的資料。

介紹:機器學習最佳入門學習資料彙總是專為機器學習初學者推薦的優質學習資源,幫助初學者快速入門。而且這篇文章的介紹已經被翻譯成中文版。如果你不怎麼熟悉,那麼我建議你先看一看中文的介紹。

介紹:主要是順著 Bengio 的 PAMI review 的文章找出來的。包括幾本綜述文章,將近 100 篇論文,各位山頭們的 Presentation。全部都可以在 google 上找到。

介紹:這是一本書籍,主要介紹的是跨語言資訊檢索方面的知識。理論很多

介紹:康奈爾大學資訊科學系助理教授 David Mimno 寫的《對機器學習初學者的一點建議》, 寫的挺實際,強調實踐與理論結合,最後還引用了馮 · 諾依曼的名言: "Young man, in mathematics you don't understand things. You just get used to them."

介紹:這是一本關於分散式並行處理的資料《Explorations in Parallel Distributed Processing: A Handbook of Models, Programs, and Exercises》,作者是斯坦福的 James L. McClelland。著重介紹了各種神級網路演算法的分散式實現,做 Distributed Deep Learning 的童鞋可以參考下。

介紹:【“機器學習”是什麼?】John Platt 是微軟研究院傑出科學家,17 年來他一直在機器學習領域耕耘。近年來機器學習變得炙手可熱,Platt 和同事們遂決定開設部落格,向公眾介紹機器學習的研究進展。機器學習是什麼,被應用在哪裡?來看 Platt 的這篇博文。

介紹:2014 年國際機器學習大會(ICML)已經於 6 月 21-26 日在國家會議中心隆重舉辦。本次大會由微軟亞洲研究院和清華大學聯手主辦,是這個有著 30 多年曆史並享譽世界的機器學習領域的盛會首次來到中國,已成功吸引海內外 1200 多位學者的報名參與。乾貨很多,值得深入學習下。

介紹:這篇文章主要是以 Learning to Rank 為例說明企業界機器學習的具體應用,RankNet 對 NDCG 之類不敏感,加入 NDCG 因素後變成了 LambdaRank,同樣的思想從神經網路改為應用到 Boosted Tree 模型就成就了 LambdaMART。 Chirs Burges,微軟的機器學習大神,Yahoo 2010 Learning to Rank Challenge 第一名得主,排序模型方面有 RankNet,LambdaRank,LambdaMART,尤其以 LambdaMART 最為突出,代表論文為: From RankNet to LambdaRank to LambdaMART: An Overview此外,Burges 還有很多有名的代表作,比如: A Tutorial on Support Vector Machines for Pattern Recognition

介紹:100 Best GitHub: Deep Learning

介紹:本教程將闡述無監督特徵學習和深度學習的主要觀點。通過學習,你也將實現多個功能學習/深度學習演算法,能看到它們為你工作,並學習如何應用/適應這些想法到新問題上。本教程假定機器學習的基本知識(特別是熟悉的監督學習,邏輯迴歸,梯度下降的想法),如果你不熟悉這些想法,我們建議你去這裡 機器學習課程,並先完成第 II,III,IV 章(到邏輯迴歸)。此外這關於這套教程的原始碼在 github 上面已經有 python 版本了 UFLDL Tutorial Code

介紹:這份文件來自微軟研究院,精髓很多。如果需要完全理解,需要一定的機器學習基礎。不過有些地方會讓人眼前一亮,毛塞頓開。

介紹:這是一篇介紹影象卷積運算的文章,講的已經算比較詳細的了。

介紹:一個超級完整的機器學習開源庫總結,如果你認為這個碉堡了,那後面這個列表會更讓你驚訝:【Awesome Awesomeness】,國內已經有熱心的朋友進行了翻譯 中文介紹, 機器學習資料探勘免費電子書

介紹:ACL 候任主席、斯坦福大學計算機系 Chris Manning 教授的《自然語言處理》課程所有視訊已經可以在斯坦福公開課網站上觀看了(如 Chrome 不行,可用 IE 觀看) 作業與測驗也可以下載。

介紹:對比 Deep Learning 和 Shallow Learning 的好文,來著浙大畢業、MIT 讀博的 Chiyuan Zhang 的部落格。

介紹:利用卷積神經網路做音樂推薦。

介紹:Java 機器學習相關平臺和開源的機器學習庫,按照大資料、NLP、計算機視覺和 Deep Learning 分類進行了整理。看起來挺全的,Java 愛好者值得收藏。

介紹:機器學習最基本的入門文章,適合零基礎者。

介紹:機器學習的演算法很多。很多時候困惑人們都是,很多演算法是一類演算法,而有些演算法又是從其他演算法中延伸出來的。這裡,我們從兩個方面來給大家介紹,第一個方面是學習的方式,第二個方面是演算法的類似性。

介紹:看題目你已經知道了是什麼內容,沒錯。裡面有很多經典的機器學習論文值得仔細與反覆的閱讀。

介紹:視訊由加州理工學院(Caltech)出品。需要英語底子。

介紹:總結了機器學習的經典書籍,包括數學基礎和演算法理論的書籍,可做為入門參考書單。

介紹:16 本機器學習的電子書,可以下載下來在 pad,手機上面任意時刻去閱讀。不多我建議你看完一本再下載一本。

介紹:標題很大,從新手到專家。不過看完上面所有資料。肯定是專家了。

介紹:入門的書真的很多,而且我已經幫你找齊了。

介紹:Sibyl 是一個監督式機器學習系統,用來解決預測方面的問題,比如 YouTube 的視訊推薦。

介紹:Yoshua Bengio, Ian Goodfellow, Aaron Courville 著。

介紹:關於(Deep) Neural Networks 在 NLP 和 Text Mining 方面一些 paper 的總結。

介紹:計算機視覺入門之前景目標檢測1(總結)

介紹:計算機視覺入門之行人檢測。

介紹:Important resources for learning and understanding . Is awesome

介紹:這又是一篇機器學習初學者的入門文章。值得一讀

介紹:線上 Neural Networks and Deep Learning 電子書。

介紹:python 的 17 個關於機器學習的工具。

介紹:作者王益目前是騰訊廣告演算法總監,王益博士畢業後在 google 任研究。這篇文章王益博士 7 年來從谷歌到騰訊對於分佈機器學習的所見所聞。值得細讀

介紹:把機器學習提升的級別分為0~4 級,每級需要學習的教材和掌握的知識。這樣,給機器學習者提供一個上進的路線圖,以免走彎路。另外,整個網站都是關於機器學習的,資源很豐富。

介紹:機器學習各個方向綜述的網站;

介紹:深度學習閱資源列表;

介紹:這是一本來自微的研究員 li Peng 和 Dong Yu 所著的關於深度學習的方法和應用的電子書;

介紹:2014 年七月 CMU 舉辦的機器學習夏季課剛剛結束有近 50 小時的視訊、十多個 PDF 版幻燈片,覆蓋深度學習,貝葉斯,分散式機器學習,伸縮性等熱點話題。所有 13 名講師都是牛人:包括大牛 Tom Mitchell (他的[機器學習]是名校的常用教材),還有 CMU 李沐 .(1080P 高清喲)

介紹:在今年的 IEEE/IFIP 可靠系統和網路(DSN)國際會議上,Google 軟體工程師 Tushar Chandra 做了一個關於 Sibyl 系統的主題演講。 Sibyl 是一個監督式機器學習系統,用來解決預測方面的問題,比如 YouTube 的視訊推薦。詳情請閱讀 google sibyl

介紹:谷歌研究院的 Christian Szegedy 在谷歌研究院的部落格上簡要地介紹了他們今年參加 ImageNet 取得好成績的 GoogLeNet 系統.是關於影象處理的。

介紹:網友問伯克利機器學習大牛、美國雙料院士 Michael I. Jordan:"如果你有 10 億美金,你怎麼花?Jordan: "我會用這 10 億美金建造一個 NASA 級別的自然語言處理研究專案。"

介紹:常見面試之機器學習演算法思想簡單梳理;

介紹:Videolectures 上最受歡迎的 25 個文字與資料探勘視訊彙總;

介紹:在 Kaggle 上經常取得不錯成績的 Tim Dettmers 介紹了他自己是怎麼選擇深度學習的 GPUs, 以及個人如何構建深度學習的 GPU 叢集: http://t.cn/RhpuD1G

介紹:對話機器學習大神 Michael Jordan

介紹:是 Stanford 教授 Andrew Ng 的 Deep Learning 教程,國內的機器學習愛好者很熱心的把這個教程翻譯成了中文。如果你英語不好,可以看看這個。

介紹:因為近兩年來,深度學習在媒體界被炒作很厲害(就像大資料)。其實很多人都還不知道什麼是深度學習。這篇文章由淺入深。告訴你深度學究竟是什麼!

介紹:這是斯坦福大學做的一免費課程(很勉強),這個可以給你在深度學習的路上給你一個學習的思路。裡面提到了一些基本的演算法。而且告訴你如何去應用到實際環境中。 中文版

介紹:這是多倫多大學做的一個深度學習用來識別圖片標籤/圖轉文字的 demo。是一個實際應用案例。有原始碼

介紹:機器學習模型,閱讀這個內容需要有一定的基礎。

介紹: (CRAN Task Views, 34 種常見任務,每個任務又各自分類列舉若干常用相關工具包) 例如: 機器學習,自然語言處理,時間序列分析,空間資訊分析,多重變數分析,計量經濟學,心理統計學,社會學統計,化學計量學,環境科學,藥物代謝動力學等。

介紹: 機器學習無疑是當前資料分析領域的一個熱點內容。很多人在平時的工作中都或多或少會用到機器學習的演算法。本文為您總結一下常見的機器學習演算法,以供您在工作和學習中參考.

介紹: 很多幹貨,而且作者還總結了好幾個系列。另外還作者還了一個文章導航.非常的感謝作者總結。

介紹:傳送理由:Rob Fergus 的用深度學習做計算機是覺的 NIPS 2013 教程。有 mp4, mp3, pdf 各種下載 他是紐約大學教授,目前也在 Facebook 工作,他 2014 年的 8 篇 論文

介紹:FudanNLP,這是一個復旦大學計算機學院開發的開源中文自然語言處理(NLP)工具包 Fudan NLP 裡包含中文分詞、關鍵詞抽取、命名實體識別、詞性標註、時間詞抽取、語法分析等功能,對搜尋引擎文字分析等極為有價值。

介紹:LinkedIn 開源的機器學習工具包,支援單機, Hadoop cluster,和 Spark cluster 重點是 logistic regression 演算法。

介紹:對於英語不好,但又很想學習機器學習的朋友。是一個大的福利。機器學習週刊目前主要提供中文版,還是面向廣大國內愛好者,內容涉及機器學習、資料探勘、並行系統、影象識別、人工智慧機器人等等。謝謝作者。

《線性代數》

介紹:《線性代數》是《機器學習》的重要數學先導課程。其實《線代》這門課講得淺顯易懂特別不容易,如果一上來就講逆序數及羅列行列式性質,很容易讓學生失去學習的興趣。我個人推薦的最佳《線性代數》課程是麻省理工 Gilbert Strang 教授的課程。 課程主頁

介紹:大資料資料處理資源、工具不完備列表,從框架、分散式程式設計、分散式檔案系統、鍵值資料模型、圖資料模型、資料視覺化、列儲存、機器學習等。很讚的資源彙總。

介紹:雅虎邀請了一名來自本古裡安大學的訪問學者,製作了一套關於機器學習的系列視訊課程。本課程共分為 7 期,詳細講解了有關 SVM, boosting, nearest neighbors, decision trees 等常規機器學習演算法的理論基礎知識。

介紹:應對大資料時代,量子機器學習的第一個實驗 paper 下載

介紹:Wired 雜誌報道了 UCLA 數學博士 Chris McKinlay (圖1)通過大資料手段+機器學習方法破解婚戀網站配對演算法找到真愛的故事,通過 Python 指令碼控制著 12 個賬號,下載了婚戀網站 2 萬女使用者的 600 萬問題答案,對他們進行了統計抽樣及聚類分析(圖2,3),最後終於收穫了真愛。科技改變命運!

介紹:MIT 的 Underactuated Robotics 於 2014 年 10 月 1 日開課,該課屬於 MIT 研究生級別的課程,對機器人和非線性動力系統感興趣的朋友不妨可以挑戰一下這門課程!

介紹:mllib 實踐經驗分享

介紹:Google 用 Deep Learning 做的 antispam (反垃圾郵件)

介紹:機器學習速查表

介紹:從 1996 年開始在電腦科學的論文中被引用次數最多的論文

介紹:把今年的一個 ACM Trans. on Graphics (TOG)論文中的程式碼整理為一個開源的演算法框架,共享出來了。歡迎大家使用。可以實時的採集 3D 資料、重建出三維模型。Online learning,GPU Random forest,GPU CRF 也會後續公開。

介紹:【神經網路黑客指南】現在,最火莫過於深度學習(Deep Learning),怎樣更好學習它?可以讓你在瀏覽器中,跑起深度學習效果的超酷開源專案 convnetjs 作者 karpathy 告訴你,最佳技巧是,當你開始寫程式碼,一切將變得清晰。他剛釋出了一本圖書,不斷線上更新。

介紹:前 Google 廣告系統工程師 Josh Wills 講述工業界和學術界機器學習的異同,大實話。

介紹:使用 Neo4j 做電影評論的情感分析。

介紹:不僅是資料,而且還對有些資料做了註釋。

介紹:深度學習入門的初級讀本

介紹:機器學習教會了我們什麼?

介紹:scikit-learn 是在 SciPy 基礎上構建的用於機器學習的 Python 模組。

介紹:喬丹教授(Michael I. Jordan)教授是機器學習領域神經網路的大牛,他對深度學習、神經網路有著很濃厚的興趣。因此,很多提問的問題中包含了機器學習領域的各類模型,喬丹教授對此一一做了解釋和展望。

介紹:A*搜尋是人工智慧基本演算法,用於高效地搜尋圖中兩點的最佳路徑, 核心是 g (n) +h(n): g (n)是從起點到頂點n的實際代價,h(n)是頂點n到目標頂點的估算代價。 合集

介紹:本專案利用了 Microsoft Azure,可以在幾分種內完成 NLP on Azure Website 的部署,立即開始對 FNLP 各種特性的試用,或者以 REST API 的形式呼叫 FNLP 的語言分析功能。

介紹:現任復旦大學首席教授、計算機軟體博士生導師。電腦科學研究所副所長.內部課程。

介紹:好東西的乾貨真的很多

介紹:從硬體、影象到健康、生物、大資料、生物資訊再到量子計算等,Amund Tveit 等維護了一個 DeepLearning.University 小專案:收集從 2014 年開始深度學習文獻,相信可以作為深度學習的起點, github

介紹:作者是深度學習一線大牛 Bengio 組寫的教程,演算法深入顯出,還有實現程式碼,一步步展開。

介紹:許多傳統的機器學習任務都是在學習 function,不過谷歌目前有開始學習演算法的趨勢。谷歌另外的這篇學習 Python 程式的 Learning to Execute也有相似之處。

介紹:作者是華為技術有限公司,諾亞方舟實驗室,首席科學家的李航博士寫的關於資訊檢索與自然語言處理的文章。

介紹:利用機用器學習在謠言的判別上的應用,此外還有兩個。一個是識別垃圾與虛假資訊的 paper.還有一個是 網路輿情及其分析技術

《R機器學習實踐》

介紹:該課程是網易公開課的收費課程,不貴,超級便宜。主要適合於對利用R語言進行機器學習,資料探勘感興趣的人。

介紹:本章中作者總結了三代機器學習演算法實現的演化:第一代非分散式的, 第二代工具如 Mahout 和 Rapidminer 實現基於 hadoop 的擴充套件,第三代如 Spark 和 Storm 實現了實時和迭代資料處理。 BIG DATA ANALYTICS BEYOND HADOOP

介紹:講計算機視覺的四部奇書(應該叫經典吧)之一,另外三本是 Hartley 的《多圖幾何》、Gonzalez 的《數字影象處理》、Rafael C.Gonzalez / Richard E.Woods 的 《數字影象處理》

介紹:裡面基本沒涉及到具體演算法,但作者介紹了 CF 在 LinkedIn 的很多應用,以及他們在做推薦過程中獲得的一些經驗。最後一條經驗是應該監控 log 資料的質量,因為推薦的質量很依賴資料的質量!

介紹:初學者如何查閱自然語言處理(NLP)領域學術資料。

介紹:用樹莓派和相機模組進行人臉識別。

介紹:如何利用深度學習與大資料構建對話系統。

介紹:Francis Bach 合作的有關稀疏建模的新綜述(書):Sparse Modeling for Image and Vision Processing,內容涉及 Sparsity, Dictionary Learning, PCA, Matrix Factorization 等理論,以及在影象和視覺上的應用,而且第一部分關於 Why does the l1-norm induce sparsity 的解釋也很不錯。

介紹:RKHS 是機器學習中重要的概念,其在 large margin 分類器上的應用也是廣為熟知的。如果沒有較好的數學基礎,直接理解 RKHS 可能會不易。本文從基本運算空間講到 Banach 和 Hilbert 空間,深入淺出,一共才 12 頁。

介紹:許多同學對於機器學習及深度學習的困惑在於,數學方面已經大致理解了,但是動起手來卻不知道如何下手寫程式碼。斯坦福深度學習博士 Andrej Karpathy 寫了一篇實戰版本的深度學習及機器學習教程,手把手教你用JavaScript 寫神經網路和 SVM.

介紹:【語料庫】語料庫資源彙總。

介紹:本文會過一遍最流行的機器學習演算法,大致瞭解哪些方法可用,很有幫助。

介紹:這個裡面有很多關於機器學習、訊號處理、計算機視覺、深入學習、神經網路等領域的大量原始碼(或可執行程式碼)及相關論文。科研寫論文的好資源。

介紹:NYU 2014 年的深度學習課程資料,有視訊。

介紹:計算機視覺資料集不完全彙總。

介紹:機器學習開源軟體

介紹:A Library for Support Vector Machines

介紹:資料探勘十大經典演算法之一

介紹:github 上面 100 個非常棒的專案

介紹:當前加州大學歐文分校為機器學習社群維護著 306 個數據集。 查詢資料集

介紹:Andrej Karpathy 是斯坦福大學 Li Fei-Fei 的博士生,使用機器學習在影象、視訊語義分析領域取得了科研和工程上的突破,發的文章不多,但每個都很紮實,在每一個問題上都做到了 state-of-art.

介紹:Andrej Karpathy 的深度強化學習演示, 論文在這裡

介紹:CIKM Cup (或者稱為 CIKM Competition)是 ACM CIKM 舉辦的國際資料探勘競賽的名稱。

介紹:傑弗裡·埃弗里斯特·辛頓 FRS 是一位英國出生的計算機學家和心理學家,以其在神經網路方面的貢獻聞名。辛頓是反向傳播演算法和對比散度演算法的發明人之一,也是深度學習的積極推動者.

介紹:微軟研究院深度學習技術中心在 CIKM2014 上關於《自然語言處理的深度學習理論與實際》教學講座的幻燈片。

介紹: 本文基於<支援向量機的高頻限價訂單的動態建模>採用了 Apache Spark 和 Spark MLLib 從紐約股票交易所的訂單日誌資料構建價格運動預測模型。(股票有風險,投資謹慎) GitHub 原始碼託管地址.

介紹:徐宗本院士將於熱愛機器學習的小夥伴一起探討有關於機器學習的幾個理論性問題,並給出一些有意義的結論。最後通過一些例項來說明這些理論問題的物理意義和實際應用價值。

介紹:作者還著有《這就是搜尋引擎:核心技術詳解》一書,主要是介紹應用層的東西。

介紹:機器學習課程

介紹:人臉識別必讀文章推薦

介紹:推薦系統經典論文文獻

介紹:第十二屆中國"機器學習及其應用"研討會 PPT

介紹:統計學習是關於計算機基於資料構建的概率統計模型並運用模型對資料進行預測和分析的一門科學,統計學習也成為統計機器學習。課程來自上海交通大學。

介紹:機器學習的目標是對計算機程式設計,以便使用樣本資料或以往的經驗來解決給定的問題.

介紹:CIKM 2014 Jeff Dean、Qi Lu、Gerhard Weikum 的主題報告的幻燈片, Alex Smola、Limsoon Wong、Tong Zhang、Chih-Jen Lin 的 Industry Track 報告的幻燈片。

介紹:部分中文 列表

介紹:加州伯克利大學博士 Aria Haghighi 寫了一篇超讚的數值優化博文,從牛頓法講到擬牛頓法,再講到 BFGS 以及L-BFGS, 圖文並茂,還有虛擬碼。強烈推薦。

介紹:R語言程式設計師私人定製版

介紹:谷歌地圖解密

介紹:空間資料探勘常用方法

介紹:Kaggle 新比賽 ”When bag of words meets bags of popcorn“ aka ”邊學邊用 word2vec 和 deep learning 做 NLP“ 裡面全套教程教一步一步用 python 和 gensim 包的 word2vec 模型,並在實際比賽裡面比調引數和清資料。 如果已裝過 gensim 不要忘升級。

介紹:PyNLPIR 提供了 NLPIR/ICTCLAS 漢語分詞的 Python 介面,此外 Zhon 提供了常用漢字常量,如 CJK 字元和偏旁,中文標點,拼音,和漢字正則表示式(如找到文字中的繁體字)。

介紹:這文章說把最近模型識別上的突破應用到圍棋軟體上,打 16 萬張職業棋譜訓練模型識別功能。想法不錯。訓練後目前能做到不用計算,只看棋盤就給出下一步,大約 10 級棋力。但這篇文章太過樂觀,說什麼人類的最後一塊堡壘馬上就要跨掉了。話說得太早。不過,如果與別的軟體結合應該還有潛力可挖。@萬精油墨綠

介紹:UT Austin 教授 Eric Price 關於今年 NIPS 審稿實驗的詳細分析,他表示,根據這次實驗的結果,如果今年 NIPS 重新審稿的話,會有一半的論文被拒。

介紹:KDNuggets 分別總結了 2014 年 14 個閱讀最多以及分享最多的文章。我們從中可以看到多個主題——深度學習,資料科學家職業,教育和薪酬,學習資料科學的工具比如R和 Python 以及大眾投票的最受歡迎的資料科學和資料探勘語言。

介紹:Python 實現線性迴歸,作者還有其他很棒的文章推薦可以看看。

介紹:2014 中國大資料技術大會 33 位核心專家演講 PDF 下載

介紹:這是T. Mikolov & Y. Bengio 最新論文 Ensemble of Generative and Discriminative Techniques for Sentiment Analysis of Movie Reviews ,使用 RNN 和 PV 在情感分析效果不錯,[專案程式碼](https://github.com/mesnilgr/iclr15) 公佈在 github (目前是空的)。這意味著 Paragraph Vector 終於揭開面紗了嘛。

介紹:NLPIR/ICTCLAS2015 分詞系統釋出與使用者交流大會上的演講,請更多朋友檢閱新版分詞吧。 我們實驗室同學的演講包括: 孫夢姝-基於評論觀點挖掘的商品搜尋技術研究 李然-主題模型

介紹:Convex Neural Networks 解決維數災難。

介紹:介紹 CNN 引數在使用 bp 演算法時該怎麼訓練,畢竟 CNN 中有卷積層和下采樣層,雖然和 MLP 的 bp 演算法本質上相同,但形式上還是有些區別的,很顯然在完成 CNN 反向傳播前瞭解 bp 演算法是必須的。此外作者也做了一個 資源集:機器學習,深度學習,視覺,數學等

介紹:如果要在一篇文章中匹配十萬個關鍵詞怎麼辦?Aho-Corasick 演算法利用添加了返回邊的 Trie 樹,能夠線上性時間內完成匹配。 但如果匹配十萬個正則表示式呢 ? 這時候可以用到把多個正則優化成 Trie 樹的方法,如日本人寫的 Regexp::Trie

介紹:深度學習閱讀清單

介紹:Caffe 是一個開源的深度學習框架,作者目前在 google 工作,作者主頁 Yangqing Jia (賈揚清)

介紹:2014 ImageNet 冠軍 GoogLeNet 深度學習模型的 Caffe 復現模型, GoogleNet 論文.

介紹:LambdaNetLambdaNet 是由 Haskell 實現的一個開源的人工神經網路庫,它抽象了網路建立、訓練並使用了高階函式。該庫還提供了一組預定義函式,使用者可以採取多種方式組合這些函式來操作現實世界資料。

介紹:如果你從事網際網路搜尋,線上廣告,使用者行為分析,影象識別,自然語言理解,或者生物資訊學,智慧機器人,金融預測,那麼這門核心課程你必須深入瞭解。

介紹:"人工智慧研究分許多流派。其中之一以 IBM 為代表,認為只要有高效能運算就可得到智慧,他們的‘深藍’擊敗了世界象棋冠軍;另一流派認為智慧來自動物本能;還有個很強的流派認為只要找來專家,把他們的思維用邏輯一條條寫下,放到計算機裡就行……" 楊強在 TEDxNanjing 談智慧的起源。

介紹:網易有道的三位工程師寫的 word2vec 的解析文件,從基本的詞向量/統計語言模型->NNLM->Log-Linear/Log-Bilinear->層次化 Log-Bilinear,到 CBOW 和 Skip-gram 模型,再到 word2vec 的各種 tricks,公式推導與程式碼,基本上是網上關於 word2vec 資料的大合集,對 word2vec 感興趣的朋友可以看看。

介紹:作者是計算機研二(寫文章的時候,現在是 2015 年了應該快要畢業了),專業方向自然語言處理.這是一點他的經驗之談.對於入門的朋友或許會有幫助。

介紹:這是一篇關於機器學習演算法分類的文章,非常好。

介紹:機器學習日報裡面推薦很多內容,在這裡有一部分的優秀內容就是來自機器學習日報.

介紹:這是一篇關於影象分類在深度學習中的文章。

介紹:作者與 Bengio 的兄弟 Samy 09 年合編《自動語音識別:核方法》 3)李開復 1989 年《自動語音識別》專著,其博導、94 年圖靈獎得主 Raj Reddy 作序。

介紹: 作者是 360 電商技術組成員,這是一篇 NLP 在中文分詞中的應用。

介紹: 使用 deep learning 的人臉關鍵點檢測,此外還有一篇 AWS 部署教程

介紹: 由 Sebastian Nowozin 等人編纂 MIT 出版的新書《Advanced Structured Prediction》 http://t.cn/RZxipKG,彙集了結構化預測領域諸多牛文,涉及 CV、NLP 等領域,值得一讀。網上公開的幾章草稿: 

介紹: Tropp 把數學家用高深裝逼的數學語言寫的矩陣概率不等式用初等的方法寫出來,是非常好的手冊,領域內的 paper 各種證明都在用裡面的結果。雖說是初等的,但還是非常的難。

介紹: 不容錯過的免費大資料集,有些已經是耳熟能詳,有些可能還是第一次聽說,內容跨越文字、資料、多媒體等,讓他們伴你開始資料科學之旅吧,具體包括:Data.gov、US Census Bureau、European Union Open Data Portal、Data.gov.uk 等。

介紹: 谷歌科學家、Hinton 親傳弟子 Ilya Sutskever 的深度學習綜述及實際建議。

介紹: 非常好的討論遞迴神經網路的文章,覆蓋了 RNN 的概念、原理、訓練及優化等各個方面內容,強烈推薦!本文作者 Nikhil Buduma 還有一篇 Deep Learning in a Nutshell值得推薦。

介紹:裡面融合了很多的資源,例如競賽,線上課程,demo,資料整合等。有分類。

介紹:《機器學習的統計基礎》線上版,該手冊希望在理論與實踐之間找到平衡點,各主要內容都伴有實際例子及資料,書中的例子程式都是用R語言編寫的。

介紹:IVAN VASILEV 寫的深度學習導引:從淺層感知機到深度網路。高可讀。

介紹:魯棒及有益的人工智慧優先研究計劃:一封公開信,目前已經有 Stuart Russell, Tom Dietterich, Eric Horvitz, Yann LeCun, Peter Norvig, Tom Mitchell, Geoffrey Hinton, Elon Musk 等人簽署 The Future of Life Institute (FLI).這封信的背景是最近霍金和 Elon Musk 提醒人們注意 AI 的潛在威脅。公開信的內容是 AI 科學家們站在造福社會的角度,展望人工智慧的未來發展方向,提出開發 AI 系統的 Verification,Validity, Security, Control 四點要求,以及需要注意的社會問題。畢竟當前 AI 在經濟領域,法律,以及道德領域相關研究較少。其實還有一部美劇 《疑犯追蹤》,介紹了 AI 的演進從一開始的自我學習,過濾,影象識別,語音識別等判斷危險,到第四季的時候出現了機器通過學習成長之後想控制世界的狀態。說到這裡推薦收看。

介紹:裡面根據詞條提供了許多資源,還有相關知識結構,路線圖,用時長短等。號稱是”機器學習“搜尋引擎。

介紹:Facebook 人工智慧研究院(FAIR)開源了一系列軟體庫,以幫助開發者建立更大、更快的深度學習模型。開放的軟體庫在 Facebook 被稱作模組。用它們替代機器學習領域常用的開發環境 Torch 中的預設模組,可以在更短的時間內訓練更大規模的神經網路模型。

介紹:本文雖然是寫於 2012 年,但是這篇文章完全是作者的經驗之作。

介紹:本文是對《機器學習實戰》作者 Peter Harrington 做的一個訪談。包含了書中部分的疑問解答和一點個人學習建議。

介紹:非常好的深度學習概述,對幾種流行的深度學習模型都進行了介紹和討論。

介紹:主要是講述了利用R語言進行資料探勘。

介紹:Deep Learning 演算法介紹,裡面介紹了 06 年 3 篇讓 deep learning 崛起的論文。

介紹:一本學習人工智慧的書籍,作者是 Yoshua Bengio,相關 國內報道

介紹:Geoffrey Hinton 是 Deep Learning 的大牛,他的主頁放了一些介紹性文章和課件值得學習。

介紹:概率論:數理邏輯書籍。

《H2O》

介紹:一個用來快速的統計,機器學習並且對於資料量大的數學庫。

介紹:在這裡你可以看到最近深度學習有什麼新動向。

介紹:此書在資訊檢索領域家喻戶曉, 除提供該書的免費電子版外,還提供一個 IR 資源列表 ,收錄了資訊檢索、網路資訊檢索、搜尋引擎實現等方面相關的圖書、研究中心、相關課程、子領域、會議、期刊等等,堪稱全集,值得收藏。

來源: github

原文連結:https://github.com/ty4z2008/Qix/blob/master/dl.md