1. 程式人生 > >機器學習(Machine Learning)與深度學習(Deep Learning)資料 之 文章、部落格

機器學習(Machine Learning)與深度學習(Deep Learning)資料 之 文章、部落格

介紹:這是一篇介紹機器學習歷史的文章,介紹很全面,從感知機、神經網路、決策樹、SVM、Adaboost到隨機森林、DeepLearning.

介紹:這一篇介紹如果設計和管理屬於你自己的機器學習專案的文章,裡面提供了管理模版、資料管理與實踐方法.

介紹:如果你還不知道什麼是機器學習,或則是剛剛學習感覺到很枯燥乏味。那麼推薦一讀。這篇文章已經被翻譯成中文,如果有興趣可以移步http://blog.jobbole.com/67616/

介紹:我該如何選擇機器學習演算法,這篇文章比較直觀的比較了Naive Bayes,Logistic Regression,SVM,決策樹等方法的優劣,另外討論了樣本大小、Feature與Model權衡等問題。此外還有已經翻譯了的版本:

http://www.52ml.net/15063.html

介紹:作者是來自百度,不過他本人已經在2014年4月份申請離職了。但是這篇文章很不錯如果你不知道深度學習與支援向量機/統計學習理論有什麼聯絡?那麼應該立即看看這篇文章.

介紹:這並不是一篇文件或書籍。這是篇向圖靈獎得主Donald Knuth提問記錄稿: 近日, Charles Leiserson, AlAho, Jon Bentley等大神向Knuth提出了20個問題,內容包括TAOCP,P/NP問題,圖靈機,邏輯,以及為什麼大神不用電郵等等。

介紹:不會統計怎麼辦?不知道如何選擇合適的統計模型怎麼辦?那這篇文章你的好好讀一讀了麻省理工Joshua B. Tenenbaum

和劍橋Zoubin Ghahramani合作,寫了一篇關於automatic statistician的文章。可以自動選擇迴歸模型類別,還能自動寫報告...

·        《Machine learning in 10 pictures介紹:Deniz Yuret用10張漂亮的圖來解釋機器學習重要概念:1. Bias/Variance Tradeoff2. Overfitting 3. Bayesian / Occam's razor 4. Feature combination 5. Irrelevantfeature 6. Basis function 7. Discriminative / Generative 8. Loss function 9.Least squares 10. Sparsity.很清晰

介紹:康奈爾大學資訊科學系助理教授DavidMimno寫的《對機器學習初學者的一點建議》, 寫的挺實際,強調實踐與理論結合,最後還引用了馮 • 諾依曼的名言: "Young man, in mathematics you don't understand things. Youjust get used to them."

介紹:【“機器學習”是什麼?】John Platt是微軟研究院傑出科學家,17年來他一直在機器學習領域耕耘。近年來機器學習變得炙手可熱,Platt和同事們遂決定開設部落格,向公眾介紹機器學習的研究進展。機器學習是什麼,被應用在哪裡?來看Platt的這篇博文

介紹:這是一篇介紹影象卷積運算的文章,講的已經算比較詳細的了

介紹:對比 Deep Learning 和 Shallow Learning 的好文,來著浙大畢業、MIT 讀博的 Chiyuan Zhang 的部落格。

介紹:利用卷積神經網路做音樂推薦。

介紹:機器學習最基本的入門文章,適合零基礎者

介紹:機器學習的演算法很多。很多時候困惑人們都是,很多演算法是一類演算法,而有些演算法又是從其他演算法中延伸出來的。這裡,我們從兩個方面來給大家介紹,第一個方面是學習的方式,第二個方面是演算法的類似性。

介紹:計算機視覺入門之前景目標檢測1(總結)

介紹:計算機視覺入門之行人檢測

介紹:這又是一篇機器學習初學者的入門文章。值得一讀

介紹:作者王益目前是騰訊廣告演算法總監,王益博士畢業後在google任研究。這篇文章王益博士7年來從谷歌到騰訊對於分佈機器學習的所見所聞。值得細讀

介紹:把機器學習提升的級別分為0~4級,每級需要學習的教材和掌握的知識。這樣,給機器學習者提供一個上進的路線圖,以免走彎路。另外,整個網站都是關於機器學習的,資源很豐富。

介紹:機器學習各個方向綜述的網站

介紹:2014年七月CMU舉辦的機器學習夏季課剛剛結束 有近50小時的視訊、十多個PDF版幻燈片,覆蓋 深度學習,貝葉斯,分散式機器學習,伸縮性 等熱點話題。所有13名講師都是牛人:包括大牛Tom Mitchell (他的[機器學習]是名校的常用教材),還有CMU李沐 .(1080P高清喲)

介紹:在今年的IEEE/IFIP可靠系統和網路(DSN)國際會議上,Google軟體工程師Tushar Chandra做了一個關於Sibyl系統的主題演講。 Sibyl是一個監督式機器學習系統,用來解決預測方面的問題,比如YouTube的視訊推薦。詳情請閱讀google sibyl

介紹:谷歌研究院的Christian Szegedy在谷歌研究院的部落格上簡要地介紹了他們今年參加ImageNet取得好成績的GoogLeNet系統.是關於影象處理的。

介紹:網友問伯克利機器學習大牛、美國雙料院士Michael I. Jordan:"如果你有10億美金,你怎麼花?Jordan: "我會用這10億美金建造一個NASA級別的自然語言處理研究專案。" 

介紹:常見面試之機器學習演算法思想簡單梳理,此外作者還有一些其他的機器學習與資料探勘文章深度學習文章,不僅是理論還有原始碼。

介紹:在Kaggle上經常取得不錯成績的Tim Dettmers介紹了他自己是怎麼選擇深度學習的GPUs, 以及個人如何構建深度學習的GPU叢集: http://t.cn/RhpuD1G

介紹:對話機器學習大神Michael Jordan

介紹:因為近兩年來,深度學習在媒體界被炒作很厲害(就像大資料)。其實很多人都還不知道什麼是深度學習。這篇文章由淺入深。告訴你深度學究竟是什麼!

介紹:這是多倫多大學做的一個深度學習用來識別圖片標籤/圖轉文字的demo。是一個實際應用案例。有原始碼

介紹:機器學習模型,閱讀這個內容需要有一定的基礎。

介紹: 機器學習無疑是當前資料分析領域的一個熱點內容。很多人在平時的工作中都或多或少會用到機器學習的演算法。本文為您總結一下常見的機器學習演算法,以供您在工作和學習中參考.

介紹:對於英語不好,但又很想學習機器學習的朋友。是一個大的福利。機器學習週刊目前主要提供中文版,還是面向廣大國內愛好者,內容涉及機器學習、資料探勘、並行系統、影象識別、人工智慧、機器人等等。謝謝作者

介紹:Wired雜誌報道了UCLA數學博士Chris McKinlay (圖1)通過大資料手段+機器學習方法破解婚戀網站配對演算法找到真愛的故事,通過Python指令碼控制著12個賬號,下載了婚戀網站2萬女使用者的600萬問題答案,對他們進行了統計抽樣及聚類分析(圖2,3),最後終於收穫了真愛。科技改變命運!

介紹:mllib實踐經驗分享

介紹:Google用Deep Learning做的anti-spam(反垃圾郵件)

介紹:機器學習速查表

介紹:【神經網路黑客指南】現在,最火莫過於深度學習(Deep Learning),怎樣更好學習它?可以讓你在瀏覽器中,跑起深度學習效果的超酷開源專案convnetjs作者karpathy告訴你,最佳技巧是,當你開始寫程式碼,一切將變得清晰。他剛釋出了一本圖書,不斷線上更新

介紹:前Google廣告系統工程師Josh Wills 講述工業界和學術界機器學習的異同,大實話

介紹:使用Neo4j做電影評論的情感分析。

介紹:不僅是資料,而且還對有些資料做了註釋。

介紹:深度學習入門的初級讀本

介紹:機器學習教會了我們什麼?

介紹:喬丹教授(Michael I.Jordan)教授是機器學習領域神經網路的大牛,他對深度學習、神經網路有著很濃厚的興趣。因此,很多提問的問題中包含了機器學習領域的各類模型,喬丹教授對此一一做了解釋和展望。

介紹:A*搜尋是人工智慧基本演算法,用於高效地搜尋圖中兩點的最佳路徑, 核心是 g(n)+h(n): g(n)是從起點到頂點n的實際代價,h(n)是頂點n到目標頂點的估算代價。合集

介紹:從硬體、影象到健康、生物、大資料、生物資訊再到量子計算等,Amund Tveit等維護了一個DeepLearning.University小專案:收集從2014年開始深度學習文獻,相信可以作為深度學習的起點,github

介紹:作者是華為技術有限公司,諾亞方舟實驗室,首席科學家的李航博士寫的關於資訊檢索與自然語言處理的文章

介紹:利用機用器學習在謠言的判別上的應用,此外還有兩個。一個是識別垃圾與虛假資訊的paper.還有一個是網路輿情及其分析技術

介紹:本章中作者總結了三代機器學習演算法實現的演化:第一代非分散式的, 第二代工具如Mahout和Rapidminer實現基於Hadoop的擴充套件,第三代如Spark和Storm實現了實時和迭代資料處理。BIGDATA ANALYTICS BEYOND HADOOP

介紹:裡面基本沒涉及到具體演算法,但作者介紹了CF在LinkedIn的很多應用,以及他們在做推薦過程中獲得的一些經驗。最後一條經驗是應該監控log資料的質量,因為推薦的質量很依賴資料的質量!

介紹:初學者如何查閱自然語言處理(NLP)領域學術資料

介紹:用樹莓派和相機模組進行人臉識別

介紹:如何利用深度學習與大資料構建對話系統 

介紹:RKHS是機器學習中重要的概念,其在large margin分類器上的應用也是廣為熟知的。如果沒有較好的數學基礎,直接理解RKHS可能會不易。本文從基本運算空間講到Banach和Hilbert空間,深入淺出,一共才12頁。

介紹:許多同學對於機器學習及深度學習的困惑在於,數學方面已經大致理解了,但是動起手來卻不知道如何下手寫程式碼。斯坦福深度學習博士Andrej Karpathy寫了一篇實戰版本的深度學習及機器學習教程,手把手教你用Javascript寫神經網路和SVM.

介紹:本文會過一遍最流行的機器學習演算法,大致瞭解哪些方法可用,很有幫助。

介紹:Andrej Karpathy 是斯坦福大學Li Fei-Fei的博士生,使用機器學習在影象、視訊語義分析領域取得了科研和工程上的突破,發的文章不多,但每個都很紮實,在每一個問題上都做到了state-of-art.

介紹:Andrej Karpathy的深度強化學習演示,論文在這裡

介紹:CIKM Cup(或者稱為CIKM Competition)是ACM CIKM舉辦的國際資料探勘競賽的名稱。

介紹:傑弗裡·埃弗里斯特·辛頓 FRS是一位英國出生的計算機學家和心理學家,以其在神經網路方面的貢獻聞名。辛頓是反向傳播演算法和對比散度演算法的發明人之一,也是深度學習的積極推動者.

介紹:微軟研究院深度學習技術中心在CIKM2014上關於《自然語言處理的深度學習理論與實際》教學講座的幻燈片

介紹: 本文基於<支援向量機的高頻限價訂單的動態建模>採用了 Apache Spark和Spark MLLib從紐約股票交易所的訂單日誌資料構建價格運動預測模型。(股票有風險,投資謹慎)GitHub原始碼託管地址.

介紹:徐宗本 院士將於熱愛機器學習的小夥伴一起探討有關於機器學習的幾個理論性問題,並給出一些有意義的結論。最後通過一些例項來說明這些理論問題的物理意義和實際應用價值。

介紹:微博,作者還著有《這就是搜尋引擎:核心技術詳解》一書,主要是介紹應用層的東西

介紹:人臉識別必讀文章推薦

介紹:第十二屆中國"機器學習及其應用"研討會PPT

介紹:CIKM 2014 JeffDean、Qi Lu、Gerhard Weikum的主題報告的幻燈片, Alex Smola、Limsoon Wong、Tong Zhang、Chih-Jen Lin的Industry Track報告的幻燈片

介紹:加州伯克利大學博士Aria Haghighi寫了一篇超讚的數值優化博文,從牛頓法講到擬牛頓法,再講到BFGS以及L-BFGS, 圖文並茂,還有虛擬碼。強烈推薦。

介紹:R語言程式設計師私人定製版

介紹:谷歌地圖解密

介紹:空間資料探勘常用方法

介紹:Kaggle新比賽 ”When bag of words meets bags of popcorn“ aka”邊學邊用word2vec和deep learning做NLP“ 裡面全套教程教一步一步用python和gensim包的word2vec模型,並在實際比賽裡面比調引數和清資料。 如果已裝過gensim不要忘升級

介紹:這文章說把最近模型識別上的突破應用到圍棋軟體上,打16萬張職業棋譜訓練模型識別功能。想法不錯。訓練後目前能做到不用計算,只看棋盤就給出下一步,大約10級棋力。但這篇文章太過樂觀,說什麼人類的最後一塊堡壘馬上就要跨掉了。話說得太早。不過,如果與別的軟體結合應該還有潛力可挖。@萬精油墨綠

介紹:UT Austin教授Eric Price關於今年NIPS審稿實驗的詳細分析,他表示,根據這次實驗的結果,如果今年NIPS重新審稿的話,會有一半的論文被拒。

介紹:KDNuggets分別總結了2014年14個閱讀最多以及分享最多的文章。我們從中可以看到多個主題——深度學習,資料科學家職業,教育和薪酬,學習資料科學的工具比如R和Python以及大眾投票的最受歡迎的資料科學和資料探勘語言

介紹:Python實現線性迴歸,作者還有其他很棒的文章推薦可以看看

介紹:2014中國大資料技術大會33位核心專家演講PDF下載

介紹:NLPIR/ICTCLAS2015分詞系統釋出與使用者交流大會上的演講,請更多朋友檢閱新版分詞吧。我們實驗室同學的演講包括:孫夢姝-基於評論觀點挖掘的商品搜尋技術研究李然-主題模型

介紹:介紹CNN引數在使用bp演算法時該怎麼訓練,畢竟CNN中有卷積層和下采樣層,雖然和MLP的bp演算法本質上相同,但形式上還是有些區別的,很顯然在完成CNN反向傳播前瞭解bp演算法是必須的。此外作者也做了一個資源集:機器學習,深度學習,視覺,數學等

介紹:如果要在一篇文章中匹配十萬個關鍵詞怎麼辦?Aho-Corasick演算法利用添加了返回邊的Trie樹,能夠線上性時間內完成匹配。 但如果匹配十萬個正則表示式呢 ? 這時候可以用到把多個正則優化成Trie樹的方法,如日本人寫的Regexp::Trie

介紹:2014 ImageNet冠軍GoogLeNet深度學習模型的Caffe復現模型,GoogleNet論文.

介紹:"人工智慧研究分許多流派。其中之一以IBM為代表,認為只要有高效能運算就可得到智慧,他們的‘深藍’擊敗了世界象棋冠軍;另一流派認為智慧來自動物本能;還有個很強的流派認為只要找來專家,把他們的思維用邏輯一條條寫下,放到計算機裡就行……" 楊強在TEDxNanjing談智慧的起源

介紹:網易有道的三位工程師寫的word2vec的解析文件,從基本的詞向量/統計語言模型->NNLM->Log-Linear/Log-Bilinear->層次化Log-Bilinear,到CBOW和Skip-gram模型,再到word2vec的各種tricks,公式推導與程式碼,基本上是網上關於word2vec資料的大合集,對word2vec感興趣的朋友可以看看

介紹:作者是計算機研二(寫文章的時候),專業方向自然語言處理.這是一點他的經驗之談.對於入門的朋友或許會有幫助

介紹:這是一篇關於機器學習演算法分類的文章,非常好

介紹:機器學習日報裡面推薦很多內容,在這裡有一部分的優秀內容就是來自機器學習日報.

介紹:這是一篇關於影象分類在深度學習中的文章

介紹:作者與Bengio的兄弟Samy 2009年合編《自動語音識別:核方法》 3)李開復1989年《自動語音識別》專著,其博導、1994年圖靈獎得主Raj Reddy作序

介紹: 作者是360電商技術組成員,這是一篇NLP在中文分詞中的應用

介紹: 使用deep learning的人臉關鍵點檢測,此外還有一篇AWS部署教程

介紹: 非常好的討論遞迴神經網路的文章,覆蓋了RNN的概念、原理、訓練及優化等各個方面內容,強烈推薦!本文作者NikhilBuduma還有一篇DeepLearning in a Nutshell值得推薦

介紹:IVAN VASILEV寫的深度學習導引:從淺層感知機到深度網路。高可讀

介紹:魯棒及有益的人工智慧優先研究計劃:一封公開信,目前已經有Stuart Russell, Tom Dietterich, EricHorvitz, Yann LeCun, Peter Norvig, Tom Mitchell, Geoffrey Hinton, Elon Musk等人簽署The Future of Life Institute (FLI).這封信的背景是最近霍金和ElonMusk提醒人們注意AI的潛在威脅。公開信的內容是AI科學家們站在造福社會的角度,展望人工智慧的未來發展方向,提出開發AI系統的Verification,Validity,Security, Control四點要求,以及需要注意的社會問題。畢竟當前AI在經濟領域,法律,以及道德領域相關研究較少。其實還有一部美劇《疑犯追蹤》,介紹了AI的演進從一開始的自我學習,過濾,影象識別,語音識別等判斷危險,到第四季的時候出現了機器通過學習成長之後想控制世界的狀態。說到這裡推薦收看。

介紹:裡面根據詞條提供了許多資源,還有相關知識結構,路線圖,用時長短等。號稱是”機器學習“搜尋引擎

介紹:本文雖然是寫於2012年,但是這篇文章完全是作者的經驗之作。

介紹:本文是對《機器學習實戰》作者Peter Harrington做的一個訪談。包含了書中部分的疑問解答和一點個人學習建議

介紹:非常好的深度學習概述,對幾種流行的深度學習模型都進行了介紹和討論

介紹:Deep Learning演算法介紹,裡面介紹了2006年3篇讓deeplearning崛起的論文

介紹:Geoffrey Hinton是Deep Learning的大牛,他的主頁放了一些介紹性文章和課件值得學習

介紹:資訊幾何學及其在機器學習中的應用

參考文獻:http://ask.julyedu.com/article/59

介紹:本文主要介紹了在Hadoop2.0上使用深度學習,文章來自paypal

介紹:用基於梯度下降的方法訓練深度框架的實踐推薦指導,作者是YoshuaBengio .感謝@xuewei4d 推薦

介紹: 用統計和因果方法做機器學習(視訊報告)

介紹: 機器學習中的數學,作者的研究方向是機器學習,平行計算如果你還想了解一點其他的可以看看他部落格的其他文章

介紹: 美團推薦演算法實踐,從框架,應用,策略,查詢等分析

介紹: 深度學習用於問答系統答案句的選取 

介紹: CNN用於WEB搜尋,深度學習在文字計算中的應用

介紹: Fields是個數學研究中心,上面的這份ppt是來自Fields舉辦的活動中Russ Salakhutdinov帶來的《大規模機器學習》分享

介紹:Chief scientistof Noah's Ark Lab of Huawei Technologies.He worked at the Research Laboratoriesof NEC Corporation during 1990 and 2001 and Microsoft Research Asia during 2001and 2012.Paper

介紹: Radim Řehůřek(Gensim開發者)在一次機器學習聚會上的報告,關於word2vec及其優化、應用和擴充套件,很實用.國內網盤

介紹: 這是一篇面向工程師的LDA入門筆記,並且提供一份開箱即用Java實現。本文只記錄基本概念與原理,並不涉及公式推導。文中的LDA實現核心部分採用了arbylon的LdaGibbsSampler併力所能及地註解了,在搜狗分類語料庫上測試良好,開源在GitHub上。

介紹: Quora上的主題,討論Word2Vec的有趣應用,Omer Levy提到了他在CoNLL2014最佳論文裡的分析結果和新方法,Daniel Hammack給出了找特異詞的小應用並提供了(Python)程式碼

介紹: 【A First Course in Linear Algebra】RobertBeezer 有答案 有移動版、列印版 使用GNU自由文件協議 引用了傑弗遜1813年的信

介紹: 非常棒的強調特徵選擇對分類器重要性的文章。情感分類中,根據互資訊對複雜高維特徵降維再使用樸素貝葉斯分類器,取得了比SVM更理想的效果,訓練和分類時間也大大降低——更重要的是,不必花大量時間在學習和優化SVM上——特徵也一樣no free lunch

介紹:隨著大資料時代的到來,機器學習成為解決問題的一種重要且關鍵的工具。不管是工業界還是學術界,機器學習都是一個炙手可熱的方向,但是學術界和工業界對機器學習的研究各有側重,學術界側重於對機器學習理論的研究,工業界側重於如何用機器學習來解決實際問題。這篇文章是美團的實際環境中的實戰篇

介紹:面向機器學習的高斯過程,章節概要:迴歸、分類、協方差函式、模型選擇與超參優化、高斯模型與其他模型關係、大資料集的逼近方法等,微盤下載

介紹:用社交使用者行為學習圖片的協同特徵,可更好地表達圖片內容相似性。由於不依賴於人工標籤(標註),可用於大規模圖片處理,難在使用者行為資料的獲取和清洗;利用社會化特徵的思路值得借鑑.

介紹:Twitter技術團隊對前段時間開源的時間序列異常檢測演算法(S-H-ESD)R包的介紹,其中對異常的定義和分析很值得參考,文中也提到——異常是強針對性的,某個領域開發的異常檢測在其他領域直接用可不行.

介紹:聚焦資料質量問題的應對,資料質量對各種規模企業的效能和效率都至關重要,文中總結出(不限於)22種典型資料質量問題顯現的訊號,以及典型的資料質量解決方案(清洗、去重、統一、匹配、許可權清理等)

介紹:15年舊金山深度學習峰會視訊集萃,國內雲盤

介紹:很好的條件隨機場(CRF)介紹文章,作者的學習筆記

介紹:做深度學習如何選擇GPU的建議

介紹: Stanford的Trevor Hastie教授在H2O.ai Meet-Up上的報告,講稀疏線性模型——面向“寬資料”(特徵維數超過樣本數)的線性模型,13年同主題報告講義.

介紹: 大規模機器學習流程的構建與部署.

介紹: 採用Torch用深度學習網路理解NLP,來自Facebook人工智慧的文章.

介紹: 來自CMU的Ed Hovy和Stanford的Jiwei Li一篇有意思的Arxiv文章,作者用Shannon Entropy來刻畫NLP中各項任務的難度.

介紹: 自迴歸滑動平均(ARMA)時間序列的簡單介紹,ARMA是研究時間序列的重要方法,由自迴歸模型(AR模型)與滑動平均模型(MA模型)為基礎“混合”構成.

介紹: 把來自target的attention signal加入source encoding CNN的輸入,得到了比BBN的模型好的多neural network joint model

介紹: 揭開印度菜的美味祕訣——通過對大量食譜原料關係的挖掘,發現印度菜美味的原因之一是其中的味道互相沖突,很有趣的文字挖掘研究

介紹: HMM相關文章

介紹: 1)詞頻與其降序排序的關係,最著名的是語言學家齊夫(Zipf,1902-1950)1949年提出的Zipf‘s law,即二者成反比關係.曼德勃羅(Mandelbrot,1924- 2010)引入引數修正了對甚高頻和甚低頻詞的刻畫 2)Heaps' law: 詞彙表與語料規模的平方根(這是一個引數,英語0.4-0.6)成正比

介紹: Jürgen Schmidhuber在Reddit上的AMA(Ask Me Anything)主題,有不少RNN和AI、ML的乾貨內容,關於開源&思想&方法&建議……耐心閱讀,相信你也會受益匪淺.

介紹: Scikit-Learn官網提供,在原有的Cheat Sheet基礎上加上了Scikit-Learn相關文件的連結,方便瀏覽

介紹: 深度學習的全面硬體指南,從GPU到RAM、CPU、SSD、PCIe

介紹: 【神經科學碰撞人工智慧】在臉部識別上你我都是專家,即使細微的差別也能辨認。研究已證明人類和靈長類動物在面部加工上不同於其他物種,人類使用梭狀回面孔區(FFA)。Khaligh-Razavi等通過計算機模擬出人臉識別的FFA活動,堪稱神經科學與人工智慧的完美結合。

介紹:deeplearning4j官網提供的實際應用場景NN選擇參考表,列舉了一些典型問題建議使用的神經網路

介紹:一個深度學習專案,提供了Python, C/C++, Java, Scala, Go多個版本的程式碼

介紹:自然語言處理的發展趨勢——訪卡內基梅隆大學愛德華·霍威教授.

介紹:Google對Facebook DeepFace的有力回擊—— FaceNet,在LFW(Labeled Faces in the Wild)上達到99.63%準確率(新紀錄),FaceNetembeddings可用於人臉識別、鑑別和聚類.

介紹:本文來自Databricks公司網站的一篇部落格文章,由Joseph Bradley和Manish Amde撰寫,文章主要介紹了Random Forests和Gradient-Boosted Trees(GBTs)演算法和他們在MLlib中的分散式實現,以及展示一些簡單的例子並建議該從何處上手.中文版.

介紹:本文根據神經網路的發展歷程,詳細講解神經網路語言模型在各個階段的形式,其中的模型包含NNLM[Bengio,2003]、Hierarchical NNLM[Bengio,2005], Log-Bilinear[Hinton, 2007],SENNA等重要變形,總結的特別好.

介紹:經典問題的新研究:利用文字和可讀性特徵分類垃圾郵件。

介紹:Kaggle腦控計算機互動(BCI)競賽優勝方案原始碼及文件,包括完整的資料處理流程,是學習Python資料處理和Kaggle經典參賽框架的絕佳例項

介紹:IPOL(線上影象處理)是影象處理和影象分析的研究期刊,每篇文章都包含一個演算法及相應的程式碼、Demo和實驗文件。文字和原始碼是經過了同行評審的。IPOL是開放的科學和可重複的研究期刊。我一直想做點類似的工作,拉近產品和技術之間的距離.

介紹:出自MIT,研究加密資料高效分類問題.

介紹:Chase Davis在NICAR15上的主題報告材料,用Scikit-Learn做監督學習的入門例子.

介紹:這是一本自然語言處理的詞典,從1998年開始到目前積累了成千上萬的專業詞語解釋,如果你是一位剛入門的朋友.可以借這本詞典讓自己成長更快.

介紹:通過分析1930年至今的比賽資料,用PageRank計算世界盃參賽球隊排行榜.

介紹:經典老文,複雜網路社群發現的高效演算法,Gephi中的[Community detection](The Louvainmethod for community detection in large networks)即基於此.

介紹: 決策樹

介紹: 討論深度學習自動編碼器如何有效應對維數災難,國內翻譯

介紹: "面向視覺識別的CNN"課程設計報告集錦.近百篇,內容涉及影象識別應用的各個方面

介紹:用Spark的MLlib+GraphX做大規模LDA主題抽取.

介紹: 基於深度學習的多標籤分類,用基於RBM的DBN解決多標籤分類(特徵)問題

介紹: 免費電子書《資料新聞手冊》, 國內有熱心的朋友翻譯了中文版,大家也可以線上閱讀

介紹: 零售領域的資料探勘文章.

介紹: 深度學習卷積概念詳解,深入淺出.

介紹: 2015文字分析(商業)應用綜述.

介紹: 使用Ruby實現簡單的神經網路例子.

介紹:神經網路黑客入門.

介紹:好多資料科學家名人推薦,還有資料.

介紹:實現專案已經開源在github上面Crepe

介紹:作者發現,經過調參,傳統的方法也能和word2vec取得差不多的效果。另外,無論作者怎麼試,GloVe都比不過word2vec.

介紹:用於改進語義表示的樹型LSTM遞迴神經網路,句子級相關性判斷和情感分類效果很好.實現程式碼.

介紹:NIPS CiML 2014的PPT,NIPS是神經資訊處理系統進展大會的英文簡稱.

介紹:R語言線性迴歸多方案速度比較具體方案包括lm()、nls()、glm()、bayesglm()、nls()、mle2()、optim()和Stan’soptimizing()等.

介紹:文中提到的三篇論文(機器學習那些事、無監督聚類綜述、監督分類綜述)都很經典,Domnigos的機器學習課也很精彩

介紹:萊斯大學(Rice University)的深度學習的概率理論.

介紹:基於馬爾可夫鏈自動生成啤酒評論的開源Twitter機器人,github地址.

介紹:用機器學習做資料分析,David Taylor最近在McGill University研討會上的報告,還提供了一系列講機器學習方法的ipn,很有價值 GitHub.國內

介紹:基於CNN+LSTM的視訊分類,google演示.

介紹:Quora怎麼用機器學習.

介紹:亞馬遜在機器學習上面的一些應用,程式碼示例.

介紹:基於Mahout和Elasticsearch的推薦系統.

介紹:Francis X.Diebold的《(經濟|商業|金融等領域)預測方法.

介紹:Francis X.Diebold的《時序計量經濟學》.

介紹:基於Yelp資料集的開源情感分析工具比較,評測覆蓋NaiveBayes、SentiWordNet、CoreNLP等 .

介紹:微博,國內Pattern Recognition And Machine Learning讀書會資源彙總,各章pdf講稿,部落格.

介紹:用於Web分析和資料探勘的概率資料結構.

介紹:機器學習在導航上面的應用.

介紹:Neural NetworksDemystified系列視訊,Stephen Welch製作,純手繪風格,淺顯易懂,國內雲.

介紹:{swirl}資料訓練營:R&資料科學線上互動教程.

介紹:DeepReinforcement Learning.要註冊網易部落格的賬號才能看。

介紹:(PyCon2015)用Scikit-Learn實現機器學習

介紹:大資料處理課.內容覆蓋流處理、MapReduce、圖演算法等.

介紹:用Spark MLlib實現易用可擴充套件的機器學習,國內映象.

介紹:以往上千行程式碼概率程式設計(語言)實現只需50行.

介紹:一般矩陣乘法(GEMM)對深度學習的重要性.

介紹:清華大學副教授,是圖挖掘方面的專家。他主持設計和實現的Arnetminer是國內領先的圖挖掘系統,該系統也是多個會議的支援商.

介紹:遷移學習的國際領軍人物.

介紹:在半監督學習,multi-label學習和整合學習方面在國際上有一定的影響力.

介紹:資訊檢索,自然語言處理,機器翻譯方面的專家.

介紹:吳軍博士是當前Google中日韓文搜尋演算法的主要設計者。在Google其間,他領導了許多研發專案,包括許多與中文相關的產品和自然語言處理的專案,他的新個人主頁.

介紹:Twitter新trends的基本實現框架.

介紹:Storm手冊,國內有中文翻譯版本,謝謝作者.

介紹:神經網路訓練中的Tricks之高效BP,博主的其他部落格也挺精彩的.

介紹:作者是NLP方向的碩士,短短几年內研究成果頗豐,推薦新入門的朋友閱讀.

介紹:UCLAJens Palsberg根據Google Scholar建立了一個計算機領域的H-index牛人列表,我們熟悉的各個領域的大牛絕大多數都在榜上,包括1位諾貝爾獎得主,35點陣圖靈獎得主,近百位美國工程院/科學院院士,300多位ACM Fellow,在這裡推薦的原因是大家可以在google通過搜尋牛人的名字來獲取更多的資源,這份資料很寶貴.

  • deep net highlights from 2014

介紹:deepnet highlights from 2014.

  • Fingerprinting Images for Near-Duplicate Detection

介紹:影象指紋的重複識別文章,作者原始碼,國內翻譯版本.

  • The Computer Vision Industry

介紹:提供計算機視覺、機器視覺應用的公司資訊彙總。應用領域包括:自動輔助駕駛和交通管理、眼球和頭部跟蹤、影視運動分析、影視業、手勢識別、通用視覺系統、各種工業自動化和檢驗、醫藥和生物、移動裝置目標識別和AR、人群跟蹤、攝像、安全監控、生物監控、三維建模、web和雲應用.

  • DZone Refcardz: Distributed Machine Learning with Apache Mahout

介紹:快速入門:基於Apache Mahout的分散式機器學習.

  • Learning scikit-learn: Machine Learning in Python

介紹:基於scikit-learn講解了一些機器學習技術,如SVMNBPCADT,以及特徵工程、特徵選擇和模型選擇問題.

  • Lightning fast Machine Learning with Spark

介紹:基於Spark的高效機器學習,視訊地址.

  • How we’re using machine learning to fight shell selling

介紹:WePay用機器學習對抗信用卡"shell selling"詐騙.

  • Data Scientists Thoughts that Inspired Me

介紹:16位資料科學家語錄精選.

  • Deep learning applications and challenges in big data analytics

介紹:深度學習在大資料分析領域的應用和挑戰.

  • A Statistical View of Deep Learning (V): Generalisation and Regularisation

介紹:深度學習的統計分析V:泛化和正則化.

  • Highway Networks

介紹:SGD能高效完成訓練的大規模(多層)深度網路HN.

  • What I Read For Deep-Learning

介紹:深度學習解讀文章.

  • Neural Turing Machines implementation

介紹:實現神經圖靈機(NTM),專案地址,此外推薦相關神經圖靈機演算法.

  • Tutorial: Machine Learning for Astronomy with Scikit-learn

介紹:MachineLearning for Astronomy with scikit-learn.

  • Top 10 data mining algorithms in plain English

介紹:白話資料探勘十大演算法.

  • An Inside Look at the Components of a Recommendation Engine

介紹:基於MahoutElasticsearch的推薦系統,國內譯版.

  • 10-minute tour of pandas

介紹:Pandas十分鐘速覽,ipn.

  • Data doesn't grow in tables: harvesting journalistic insight from documents

介紹:面向資料新聞的文字挖掘.

  • The Curse of Dimensionality in classification

介紹:分類系統的維數災難.

  • Deep Learning vs Big Data: Who owns what?
  • A Primer on Predictive Models

介紹:預測模型入門.

  • Demistifying LSTM Neural Networks

介紹:深入淺出LSTM.

  • On Visualizing Data Well

介紹:BenJones的資料視覺化建議.

  • Decoding Dimensionality Reduction, PCA and SVD

介紹:解讀資料降維/PCA/SVD.

  • Supervised learning superstitions cheat sheet

介紹:IPN:監督學習方法示例/對比參考表,覆蓋logistic迴歸, 決策樹, SVM, KNN, Naive Bayes等方法.

  • DopeLearning: A Computational Approach to Rap Lyrics Generation

介紹:基於RankSVMDNN自動(重組)生成Rap歌詞.