1. 程式人生 > >機器學習 深度學習資料彙總(含文件,資料集,程式碼等) 三

機器學習 深度學習資料彙總(含文件,資料集,程式碼等) 三

分享一下我老師大神的人工智慧教程!零基礎,通俗易懂!http://blog.csdn.net/jiangjunshow

也歡迎大家轉載本篇文章。分享知識,造福人民,實現我們中華民族偉大復興!

               

機器學習&深度學習資料彙總(含文件,資料集,程式碼等)(一)

機器學習&深度學習資料彙總(含文件,資料集,程式碼等)(二)


介紹: Radim Řehůřek(Gensim開發者)在一次機器學習聚會上的報告,關於word2vec及其優化、應用和擴充套件,很實用.國內網盤

介紹:很多公司都用機器學習來解決問題,提高使用者體驗。那麼怎麼可以讓機器學習更實時和有效呢?Spark MLlib 1.2裡面的Streaming K-means,由斑馬魚腦神經研究的Jeremy Freeman腦神經科學家編寫,最初是為了實時處理他們每半小時1TB的研究資料,現在釋出給大家用了。

介紹: 這是一篇面向工程師的LDA入門筆記,並且提供一份開箱即用Java實現。本文只記錄基本概念與原理,並不涉及公式推導。文中的LDA實現核心部分採用了arbylon的LdaGibbsSampler併力所能及地註解了,在搜狗分類語料庫上測試良好,開源在GitHub上。

介紹: AMiner是一個學術搜尋引擎,從學術網路中挖掘深度知識、面向科技大資料的挖掘。收集近4000萬作者資訊、8000萬論文資訊、1億多引用關係、連結近8百萬知識點;支援專家搜尋、機構排名、科研成果評價、會議排名。

介紹: Quora上的主題,討論Word2Vec的有趣應用,Omer Levy提到了他在CoNLL2014最佳論文裡的分析結果和新方法,Daniel Hammack給出了找特異詞的小應用並提供了(Python)程式碼

介紹: 機器學習公開課彙總,雖然裡面的有些課程已經歸檔過了,但是還有個別的資訊沒有。感謝課程圖譜的小編。

介紹: 【A First Course in Linear Algebra】Robert Beezer 有答案 有移動版、列印版 使用GNU自由文件協議 引用了傑弗遜1813年的信。

介紹:libfacedetection是深圳大學開源的一個人臉影象識別庫。包含正面和多視角人臉檢測兩個演算法.優點:速度快(OpenCV haar+adaboost的2-3倍), 準確度高 (FDDB非公開類評測排名第二),能估計人臉角度。

介紹:WSDM2015最佳論文 把馬爾可夫鏈理論用在了圖分析上面,比一般的propagation model更加深刻一些。通過全域性的平穩分佈去求解每個節點影響係數模型。假設合理(轉移受到相鄰的影響係數影響)。可以用來反求每個節點的影響係數

介紹:機器學習入門書籍,具體介紹

介紹: 非常棒的強調特徵選擇對分類器重要性的文章。情感分類中,根據互資訊對複雜高維特徵降維再使用樸素貝葉斯分類器,取得了比SVM更理想的效果,訓練和分類時間也大大降低——更重要的是,不必花大量時間在學習和優化SVM上——特徵也一樣no free lunch

介紹:CMU的統計系和計算機系知名教授Larry Wasserman 在《機器崛起》,對比了統計和機器學習的差異

介紹:隨著大資料時代的到來,機器學習成為解決問題的一種重要且關鍵的工具。不管是工業界還是學術界,機器學習都是一個炙手可熱的方向,但是學術界和工業界對機器學習的研究各有側重,學術界側重於對機器學習理論的研究,工業界側重於如何用機器學習來解決實際問題。這篇文章是美團的實際環境中的實戰篇

介紹:面向機器學習的高斯過程,章節概要:迴歸、分類、協方差函式、模型選擇與超參優化、高斯模型與其他模型關係、大資料集的逼近方法等,微盤下載

介紹:Python下的文字模糊匹配庫,老庫新推,可計算串間ratio(簡單相似係數)、partial_ratio(區域性相似係數)、token_sort_ratio(詞排序相似係數)、token_set_ratio(詞集合相似係數)等 github

介紹:Blocks是基於Theano的神經網路搭建框架,整合相關函式、管道和演算法,幫你更快地建立和管理NN模組.

介紹:機器學習大神Alex Smola在CMU新一期的機器學習入門課程”Introduction to Machine Learning“近期剛剛開課,課程4K高清視訊同步到Youtube上,目前剛剛更新到 2.4 Exponential Families,課程視訊playlist, 感興趣的同學可以關注,非常適合入門.

介紹:用社交使用者行為學習圖片的協同特徵,可更好地表達圖片內容相似性。由於不依賴於人工標籤(標註),可用於大規模圖片處理,難在使用者行為資料的獲取和清洗;利用社會化特徵的思路值得借鑑.

介紹:Twitter技術團隊對前段時間開源的時間序列異常檢測演算法(S-H-ESD)R包的介紹,其中對異常的定義和分析很值得參考,文中也提到——異常是強針對性的,某個領域開發的異常檢測在其他領域直接用可不行.

介紹:聚焦資料質量問題的應對,資料質量對各種規模企業的效能和效率都至關重要,文中總結出(不限於)22種典型資料質量問題顯現的訊號,以及典型的資料質量解決方案(清洗、去重、統一、匹配、許可權清理等)

介紹:中文分詞入門之資源.

介紹:15年舊金山深度學習峰會視訊集萃,國內雲盤

介紹:很好的條件隨機場(CRF)介紹文章,作者的學習筆記

介紹: 來自Stanford,用神經網路實現快速準確的依存關係解析器

介紹:做深度學習如何選擇GPU的建議

介紹: Stanford的Trevor Hastie教授在H2O.ai Meet-Up上的報告,講稀疏線性模型——面向“寬資料”(特徵維數超過樣本數)的線性模型,13年同主題報告 、講義.

介紹: 分類整理的機器視覺相關資源列表,秉承Awesome系列風格,有質有量!作者的更新頻率也很頻繁。

介紹: social networks course

介紹: 大規模機器學習流程的構建與部署.

介紹: 人臉識別二次開發包,免費,可商用,有演示、範例、說明書.

介紹: 採用Torch用深度學習網路理解NLP,來自Facebook 人工智慧的文章.

介紹: 來自CMU的Ed Hovy和Stanford的Jiwei Li一篇有意思的Arxiv文章,作者用Shannon Entropy來刻畫NLP中各項任務的難度.

介紹: 資訊檢索排序模型BM25(Besting Matching)。1)從經典概率模型演變而來 2)捕捉了向量空間模型中三個影響索引項權重的因子:IDF逆文件頻率;TF索引項頻率;文件長度歸一化。3)並且含有整合學習的思想:組合了BM11和BM15兩個模型。4)作者是BM25的提出者和Okapi實現者Robertson.

介紹: 自迴歸滑動平均(ARMA)時間序列的簡單介紹,ARMA是研究時間序列的重要方法,由自迴歸模型(AR模型)與滑動平均模型(MA模型)為基礎“混合”構成.

介紹: 把來自target的attention signal加入source encoding CNN的輸入,得到了比BBN的模型好的多neural network joint model

介紹: 揭開印度菜的美味祕訣——通過對大量食譜原料關係的挖掘,發現印度菜美味的原因之一是其中的味道互相沖突,很有趣的文字挖掘研究

介紹: HMM相關文章,此外推薦中文分詞之HMM模型詳解

介紹: 1)詞頻與其降序排序的關係,最著名的是語言學家齊夫(Zipf,1902-1950)1949年提出的Zipf‘s law,即二者成反比關係. 曼德勃羅(Mandelbrot,1924- 2010)引入引數修正了對甚高頻和甚低頻詞的刻畫 2)Heaps' law: 詞彙表與語料規模的平方根(這是一個引數,英語0.4-0.6)成正比

介紹: Jürgen Schmidhuber在Reddit上的AMA(Ask Me Anything)主題,有不少RNN和AI、ML的乾貨內容,關於開源&思想&方法&建議……耐心閱讀,相信你也會受益匪淺.

介紹: 成G上T的學術資料,HN近期熱議話題,主題涉及機器學習、NLP、SNA等。下載最簡單的方法,通過BT軟體,RSS訂閱各集合即可

介紹: Scikit-Learn官網提供,在原有的Cheat Sheet基礎上加上了Scikit-Learn相關文件的連結,方便瀏覽

介紹: 深度學習的全面硬體指南,從GPU到RAM、CPU、SSD、PCIe

介紹:Pedestrian Detection paper & data

介紹: 【神經科學碰撞人工智慧】在臉部識別上你我都是專家,即使細微的差別也能辨認。研究已證明人類和靈長類動物在面部加工上不同於其他物種,人類使用梭狀回面孔區(FFA)。Khaligh-Razavi等通過計算機模擬出人臉識別的FFA活動,堪稱神經科學與人工智慧的完美結合。

介紹: 神經網路C++教程,本文介紹了用可調節梯度下降和可調節動量法設計和編碼經典BP神經網路,網路經過訓練可以做出驚人和美妙的東西出來。此外作者部落格的其他文章也很不錯。

介紹:deeplearning4j官網提供的實際應用場景NN選擇參考表,列舉了一些典型問題建議使用的神經網路。

介紹:一個深度學習專案,提供了Python, C/C++, Java, Scala, Go多個版本的程式碼

介紹:深度學習教程,github

介紹:自然語言處理的發展趨勢——訪卡內基梅隆大學愛德華·霍威教授.

介紹:Google對Facebook DeepFace的有力回擊—— FaceNet,在LFW(Labeled Faces in the Wild)上達到99.63%準確率(新紀錄),FaceNet embeddings可用於人臉識別、鑑別和聚類.

介紹:本文來自Databricks公司網站的一篇部落格文章,由Joseph Bradley和Manish Amde撰寫,文章主要介紹了Random Forests和Gradient-Boosted Trees(GBTs)演算法和他們在MLlib中的分散式實現,以及展示一些簡單的例子並建議該從何處上手.中文版.

介紹:華盛頓大學Pedro Domingos團隊的DNN,提供論文和實現程式碼.

介紹:基於神經網路的自然語言依存關係解析器(已整合至Stanford CoreNLP),特點是超快、準確,目前可處理中英文語料,基於《A Fast and Accurate Dependency Parser Using Neural Networks》 思路實現.

介紹:本文根據神經網路的發展歷程,詳細講解神經網路語言模型在各個階段的形式,其中的模型包含NNLM[Bengio,2003]、Hierarchical NNLM[Bengio, 2005], Log-Bilinear[Hinton, 2007],SENNA等重要變形,總結的特別好.

介紹:經典問題的新研究:利用文字和可讀性特徵分類垃圾郵件。

介紹:Kaggle腦控計算機互動(BCI)競賽優勝方案原始碼及文件,包括完整的資料處理流程,是學習Python資料處理和Kaggle經典參賽框架的絕佳例項

介紹:IPOL(線上影象處理)是影象處理和影象分析的研究期刊,每篇文章都包含一個演算法及相應的程式碼、Demo和實驗文件。文字和原始碼是經過了同行評審的。IPOL是開放的科學和可重複的研究期刊。我一直想做點類似的工作,拉近產品和技術之間的距離.

介紹:出自MIT,研究加密資料高效分類問題.

介紹:新加坡LV實驗室的神經網路並行框架Purine: A bi-graph based deep learning framework,支援構建各種並行的架構,在多機多卡,同步更新引數的情況下基本達到線性加速。12塊Titan 20小時可以完成Googlenet的訓練。

介紹:這是一個機器學習資源庫,雖然比較少.但蚊子再小也是肉.有突出部分.此外還有一個由zheng Rui整理的機器學習資源.

介紹:Chase Davis在NICAR15上的主題報告材料,用Scikit-Learn做監督學習的入門例子.

介紹:這是一本自然語言處理的詞典,從1998年開始到目前積累了成千上萬的專業詞語解釋,如果你是一位剛入門的朋友.可以借這本詞典讓自己成長更快.

介紹:通過分析1930年至今的比賽資料,用PageRank計算世界盃參賽球隊排行榜.

介紹:R語言教程,此外還推薦一個R語言教程An Introduction to R.

介紹:經典老文,複雜網路社群發現的高效演算法,Gephi中的[Community detection](The Louvain method for community detection in large networks)即基於此.

介紹: 一個面向 .net 的開源機器學習庫,github地址

介紹: 支援node.js的JS神經網路庫,可在客戶端瀏覽器中執行,支援LSTM等 github地址

介紹: 決策樹

介紹: 討論深度學習自動編碼器如何有效應對維數災難,國內翻譯

介紹: CMU的優化與隨機方法課程,由A. Smola和S. Sra主講,優化理論是機器學習的基石,值得深入學習