1. 程式人生 > >Hadoop裡的資料探勘應用-Mahout——學習筆記<三>

Hadoop裡的資料探勘應用-Mahout——學習筆記<三>

由於平時對資料探勘做的比較多,所以優先看Mahout方向視訊。

Mahout有很好的擴充套件性與容錯性(基於HDFS&MapReduce開發),實現了大部分常用的資料探勘演算法(聚類、分類、推薦演算法)不過資料探勘調參和業務理解是關鍵,個人覺得真正想學習的話,還是看正規機器學習的課程比較好。

這裡省略了大部分比較技術那一塊的筆記。。。

雖然mahout在速度上有天然優勢。但R/Python其實也在接入hadoop,如RHadoop等 
而且正如[別老扯什麼Hadoop了,你的資料根本不夠大](http://geek.csdn.net/news/detail/2780) 這裡提到的,在輕量級資料上,還是沒有太大必要折騰hadoop,在hadoop上用mahout的前提應該是資料量非常大

不在部落格園上閱讀時才會看到的,這篇博文歸http://www.cnblogs.com/weibaar 所有

僅保證在部落格園部落格上的排版乾淨利索還有程式碼塊與圖片正確顯示,他站請保留作者資訊尊重版權啊

一、課程概述

1、綜合介紹 
2、聚類演算法 
3、分類演算法 
4、推薦演算法

二、聚類演算法

聚類應用場景如新聞聚類(多少條與之相關)。最常用的是k-means聚類 
基本流程應該是指定聚類次數,定位中心點,計算平均距離,最後實現產品分類。 
在Mahout裡

1、提取feature

對新聞正文分詞,對詞編碼,如doc1有哪些詞出現,轉化為0-1多維向量

2、feature向量化,多維的向量

之前的多維向量浪費空間,需要換一種表達方式,mahout裡提供lucene或其他工具把這些feature轉化為向量格式 
總之要實現有序的、節省空間的feature,最後儲存為SequenceFile格式。

3、用kmeans實施聚類

bin/mahout kmeans \ 並可調相應格式

另外,mahout提供多種向量之間距離計算org.apache.mahout.distance

因此kmeans引數調優,有一個方法是對向量距離計算方法調優

cannopy演算法:尋找最優的初始點

一般配合其他聚類方法使用 
如cannopy演算法可以協助kmeans確定初始點

就是先隨機選一個點,計算不同距離的點的個數,然後迭代計算,最後可以找出一個包含度較高的初始點 
(kmeans預設用隨機點,指定canopy的話可以尋找最優的初始點,這個改進應該也是調參之一)

三、分類演算法

屬於有監督的機器學習演算法,分類已經實現訂好了,現在看什麼因素是可以讓我們快速定位其為該分類的資料 
所以應用步驟應該是,用訓練集獲得分類模型,測試調優後用於線上產品裡

再呼叫其他的引數引用分類模型

模型評估常用的兩個指標:confusion混淆矩陣 & AUC

不在部落格園上閱讀時才會看到的,這篇博文歸http://www.cnblogs.com/weibaar 所有

僅保證在部落格園部落格上的排版乾淨利索還有程式碼塊與圖片正確顯示,他站請保留作者資訊尊重版權啊

四、推薦演算法

使用者,對什麼物品,打多少分 
preference:傾向度,可以用user-item矩陣進行評分

就是用使用者對其他物品的打分(基於相似使用者的打分,重點是查詢使用者相似度)以及其他使用者對該item的打分(重點查詢相似的物品,用商品相似度作為權重填充)

User-based的推薦效果更好,使用者效果好 
Item-based的效果較差,但是計算效率高,適合實時推薦系統

Mahout有自帶一個Taste推薦系統實現。基於java,協同過濾,屬於可靠高效的推薦引擎

相關推薦

Hadoop資料應用-Mahout——學習筆記<>

由於平時對資料探勘做的比較多,所以優先看Mahout方向視訊。 Mahout有很好的擴充套件性與容錯性(基於HDFS&MapReduce開發),實現了大部分常用的資料探勘演算法(聚類、分類、推薦演算法)不過資料探勘調參和業務理解是關鍵,個人覺得真正想學習的話,還是看正規機器學習的課程比較好。

資料基礎導論學習筆記(五)

第五章 分類 其他分類 貝葉斯分類器 貝葉斯定理:把類的先驗知識和從資料中收集的新證據相結合的統計原理。 公式: P(Y|X)=P(X|Y)*P(Y)/P(X) X是屬性集,Y是類變數 把X和Y看成隨機變數,用P(Y|X)以概率的方式捕捉二者之間的關係,這個條件

資料第一課學習筆記(Apriori演算法和FPTree演算法)

首先明確關聯規則挖掘中的幾個概念定義: 假設有資料集表示幾個客戶買的東西如下: t1: 牛肉、雞肉、牛奶 t2: 牛肉、乳酪 t3: 乳酪、靴子 t4: 牛肉、雞肉、乳酪 t5: 牛肉、雞肉、衣服、乳酪、牛奶 t6: 雞肉、衣服、牛奶 t7: 雞肉、牛奶、衣服ti表示不同

[資料]關聯規則學習筆記

關聯規則 參考資料:《資料探勘導論》人民郵電出版社Pang-Ning Tan等著 關聯規則是形如X→Y 的蘊含表示式,其中X和Y是不相交的項集。即X∩Y=∅。關聯規則的強度可以用它的支援度(support)和置信度(confidence)度

未明學院活動:機器學習熱門專案開始報名,一次收穫資料&機器學習技能、行業專案經歷!

隨著大資料時代的到來,金融、通訊、網際網路等越來越多的行業需要資料科學方面的人才。在數聯尋英2016年釋出的《大資料人才報告》中表明,現階段我國大資料人才僅有 46 萬,在未來 3-5 年內大資料人才缺口將高達 150 萬。 缺口的逐漸增大,大資料人才的薪資也跟著水漲船高。據某權威招聘

資料-實用機器學習技術》下載

2018年11月01日 21:13:05 qq_43580805 閱讀數:4 標籤: 程式設計 資料

Python資料與機器學習_通訊信用風險評估實戰(4)——模型訓練與調優

系列目錄: 訓練資料拆分 把訓練資料拆分為訓練集和交叉驗證集,比例為7:3。x_train和y_train用來訓練模型,x_test和y_test用來交叉驗證。 data_train = data_train.set_index('Us

帶你入門Python資料與機器學習(附程式碼、例項)

作者:韋瑋來源:Python愛好者社群本文共7800字,建議閱讀10+分鐘。本文結合程式碼例項待

Python資料與機器學習技術入門實戰

課程主講簡介: 韋瑋,企業家,資深IT領域專家/講師/作家,暢銷書《精通Python網路爬蟲》作者,阿里雲社群技術專家。 以下內容根據主講嘉賓視訊分享以及PPT整理而成。 本次課程包含了五個知識點: 1.資料探勘與機器學習技術簡介   2.Python資料預

【機器學習_3】常見術語區別(人工智慧&資料&機器學習&統計模型等)

1.人工智慧&資料探勘&機器學習&深度學習&統計模型 人工智慧:是一個大的概念,是讓機器像人一樣思考甚至超越人類。 資料探勘:有目的地從現有大資料中提取資料的模式(pattern)和模型(model)。——比較偏向探索性分析,不是強烈的目的導向,只是能發現多少發現多少。 資料

資料與機器學習基本演算法總結

在這種學習模式下,輸入資料作為對模型的反饋,不像監督模型那樣,輸入資料僅僅是作為一個檢查模型對錯的方式,在強化學習下,輸入資料直接反饋到模型,模型必須對此立刻作出調整。常見的應用場景包括動態系統以及機器人控制等。常見演算法包括Q-Learning以及時間差學習(Temporal difference le

人工智慧、大資料、雲端計算、資料與機器學習概述

一、人工智慧、大資料、雲端計算:https://blog.csdn.net/zw0pi8g5c1x/article/details/80027593 二、資料探勘與機器學習:https://blog.csdn.net/xiaogss/article/details/79316063 資料探勘

Python資料與機器學習_通訊信用風險評估實戰(2)——資料預處理

系列目錄: 資料說明 通過對讀取資料的實踐,下面是資料集檔案對應讀取後的DataFrame說明。 資料檔案 DataFrame DataTech_Credit_Train_Communication1.txt train

資料(機器學習)面試--SVM面試常考問題

應聘資料探勘工程師或機器學習工程師,面試官經常會考量面試者對SVM的理解。 以下是我自己在準備面試過程中,基於個人理解,總結的一些SVM面試常考問題(想到會再更新),如有錯漏,請批評指正。(大神請忽視) 轉載請註明出處:blog.csdn.net/szlcw1 SVM的原

走在前往架構師的路上(專注於分散式計算,大資料資料,機器學習演算法等領域的研究)

新書<<深度剖析Hadoop HDFS>>釋出上市,此書源自於筆者部落格,重新經過整理,完善而成,此書的定位並不是一本純原始碼分析的書籍,其中有許多筆者在工作和學習中對於HDFS的一些有趣的看法和理解。 連結: 淘寶京東 (adsbygoog

我瞭解的國內資料應用現狀

九年前開始接觸資料探勘,當時國內關於商務智慧(BI)的研究以及應用還比較少見。近些年隨著國內企業資訊系統的不斷完善與發展與資料的持續積累,各行各業已經普遍關心資料探勘技術的應用。 陸續給國內企業做了一些資料探勘方面的培訓,發現國內應用資料探勘的企業還是以通訊企業(移動、聯通

資料應用的一些場景和對應演算法

資料探勘越來使用廣泛,下愛你介紹一些常見的使用場景以及對應的演算法: 1. 客戶細分:典型的分類問題 2.客戶流失預測分析:當作一個識別問題處理 3.客戶社會關係挖掘:關聯分析以及基於圖的關聯分

資料和機器學習中距離和相似度公式

距離:閔可夫斯基距離公式,也叫 Lp 範數: 當p=1時,變為曼哈頓距離公式,也即 L1範數: 當p=2時,變為歐式距離公式,也即 L2範數: 衡量空間中點的絕對距離,對絕對數值敏感。 相似性: 餘弦相似: 皮爾遜相關係數,即相關分析中的相關係數,對兩個個體的向

阿里面試經歷及總結(資料)+個人學習經歷

//2014年10月12日 //http://bbs.stuhome.net/forum.php?mod=viewthread&tid=1466753&extra=page%3D13 http://danieljyc.github.io/2014/09/20

18名校資料及機器學習課程資源彙總

轉自:http://suanfazu.com/discussion/27/18%E5%90%8D%E6%A0%A1%E6%95%B0%E6%8D%AE%E6%8C%96%E6%8E%98%E5%8F%8A%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A