hadoop之 hadoop能為企業做什麼?
hadoop能做什麼?
hadoop擅長日誌分析,facebook就用Hive來進行日誌分析,2009年時facebook就有非程式設計人員的30%的人使用HiveQL進行資料分析;淘寶搜尋中的自定義篩選也使用的Hive;利用Pig還可以做高階的資料處理,包括Twitter、LinkedIn 上用於發現您可能認識的人,可以實現類似Amazon.com的協同過濾的推薦效果。淘寶的商品推薦也是!在Yahoo!的40%的Hadoop作業是用pig執行的,包括垃圾郵件的識別和過濾,還有使用者特徵建模。(2012年8月25新更新,天貓的推薦系統是hive,少量嘗試mahout!)
hadoop能為我司做什麼? 大資料量儲存:分散式儲存 日誌處理: Hadoop擅長這個 海量計算: 平行計算 ETL:資料抽取到oracle、mysql、DB2、mongdb及主流資料庫 使用HBase做資料分析: 用擴充套件性應對大量的寫操作—Facebook構建了基於HBase的實時資料分析系統 機器學習: 比如Apache Mahout專案 搜尋引擎:hadoop + lucene實現 資料探勘:目前比較流行的廣告推薦 大量地從檔案中順序讀。HDFS對順序讀進行了優化,代價是對於隨機的訪問負載較高。 資料支援一次寫入,多次讀取。對於已經形成的資料的更新不支援。 資料不進行本地快取(檔案很大,且順序讀沒有區域性性) 任何一臺伺服器都有可能失效,需要通過大量的資料複製使得效能不會受到大的影響。 使用者細分特徵建模 個性化廣告推薦 智慧儀器推薦 hadoop實際應用: Hadoop+HBase建立NoSQL分散式資料庫應用
Flume+Hadoop+Hive建立離線日誌分析系統
Flume+Logstash+Kafka+Spark Streaming進行實時日誌處理分析
酷狗音樂的大資料平臺
京東的智慧供應鏈預測系統
說明:整理於網路
http://www.cnblogs.com/zhangs1986/p/6528227.html
http://blog.sina.com.cn/s/blog_687194cd01017lgu.html