1. 程式人生 > >聚類演算法應用場景例項十則

聚類演算法應用場景例項十則

       本文整理了10個天池、DataCastle、DataFountain等中出現的,可使用聚類演算法處理的問題場景例項。

1 基於使用者位置資訊的商業選址

        隨著資訊科技的快速發展,移動裝置和移動網際網路已經普及到千家萬戶。在使用者使用行動網路時,會自然的留下使用者的位置資訊。隨著近年來GIS地理資訊科技的不斷完善普及,結合使用者位置和GIS地理資訊將帶來創新應用。如百度與萬達進行合作,通過定位使用者的位置,結合萬達的商戶資訊,向用戶推送位置營銷服務,提升商戶效益。

        希望通過大量移動裝置使用者的位置資訊,為某連鎖餐飲機構提供新店選址。

2 中文地址標準化處理

        地址是一個涵蓋豐富資訊的變數,但長期以來由於中文處理的複雜性、國內中文地址命名的不規範性,使地址中蘊含的豐富資訊不能被深度分析挖掘。通過對地址進行標準化的處理,使基於地址的多維度量化挖掘分析成為可能,為不同場景模式下的電子商務應用挖掘提供了更加豐富的方法和手段,因此具有重要的現實意義。

3 國家電網使用者畫像

        隨著電力體制改革向縱深推進,售電側逐步向社會資本放開,當下的粗放式經營和統一式客戶服務內容及模式,難以應對日益增長的個性化、精準化客戶服務體驗要求。如何充分利用現有資料資源,深入挖掘客戶潛在需求,改善供電服務質量,增強客戶黏性,對公司未來發展至關重要。

        對電力服務具有較強敏感度的客戶對於電費計量、供電質量、電力營銷等各方面服務的質量及方式上往往具備更高的要求,成為各級電力公司關注的重點客戶。經過多年的發展與沉澱,目前國家電網積累了全網4億多客戶檔案資料和海量供電服務資訊,以及公司營銷、電網生產等資料,可以有效的支撐海量電力資料分析。

        因此,國家電網公司希望通過大資料分析技術,科學的開展電力敏感客戶分析,以準確地識別敏感客戶,並量化敏感程度,進而支撐有針對性的精細化客戶服務策略,控制電力服務人工成本、提升企業公眾形象。

4 非人惡意流量識別

        2016年第一季度Facebook發文稱,其Atlas DSP平臺半年的流量質量測試結果顯示,由機器人模擬和黑IP等手段導致的非人惡意流量高達75% . 僅2016上半年,AdMaster反作弊解決方案認定平均每天能有高達 28% 的作弊流量。低質量虛假流量的問題一直存在,這也是過去十年間數字營銷行業一直在博弈的問題。基於AdMaster海量監測資料,50%以上的專案均存在作弊嫌疑;不同專案中,作弊流量佔廣告投放5%到95%不等;其中垂直類和網盟類媒體的作弊流量佔比最高;PC端作弊流量比例顯著高於移動端和智慧電視平臺。廣告監測行為資料被越來越多地用於建模和做決策,例如繪製使用者畫像,跨裝置識別對應使用者等。作弊行為,惡意曝光,網路爬蟲,誤導點選,甚至是在使用者完全無感知的情況下被控制訪問等產生的不由使用者主觀發出的行為給資料帶來了巨大的噪聲,給模型訓練造成了很大影響。

        希望基於給定的資料,建立一個模型來識別和標記作弊流量,去除資料的噪聲,從而更好的使用資料,使得廣告主的利益最大化。

5 求職資訊完善

        有大約10萬分優質簡歷,其中部分簡歷包含完整的欄位,部分簡歷在學歷、公司規模、薪水、職位名稱等欄位有些置空項。希望對資料進行學習、編碼與測試,挖掘出職位路徑的走向與規律,形成演算法模型,再對資料中置空的資訊進行預測。

6 搜尋引擎查詢聚類以進行流量推薦

        在搜尋引擎中, 很多網民的查詢意圖的比較類似的,對這些查詢進行聚類,一方面可以使用類內部的詞進行關鍵詞推薦;另一方面, 如果聚類過程實現自動化,則也有助於新話題的發現;同時還有助於減少儲存空間等。

7 生物種群固有結構認知

        對動植物分類和對基因進行分類,獲取對種群固有結構的認識。

8 保險投保者分組

        通過一個高的平均消費來鑑定汽車保險單持有者的分組,同時根據住宅型別,價值,地理位置來鑑定一個城市的房產分組。

9 網站關鍵詞來源聚類整和

        以領域特徵明顯的詞和短語作為聚類物件,在分類系統的大規模層級分類語料庫中,利用文字分類的特徵提取演算法進行詞語的領域聚類,通過控制詞語頻率的影響,分別獲取領域通用詞和領域專類詞。

10 影象分割

        影象分割廣泛應用於醫學、交通、軍事等領域。影象分割就是把影象分成若干個特定的、具有獨特性質的區域並提出感興趣目標的技術和過程。它是由影象處理到影象分析的關鍵步驟。聚類演算法先將影象空間中的畫素用對應的特徵空間點表示,根據它們在特徵空間的聚集對特徵空間進行分割,然後將它們映射回原影象空間,得到分割結果。


相關推薦

演算法應用場景例項

       本文整理了10個天池、DataCastle、DataFountain等中出現的,可使用聚類演算法處理的問題場景例項。 1 基於使用者位置資訊的商業選址         隨著資訊科技的快速發展,移動裝置和移動網際網路已經普及到千家萬戶。在使用者使用行動網路時

關聯規則應用場景例項

        本文整理了10個天池、DataCastle、DataFountain等中出現的,可使用關係規則演算法處理的問題場景例項。 1 穿衣搭配推薦 穿衣搭配是服飾鞋包導購中非常重要的課題,基於搭配專家和達人生成的搭配組合資料,百萬級別的商品的文字和影象資料,以及使

迴歸演算法應用場景例項

    本文整理了20個天池、DataCastle、DataFountain等中出現的,可使用迴歸演算法處理的問題場景例項。 1 機場客流量分佈預測         為了有效利用機場資源,機場正利用大資料技術,提升生產運營的效率。機場內需要不斷提升執行效率的資源有航站樓內的

機器學習演算法應用場景例項

        本文整理了60個機器學習演算法應用場景例項,含分類演算法應用場景20個、迴歸演算法應用場景20個、聚類演算法應用場景10個以及關聯規則應用場景10個。包含了天池、DataCastle、DataFountain中所有競賽場景。 目錄 1 分類演算法應用

分類演算法應用場景例項

    本文整理了20個天池、DataCastle、DataFountain等中出現的,可使用分類演算法處理的問題場景例項。 1 O2O優惠券使用預測        以優惠券盤活老使用者或吸引新客戶進店消費是O2O的一種重要營銷方式。然而隨機投放的優惠券對多數使用者造成

單機環境及分散式環境下K-Means演算法的執行例項

  單機環境下的K-Means聚類演算法執行例項 參考書籍《Mahout in Action》:要資源的可以找我~(中英文都有) 在eclipse平臺上實現K-Means例項 程式碼如下: package kmeans; import java.io.File; im

【Python】演算法應用 -- 廣告投放效果的離線評估

簡要說明 同樣是在實習期間做的,由於公司去年在廣告的投放上高達10億!!(黑臉=_=!),其中SEM的投放佔比不小,投了四個:baidu、360、搜狗和神馬,其中前三個是WAP和PC端都有投,神馬只投了WAP端。所以我想對歷史投放效果資料進行一下挖掘分析,看是

演算法之DBSCAN演算法之二:高維資料剪枝應用NQ-DBSCAN

一、經典DBSCAN的不足 1.由於“維度災難”問題,應用高維資料效果不佳 2.執行時間在尋找每個點的最近鄰和密度計算,複雜度是O(n2)。當d>=3時,由於BCP等數學問題出現,時間複雜度會急劇上升到Ω(n的四分之三次方)。 二、DBSCAN在高維資料的改進 目前的研究有

機器學習 (二)讓你輕鬆理解K-means 演算法

前言        你還記得菜市場賣菜的嗎?書店賣書的或者是平時去超市買東西時的物品,它們是不是都根據相似性擺放在一起了呢,飲料、啤酒、零食分佈在各自區域,像這樣各級事物的相似特點或特性組織在一起的方法,在機器學習裡面即成為

【Python例項第18講】affinity propagation演算法

機器學習訓練營——機器學習愛好者的自由交流空間(qq 群號:696721295) 在統計和資料探勘裡,affinity propagation(AP)是一種基於資料點之間的“資訊傳遞”的聚類演算法。與k-means等其它聚類演算法不同的是,AP不需要在聚類前確定或估計類的個

【Python例項第17講】均值偏移演算法

機器學習訓練營——機器學習愛好者的自由交流空間(qq 群號:696721295) 均值偏移(mean shift)是一個非引數特徵空間分析技術,用來尋找密度函式的最大值點。它的應用領域包括聚類分析和影象處理等。 均值偏移演算法 均值偏移是一個迭代地求密度函式極值點的

吳恩達機器學習(一)K-means(無監督學習、演算法

目錄 0. 前言 學習完吳恩達老師機器學習課程的無監督學習,簡單的做個筆記。文中部分描述屬於個人消化後的理解,僅供參考。 如果這篇文章對你有一點小小的幫助,請給個關注喔~我會非常開心

機器學習學習筆記 第九章 演算法-K-MEANS

聚類演算法 聚類的概念: 主要用來處理無監督問題,因為我們手上沒有標籤了,靠電腦自己進行分類 聚類是指把相似的東西分到一組 難點 如何評估呢(因為沒有了標籤,難以對比正確與否,很多評估方法失效了)

機器學習總結():常用演算法(Kmeans、密度、層次)及常見問題

任務:將資料集中的樣本劃分成若干個通常不相交的子集。 效能度量:類內相似度高,類間相似度低。兩大類:1.有參考標籤,外部指標;2.無參照,內部指標。 距離計算:非負性,同一性(與自身距離為0),對稱性

機器學習學習筆記 第二演算法-DBSCAN

聚類演算法-DBSCAN Density-Based Spatial Clustering of Applications with Noise 基本概念: 核心物件:若某個點的密度達到演算法設定的閾

演算法應用

七月演算法4月機器學習演算法班課程筆記——No.10 前言   與迴歸與分類不同,聚類是無監督學習演算法,無監督指的是隻需要資料,不需要標記結果,試圖探索和發現一些模式。比如對使用者購買模式的分析、影象顏色分割等。聚類演算法的提出比較早,是資料探勘的一

模式識別(Pattern Recognition)學習筆記(三六)-- 動態演算法

如果不估計樣本的概率分佈,就無法從概率分佈的角度來定義聚類,這時我們就需要有一種新的對聚類的定義,一般的,根據樣本間的某種距離或某種相似性度量來定義聚類,即把相似的或距離近的樣本聚為一類,而把不相似或距離遠的樣本聚在其他類,這種基於相似性度量的聚類方法在實際應用中非常常用,

基礎演算法(二):Kmeans演算法的基本原理與應用

Kmeans聚類演算法的基本原理與應用       內容說明:主要介紹Kmeans聚類演算法的數學原理,並使用matlab程式設計實現Kmeans的簡單應用,不對之處還望指正。 一、Km

K-means演算法原理分析與實際應用案例分析(案例分析另起一篇部落格)

引言 在資料分析中,我們常常想將看上去相似或者行為形似的資料聚合在一起。例如,對一個營銷組織來說,將不同客戶根據他們的特點進行分組,從而有針對性地定製營銷活動,這很重要。又比如,對學校老師來說,將學生分組同樣能夠有所側重的進行教育活動。分類與聚類是資料探勘領域

《機器學習實戰》筆記之——利用K均值演算法對未標註資料分組

第十章 利用K均值聚類演算法對未標註資料分組 10.1 K-均值聚類演算法 K-均值是發現給定資料集的k個簇的演算法,每個簇通過其質心來描述。其優點為容易實現,但可能收斂到區域性最小值,在大規模資料集上收斂較慢。 隨機確定k個初始點為質心,為每個點找距其最近的質心,並將