1. 程式人生 > >【摘錄】大資料探勘與知識發現的應用領域

【摘錄】大資料探勘與知識發現的應用領域

應用

資料探勘技術可以為決策、過程控制、資訊管理和查詢處理等任務提供服務,一個有趣的應用範例是“尿布與啤酒”的故事。為了分析哪些商品顧客最有可能一起購買,一家名叫 WalMart的公司利用自動資料探勘工具,對資料庫中的大量資料進行分析後,意外發現,跟尿布一起購買最多的商品竟是啤酒。為什麼兩件風馬牛不相及的商品會被人一起購買?原來,太太們常叮囑她們的丈夫,下班後為小孩買尿布,而丈夫們在買尿布後又隨手帶回了兩瓶啤酒。既然尿布與啤酒一起購買的機會最多,商店就將它們擺放在一起,結果,尿布與啤酒的銷售量雙雙增長。這裡,數字挖掘技術功不可沒。一般來說,資料探勘的應用有,電信:流失;銀行:聚類(細分),交叉銷售;百貨公司/超市:購物籃分析(關聯規則);保險:細分,交叉銷售,流失(原因分析);信用卡: 欺詐探測,細分;電子商務:網站日誌分析;稅務部門:偷漏稅行為探測;警察機關:犯罪行為分析;醫學:醫療保健。具體如下:

電子政務的資料探勘

建立電子化政府,推動電子政務的發展,是電子資訊科技應用到政府管理的必然趨勢。實踐經驗表明,政府部門的決策越來越依賴於對資料的科學分析。發展電子政務,建立決策支援系統,利用電子政務綜合資料庫中儲存的大量資料,通過建立正確的決策體系和決策支援模型,可以為各級政府的決策提供科學的依據,從而提高各項政策制定的科學性和合理性,以達到提高政府辦公效率、促進經濟發展的目的。為此,在政府決策支援方面,需要不斷

吸納新的資訊處理技術,而資料探勘正是實現政府決策支援的核心技術。以資料探勘為依託的政府決策支援系統,將發揮重要的作用。

    電子政務位於世界各國積極倡導的“資訊高速公路”五個領域(電子政務、電子商務、遠端教育、遠端醫療、電子娛樂)之首,說明政府資訊化是社會資訊化的基礎。電子政務包括政府的資訊服務、電子貿易、電子化政府、政府部門重構、群眾參與政府五個方面的內容。將網路資料探勘技術引入電子政務中,可以大大提高政府資訊化水平,促進整個社會的資訊化。具體體現在以下幾個方面:

    1)政府的電子貿易 在伺服器以及瀏覽器端日誌記錄的資料中隱藏著模式資訊,運用網路用法挖掘技術可以自動發現系統的訪問模式和使用者的行為模式,從而進行預測分析。例如,通過評價使用者對某一資訊資源瀏覽所花費的時間,可以判斷出使用者對何種資源感興趣;對日誌檔案所收集到的域名資料,根據國家或型別進行分類分析;應用聚類分析來識別使用者的訪問動機和訪問趨勢等。這項技術已經有效地運用在政府電子貿易中。

    2)網站設計 通過對網站內容的挖掘,主要是對文字內容的挖掘,可以有效地組織網站資訊,如採用自動歸類技術實現網站資訊的層次性組織;同時可以結合對使用者訪問日誌記錄資訊的挖掘,把握使用者的興趣,從而有助於開展網站資訊推送服務以及個人資訊的定製服務,吸引更多的使用者。

    3)搜尋引擎 網路資料探勘是目前網路資訊檢索發展的一個關鍵。如通過對網頁內容挖掘,可以實現對網頁的聚類、分類,實現網路資訊的分類瀏覽與檢索;同時,通過對使用者所使用的提問式的歷史記錄的分析,可以有效地進行提問擴充套件,提高使用者的檢索效果;另外,運用網路內容挖掘技術改進關鍵詞加權演算法,提高網路資訊的標引準確度,從而改善檢索效果。

4)決策支援 為政府重大政策出臺提供決策支援。如,通過對網路各種經濟資源的挖掘,確定未來經濟的走勢,從而制定出相應的巨集觀經濟調控政策。

市場營銷的資料探勘

資料探勘技術在企業市場營銷中得到了比較普遍的應用,它是以市場營銷學的市場細分原理為基礎,其基本假定是“消費者過去的行為是其今後消費傾向的最好說明”。

通過收集、加工和處理涉及消費者消費行為的大量資訊,確定特定消費群體或個體的興趣、消費習慣、消費傾向和消費需求,進而推斷出相應消費群體或個體下一步的消費行為,然後以此為基礎,對所識別出來的消費群體進行特定內容的定向營銷,這與傳統的不區分消費者物件特徵的大規模營銷手段相比,大大節省了營銷成本,提高了營銷效果,從而為企業帶來更多的利潤。

商業消費資訊來自市場中的各種渠道。例如,每當我們用信用卡消費時,商業企業就可以在信用卡結算過程收集商業消費資訊,記錄下我們進行消費的時間、地點、感興趣的商品或服務、願意接收的價格水平和支付能力等資料;當我們在申辦信用卡、辦理汽車駕駛執照、填寫商品保修單等其他需要填寫表格的場合時,我們的個人資訊就存入了相應的業務資料庫;企業除了自行收集相關業務資訊之外,甚至可以從其他公司或機構購買此類資訊為自己所用。

這些來自各種渠道的資料資訊被組合,應用超級計算機、並行處理、神經元網路、模型化演算法和其他資訊處理技術手段進行處理,從中得到商家用於向特定消費群體或個體進行定向營銷的決策資訊。這種資料資訊是如何應用的呢?舉一個簡單的例子,當銀行通過對業務資料進行挖掘後,發現一個銀行帳戶持有者突然要求申請雙人聯合帳戶時,並且確認該消費者是第一次申請聯合帳戶,銀行會推斷該使用者可能要結婚了,它就會向該使用者定向推銷用於購買房屋、支付子女學費等長期投資業務,銀行甚至可能將該資訊賣給專營婚慶商品和服務的公司。資料探勘構築競爭優勢。

在市場經濟比較發達的國家和地區,許多公司都開始在原有資訊系統的基礎上通過資料探勘對業務資訊進行深加工,以構築自己的競爭優勢,擴大自己的營業額。美國運通公司(American Express)有一個用於記錄信用卡業務的資料庫,資料量達到54億字元,並仍在隨著業務進展不斷更新。運通公司通過對這些資料進行挖掘,制定了“關聯結算(Relation ship Billing)優惠”的促銷策略,即如果一個顧客在一個商店用運通卡購買一套時裝,那麼在同一個商店再買一雙鞋,就可以得到比較大的折扣,這樣既可以增加商店的銷售量,也可以增加運通卡在該商店的使用率。再如,居住在倫敦的持卡消費者如果最近剛剛乘英國航空公司的航班去過巴黎,那麼他可能會得到一個週末前往紐約的機票打折優惠卡。

基於資料探勘的營銷,常常可以向消費者發出與其以前的消費行為相關的推銷材料。卡夫(Kraft)食品公司建立了一個擁有3000萬客戶資料的資料庫,資料庫是通過收集對公司發出的優惠券等其他促銷手段作出積極反應的客戶和銷售記錄而建立起來的,卡夫公司通過資料探勘瞭解特定客戶的興趣和口味,並以此為基礎向他們傳送特定產品的優惠券,併為他們推薦符合客戶口味和健康狀況的卡夫產品食譜。美國的讀者文摘(Reader's Digest)出版公司執行著一個積累了40年的業務資料庫,其中容納有遍佈全球的一億多個訂戶的資料,資料庫每天24小時連續執行,保證資料不斷得到實時的更新,正是基於對客戶資料資料庫進行資料探勘的優勢,使讀者文摘出版公司能夠從通俗雜誌擴充套件到專業雜誌、書刊和聲像製品的出版和發行業務,極大地擴充套件了自己的業務。

基於資料探勘的營銷對我國當前的市場競爭中也很具有啟發意義,我們經常可以看到繁華商業街上一些廠商對來往行人不分物件地散發大量商品宣傳廣告,其結果是不需要的人隨手丟棄資料,而需要的人並不一定能夠得到。如果搞家電維修服務的公司向在商店中剛剛購買家電的消費者郵寄維修服務廣告,賣特效藥品的廠商向醫院特定門診就醫的病人郵寄廣告,肯定會比漫無目的的營銷效果要好得多。

零售業中的資料探勘

通過條形碼、編碼系統、銷售管理系統、客戶資料管理及其它業務資料中,可以收集到關於商品銷售、客戶資訊、貨存單位及店鋪資訊等的資訊資料。資料從各種應用系統中採集,經條件分類,放到資料倉庫裡,允許高階管理人員、分析人員、採購人員、市場人員和廣告客戶訪問,利用DM工具對這些資料進行分析,為他們提供高效的科學決策工具。如對商品進行購物籃分析,分析那些商品顧客最有希望一起購買。如被業界和商界傳誦的經典----Wal-Mart的 “啤酒和尿布”,就是資料探勘透過資料找出人與物間規律的典型。在零售業應用領域,利用DW、DM會在很多方面有卓越表現:

1.  瞭解銷售全域性:通過分類資訊——按商品種類、銷售數量、商店地點、價格和日期等了解每天的運營和財政情況,對銷售的每一點增長、庫存的變化以及通過促銷而提高的銷售額都可瞭如指掌。零售商店在銷售商品時,隨時檢查商品結構是否合理十分重要,如每類商品的經營比例是否大體相當。調整商品結構時需考慮季節變化導致的需求變化、同行競爭對手的商品結構調整等因素。

2.  商品分組佈局:分析顧客的購買習慣,考慮購買者在商店裡所穿行的路線、購買時間和地點、掌握不同商品一起購買的概率;通過對商品銷售品種的活躍性分析和關聯性分析,用主成分分析方法,建立商品設定的最佳結構和商品的最佳佈局。

3.  降低庫存成本:通過資料探勘系統,將銷售資料和庫存資料集中起來,通過資料分析,以決定對各個商品各色貨物進行增減,確保正確的庫存。資料倉庫系統還可以將庫存資訊和商品銷售預測資訊,通過電子資料交換(EDI)直接送到供應商那裡,這樣省去商業中介,而且由供應商負責定期補充庫存,零售商可減少自身負擔。

4.  市場和趨勢分析:利用資料探勘工具和統計模型對資料倉庫的資料仔細研究,以分析顧客的購買習慣、廣告成功率和其它戰略性資訊。利用資料倉庫通過檢索資料庫中近年來的銷售資料,作分析和資料探勘,可預測出季節性、月銷售量,對商品品種和庫存的趨勢進行分析。還可確定降價商品,並對數量和運作作出決策。

有效的商品促銷:可以通過對一種廠家商品在各連鎖店的市場共享分析,客戶統計以及歷史狀況的分析,來確定銷售和廣告業務的有效性。通過對顧客購買偏好的分析,確定商品促銷的目標客戶,以此來設計各種商品促銷的方案,並通過商品購買關聯分析的結果,採用交叉銷售和向上銷售的方法,挖掘客戶的購買力,實現準確的商品促銷。

銀行業的資料探勘

金融事務需要蒐集和處理大量的資料,由於銀行在金融領域的地位、工作性質、業務特點以及激烈的市場競爭決定了它對資訊化、電子化比其它領域有更迫切的要求。利用資料探勘技術可以幫助銀行產品開發部門描述客戶以往的需求趨勢,並預測未來。美國商業銀行是發達國家商業銀行的典範,許多地方值得我國學習和借鑑。

資料探勘技術在美國銀行金融領域應用廣泛。金融事務需要蒐集和處理大量資料,對這些資料進行分析,發現其資料模式及特徵,然後可能發現某個客戶、消費群體或組織的金融和商業興趣,並可觀察金融市場的變化趨勢。商業銀行業務的利潤和風險是共存的。為了保證最大的利潤和最小的風險,必須對帳戶進行科學的分析和歸類,並進行信用評估。Mellon銀行使用資料探勘軟體提高銷售和定價金融產品的精確度,如家庭普通貸款。零售信貸客戶主要有兩類,一類很少使用信貸限額(低迴圈者),另一類能夠保持較高的未清餘額(高迴圈者)。每一類都代表著銷售的挑戰。低迴圈者代表預設和支出登出費用的危險性較低,但會帶來極少的淨收入或負收入,因為他們的服務費用幾乎與高迴圈者的相同。銀行常常為他們提供專案,鼓勵他們更多地使用信貸限額或找到交叉銷售高利潤產品的機會。高迴圈者由高和中等危險元件構成。高危險分段具有支付預設和登出費用的潛力。對於中等危險分段,銷售專案的重點是留住可獲利的客戶並爭取能帶來相同利潤的新客戶。但根據新觀點,使用者的行為會隨時間而變化。分析客戶整個生命週期的費用和收入就可以看出誰是最具創利潛能的。

Mellon銀行認為“根據市場的某一部分進行定製”能夠發現終端使用者並將市場定位於這些使用者。但是,要這麼做就必須瞭解關於終端使用者特點的資訊。資料探勘工具為Mellon銀行提供了獲取此類資訊的途徑。Mellon銀行銷售部在先期資料探勘專案上使用Intelligence Agent尋找資訊,主要目的是確定現有Mellon使用者購買特定附加產品:家庭普通訊貸限額的傾向,利用該工具可生成用於檢測的模型。據銀行官員稱:資料探勘可幫助使用者增強其商業智慧,如交往、分類或迴歸分析,依賴這些能力,可對那些有較高傾向購買銀行產品、服務產品和服務的客戶進行有目的的推銷。該官員認為,該軟體可反饋用於分析和決策的高質量資訊,然後將資訊輸入產品的演算法。資料探勘還有可定製能力。

美國Firstar銀行使用資料探勘工具,根據客戶的消費模式預測何時為客戶提供何種產品。Firstar銀行市場調查和資料庫營銷部經理髮現:公共資料庫中儲存著關於每位消費者的大量資訊,關鍵是要透徹分析消費者投入到新產品中的原因,在資料庫中找到一種模式,從而能夠為每種新產品找到最合適的消費者。資料探勘系統能讀取800到1000個變數並且給它們賦值,根據消費者是否有家庭財產貸款、賒帳卡、存款證或其它儲蓄、投資產品,將它們分成若干組,然後使用資料探勘工具預測何時向每位消費者提供哪種產品。預測準客戶的需要是美國商業銀行的競爭優勢。

證券業的資料探勘

其典型應用包括有:

1、客戶分析

建立資料倉庫來存放對全體客戶、預定義客戶群、某個客戶的資訊和交易資料,並通過對這些資料進行挖掘和關聯分析,實現面向主題的資訊抽取。對客戶的需求模式和盈利價值進行分類,找出最有價值和盈利潛力的客戶群,以及他們最需要的服務,更好地配置資源,改進服務,牢牢抓住最有價值的客戶。

通過對客戶資源資訊進行多角度挖掘,瞭解客戶各項指標(如資產貢獻、忠誠度、盈利率、持倉比率等),掌握客戶投訴、客戶流失等資訊,從而在客戶離開券商之前,捕獲資訊,及時採取措施挽留客戶。

2、諮詢服務

根據採集行情和交易資料,結合行情分析,預測未來大盤走勢,並發現交易情況隨著大盤變化的規律,並根據這些規律做出趨勢分析,對客戶針對性進行諮詢。

3、風險防範

通過對資金資料的分析,可以控制營業風險,同時可以改變公司總部原來的資金控制模式,並通過橫向比較及時瞭解資金情況,起到風險預警的作用。

4、經營狀況分析

通過資料探勘,可以及時瞭解營業狀況、資金情況、利潤情況、客戶群分佈等重要的資訊。並結合大盤走勢,提供不同行情條件下的最大收益經營方式。同時,通過對各營業部經營情況的橫向比較,以及對本營業部歷史資料的縱向比較,對營業部的經營狀況作出分析,提出經營建議。

電信業的資料探勘

電信業已經迅速地從單純的提供市話和長話服務演變為綜合電信服務,如語音、傳真、尋呼、行動電話、影象、電子郵件、計算機和WEB資料傳輸以及其他的資料通訊服務。電信、計算機網路、因特網和各種其他方式的的通訊和計算的融合是目前的大勢所趨。而且隨著許多國家對電信業的開放和新興計算與通訊技術的發展,電信市場正在迅速擴張並越發競爭激烈。因此,利用資料探勘技術來幫助理解商業行為、確定電信模式、捕捉盜用行為、更好地利用資源和提高服務質量是非常有必要的。分析人員可以對呼叫源、呼叫目標、呼叫量和每天使用模式等資訊進行分析還可以通過挖掘進行盜用模式分析和異常模式識別,從而可儘早的發現盜用,為公司減少損失。

行動通訊領域的資料探勘

針對資訊化的應用,行動通訊行業資訊化程序得到巨大發展和廣泛應用,運營網路系統、綜合業務系統、計費系統、辦公自動化等系統的相繼使用,為計算機應用系統的執行積累了大量的歷史資料。但在很多情況下,這些海量資料在原有的作業系統中是無法提煉並昇華為有用的資訊並提供給業務分析人員與管理決策者的。一方面,聯機作業系統因為需要保留足夠的詳細資料以備查詢而變得笨重不堪,系統資源的投資跟不上業務擴充套件的需求;另一方面,管理者和決策者只能根據固定的、定時的報表系統獲得有限的經營與業務資訊,無法適應激烈的市場競爭。

隨著我國政府對電信行業經營的進一步放開和政策約束的調整以及客戶對電信服務質量要求的提高、盜打、欺詐因素的增加等等,行動通訊的經營面臨更加複雜的局面,營運成本大幅度增加。因此,如何在激烈的市場競爭條件下,在滿足客戶需求和優質服務的前提下充分利用現有裝置降低成本、提高效益,就成為決策者們共同關心的課題。

依照國外電信市場的發展經驗和歷程,市場競爭中電信公司的成功經營之道是:(1) 以高質量的服務留住現有客戶;(2) 提高通話量和裝置利用率,用比競爭者更低的成本爭取新客戶,擴大市場份額;(3)放棄無利潤和信用差的客戶,降低經營風險和成本。

對於一個相對成熟的行動通訊運營商來說,各運營與支撐系統所積累的海量歷史資料無疑是一筆寶貴的財富,而資料探勘正是充分利用這些寶貴資源從而達到上述三重目標的一種最為有效的方法與手段。

體育領域的資料探勘

1、體質資料分析

目前,我國對健康和增強體質都十分重視,每年都有很多相關的體質測試。這樣年復一年地積累了大量資料,而對這些資料的分析採用的幾乎都是統計方法,包括很多單位的體育分析和評價軟體,主要是對體質資料的均值分析以及套用規定的評價公式進行評價和分析。顯然,它們對體育中的體質資料分析有一定的貢獻,但其作用也只能侷限於資料本身的大小比較,且產生的結果通常只能由專業人員能夠理解,另外只採用統計的方法挖掘資料之間的聯絡也十分有限。

利用資料探勘對體質資料進行挖掘,很容易產生統計方法難以實現的結果。例如,根據積累和不斷收集的資料,結合體質資料和營養學方面的知識,可以挖掘出造成不同地區體質好或差的營養方面的原因;同樣,根據體質資料和醫學方面的知識,能夠挖掘出人們的健康狀況,甚至分析出導致健康狀況較低的可能的疾病原因,從而可以更好地為人們自我保健和健身等各方面提供有力的指導;此外,採用資料探勘對有名運動員的早期體質資料進行分析,能夠找出它們的共同特點,從而為體育選材提供有力的依據。體質資料庫正如一個寶礦,採用資料探勘技術,肯定能夠挖掘出很多難以想象的寶藏。

2、 體育產業中的應用

資料探勘最初的應用就是商業領域,而體育產業本身就是一類典型的商業。在一般的商業資料探勘中,DM技術判斷哪些是它們的最有價值客戶、重新制定它們的產品推廣策略(把產品推廣給最需要它們的人),以用最小的花費得到最好的銷售。以體育廣告為例,可以對國內從事不同體育運動廣告業務的資料庫進行挖掘,比如,發現了做某類體育廣告的單位或公司的特徵,那麼就可以向那些具有這些特徵但還未成為我們的客戶的其它公司或單位推銷這類體育廣告;同樣,如果通過挖掘找到流失的客戶的共同特徵,就可以在那些具有相似特徵的客戶還未流失之前進行鍼對性的彌補。這樣,可以一定程度地提高體育廣告的效益。,因此,及時、有效地利用DM,可以為我國體育產業創造更多的財富。

3、 競技體育中的應用

競技體育特別是對抗性質的競技,通常不但要求運動員實際水平高,同時戰術策略也相當重要,有時競技中的戰術甚至起到決定性作用。認識到資料探勘的功能後,國外已經將其應用於競技體育中。例如,美國著名的國家籃球隊NBA的教練,利用IBM公司提供的資料探勘工具臨場輔助決定替換隊員,而且取得了很好的效果。系統分析顯示魔術隊先發陣容中的兩個後衛安佛尼.哈德衛(Anfernee Hardaway)和伯蘭.紹(Brian Shaw)在前兩場中被評為-17分,這意味著他倆在場上本隊輸掉的分數比得到的分數多17分。然而,當哈德衛與替補後衛達利爾.阿姆斯創(Darrell Armstrong)組合時,魔術隊得分為正14分。在下一場中,魔術隊增加了阿姆斯創的上場時間。此著果然見效:阿姆斯創得了21分,哈德衛得了42分,魔術隊以88比79獲勝。魔術隊在第四場讓阿姆斯創進入先發陣容,再一次打敗了熱隊。在第五場比賽中,這個靠資料探勘支援的陣容沒能拖住熱隊,但資料探勘畢竟幫助了魔術隊贏得了打滿5場,直到最後才決出勝負的機會。目前,NBA球隊中大約20個使用了IBM公司開發的該軟體系統來優化他們的戰術組合。同樣,利用資料探勘技術也可以分析足球、排球等類似對抗性的競技運動,從中找出對手的弱點,制定出到更有效的戰術

郵政業的資料探勘

中國郵政建立了目前國內最大的物流交換體系,同時也積累了大量的使用者資料,如何利用這些使用者資料,通過資料分析為郵政業務的發展提供科學決策依據,是郵政部門十分關心的問題。資料探勘技術可以很好地為郵政部門解決上述問題,利用該技術,我們可以進行客戶存款餘額分析、客戶存款結構分析、平均存款利率分析、不同儲種餘額分析、不同儲種客戶分析、攬儲統計分析、業務量統計分析等等。我們以客戶存款分析進行介紹。採用分析的維包括如下: 營業網點的地區:以地區作為分析維度,可以判斷出各個儲蓄所的工作業績情況; 客戶的年齡:根據客戶年齡段對存款餘額進行統計,從中可以分析出哪個年齡段的客戶是優良客戶,哪些客戶是未來開發的重點。客戶的地址:根據客戶所在地區統計存款餘額, 可以分析出各地區的經濟情況以及人們對郵政儲蓄的認識程度,從而為以後的業務拓展提供依據; 存款的用途:居民的儲蓄存款用途比較繁雜,但是瞭解有規律的存款目的一方面可以幫助郵政儲蓄及時想客戶之所想,拉近與客戶之間的距離;另一方面可以為新業務的拓展提供有力的資訊;時間段:通過這種分析可以及時掌握客戶儲蓄的變化規律,從而適當調整郵政業務流程。例如,根據客戶存款的變化規律可以預見性的及時調整郵政儲蓄的頭寸資金,在保證投資最大化的同時,預防金融風險。

呼叫中心的資料探勘

呼叫中心正在逐漸成為企業進行資訊收集的主要渠道。在收集了大量的資料之後,如何將這些資料進行整理、分析,為企業進行科學決策提供支援,也是面臨的一個主要問題。資料探勘技術,能提供一條新的解決出路。

為決策提供依據,將資料探勘技術引入呼叫中心,具有十分重要的意義。企業運營過程中的各種資訊都是通過資料反映出來的,通過對這些資料的分析,可以發現企業運營過程中的規律,從而對企業的生產活動、市場活動等提供科學指導意義。

呼叫中心目前僅解決了企業與外部市場進行資訊接入的問題,產生的大量資料通過報表等統計方法,只能得到一般意義上的資訊反映。而通過資料探勘技術,可以發現許多深層的、手工無法發現的規律,幫助企業在激烈的競爭環境中,佔有更多的先機。

為使用者提供針對性服務,通過資料探勘技術,可以根據客戶的消費行為進行分類,找出該類客戶的消費特徵,然後通過呼叫中心提供更具個性化的服務,從而改進企業的服務水平,提高企業的社會效益和經濟效益。

提高企業的決策科學,目前,企業的決策具有很大的盲目性。如果採用資料探勘技術,就可以在自己的生產過程中產生的資料基礎上,進行科學分析,得出比較科學的預測結果,減少決策失誤。通過資料探勘技術,可以讓企業的決策迴歸到自己的業務中,得出更實際的判斷。

    增值更容易,資料探勘在呼叫中心中會有很多種應用,而且有些應用可以幫助簡化管理運營,有的則可以提供一些業務關聯性的資料,幫助企業呼叫中心更好地開展業務,實現增值。具體說來,增值應用表現在以下方面。分析客戶行為,進行交叉銷售。在呼叫中心的各種客戶中,可以根據其消費的特點,進行相關分析,瞭解某類客戶在購買一種商品時,購買其它種類產品的概率有多大。根據這種相互的關聯性,就可以進行交叉銷售。分析客戶忠誠度,避免客戶流失。在客戶分析過程中,會有很多重要的大客戶流失。採用資料探勘技術,可以對這些流失的大客戶進行分析,找出資料模型,發現其流失的規律,然後有針對性地改進服務質量,避免客戶的流失,減少企業的經濟損失。

簡化管理,呼叫中心的運營管理被人們提到前所未有的高度,因為一箇中心即使建得很好,技術也很先進,但如果管理不好,優勢仍然發揮不出來。然而,管理對於很多呼叫中心來說,卻是很難過的門檻,資料探勘能幫助簡化管理。

預測話務量,安排人工座席,在呼叫中心中,話務量是個重要的指標,企業要根據話務量的大小,安排座席人員的數量,但話務量是個變化的指標,以往比較難以預測。通過資料探勘中的時間序列分析,可以對話務量的情況進行一定程度的預測,就可以更合理地安排座席人員的數量,在不降低呼叫中心接通率的基礎上,降低企業的運營成本。

進行關聯分析,降低運營成本。在運營型的呼叫中心中,常常會提供很多種業務服務,並根據這些業務種類的不同,安排座席人員的數量和排班。通過資料探勘中關聯分析,可以進行業務的相關性分析,分析出哪幾種業務具有比較強的關聯性。如在快遞行業,送生日蛋糕的業務與送鮮花的業務可能就有很大的關聯性。這樣,在安排座席人員時,就可以將兩種業務的座席人員進行一定程度的合併,減少人員數量,降低呼叫中心的經營成本。

數字圖書館的資料探勘

WEB挖掘是一個前景非常看好的工具。我們知道,傳統的效率低下的搜尋引擎檢索出的資訊往往索引不完全、有大量的無關資訊或沒有進行可靠性驗證。使用者能夠快速方便地從WEB中檢索出相關的可靠的資訊是一個系統的最基本的要求。WEB挖掘不僅能夠從WWW的大量的資料中發現資訊,而且它監視和預測使用者的訪問習慣。這樣給設計人員在設計WEB站點時有更多的可靠的資訊。WEB挖掘技術能夠幫助圖書館員在設計站點時朝著方便使用者、節省時間和高效率方向發展。WEB挖掘技術為圖書館員進行資訊服務提供了先進的工具。有了這個工具,圖書館員能夠按照各個使用者的要求或習慣,為使用者組織更多、更好的高質量資訊。

例如;院校圖書館員們應用WEB挖掘技術為本院校不同學科中的不同研究課題從WWW中檢索相關資訊。該技術可以自動地檢索資訊,並把資訊按照課題領域進行分類,使它們更容易訪問。圖書館員可以通過為不同的課題領域建立一組特徵,並以這些特徵為基礎進行檢索和分類,從而保證得到的資訊是可靠的和具有權威性的。由於WEB挖掘技術能夠自動地,不須人工干預地從WWW中發現和組織資訊,從而使圖書館員只需花少量的時間來維護資料庫即可完成任務。使用者由於不需要花大量的時間來瀏覽成百上千的文件,就可在相當短的時間裡得到想要的資訊而感到非常滿意。更重要的是,他們可以在任何時間訪問到世界任何地方的資訊。事實上,這就是圖書館員把他們的諮詢服務從桌面轉移到INTERNET的具體工作表現。

網站的資料探勘

 隨著Web技術的發展,各類電子商務網站風起雲湧。建立一個電子商務網站並不困難,困難的是如何讓您的電子商務網站有效益。要想有效益就必須吸引客戶,增加能帶來效益的客戶忠誠度。電子商務業務的競爭比傳統的業務競爭更加激烈,原因有很多方面,其中一個因素是客戶從一個電子商務網站轉換到競爭對手那邊,只需要點選幾下滑鼠即可。網站的內容和層次、用詞、標題、獎勵方案、服務等任何一個地方都有可能成為吸引客戶、同時也可能成為失去客戶的因素。而同時電子商務網站每天都可能有上百萬次的線上交易,生成大量的記錄檔案(Log files)和登記表,如何對這些資料進行分析和挖掘,充分了解客戶的喜好、購買模式,甚至是客戶一時的衝動,設計出滿足不同客戶群體需要的個性化網站,進而增加其競爭力,幾乎變得勢在必行。若想在競爭中生存進而獲勝,就要比您的競爭對手更瞭解客戶。

在對網站進行資料探勘時,所需要的資料主要來自於兩個方面:一方面是客戶的背景資訊,此部分資訊主要來自於客戶的登記表;而另外一部分資料主要來自瀏覽者的點選流(Click-stream),此部分資料主要用於考察客戶的行為表現。但有的時候,客戶對自己的背景資訊十分珍重,不肯把這部分資訊填寫在登記表上,這就會給資料分析和挖掘帶來不便。在這種情況之下,就不得不從瀏覽者的表現資料中來推測客戶的背景資訊,進而再加以利用。

生物醫學和DNA的資料探勘

生物資訊或基因資料探勘對人類受益非淺。例如,基因的組合千變萬化,得某種疾病的人的基因和正常人的基因到底差別多大?能否找出其中不同的地方,進而對其不同之處加以改變,使之成為正常基因?這都需要資料探勘技術的支援。

對於生物資訊或基因的資料探勘和通常的資料探勘相比,無論在資料的複雜程度、資料量還有分析和建立模型的演算法而言,都要複雜得多。從分析演算法上講,更需要一些新的和好的演算法。現在很多廠商正在致力於這方面的研究。但就技術和軟體而言,還遠沒有達到成熟的地步。

因特網篩選的資料探勘

最近,有不少資料探勘產品用來篩選因特網上的新聞,保護使用者不受無聊電子郵件和商業推銷的干擾,很受歡迎。

氣象預報中的資料探勘

農業生產與氣候、氣象有著密切的關係,我國是一個農業大國,農業生產關係到國家經濟命脈和人民生活。天氣系統是一個複雜性系統,其影響因素多,時空狀態變化大。氣象資料中蘊含著複雜非線性動力學機制。各個因素之間的關係十分複雜,並具有紛雜多變的時空特徵。因而,難以建立農業生產與氣象要素的關係。採用新的技術和方法進行相關研究有實際意義,也是應用發展及需求的驅動,資料探勘技術可以用來解決此問題。

    國外利用資料探勘來進行氣象預報的應用研究所採用的方法主要包括:神經網路、分類和聚類;國內則有人採用了小波分析與語言場相結合的知識表示方法,針對氣象資料提出一種新的基於小波分析和混沌理論相結合進行類別知識的發現方法,氣象資料通過小波變換後可以提取表示天氣系統的特徵資料,利用特徵資料同農業生產相關指標(如產量,害蟲密度等)的關係進行資料探勘,資料探勘的方法包括:分類、聚類、關聯規則以及相似模式等,從非結構化資料資訊挖掘的角度構建了一個實用的、可擴充套件的、易操作的氣象科學研究的應用系統。

水文資料的資料探勘

資訊獲取與分析技術的快速發展,特別是遙測、遙感、網路、資料庫等技術的應用,有力地促進了水文資料的採集和處理技術的發展,使之在時間和空間的尺度及要素型別上有了不同程度的擴充套件。由於水在人類生存發展中的特殊作用,應用各種新技術獲取水文資料,挖掘蘊藏於水文資料中的知識,已成為水文科學發展的新熱點。數字水文系統的提出是水文科學發展的時代標誌之一。其核心是如何形成數字化的、覆蓋整個指定地域空間的、多重時空尺度的、多種要素的、對水文分析有用的資料產品。

    水文資料探勘是精確水文預報和水文資料分析的重要基礎。在我國,整個水文整編資料資料累計量已超過7000MB,加上進行水文預報所需的天氣、地理等資料,進行水文分析所需要處理的資料量很大。從這些數量巨大、型別複雜的資料中及時準確地挖掘出滿足需要的知識,往往因為計算能力、儲存能力、演算法的不足而無能為力。因此,需要高效的水文資料探勘技術。資料探勘技術在水文資訊服務領域的應用將是多方面的。

    資料探勘一般有關聯分析(Associations)、序列模式分析(Sequential Patterns)、分類分析(Classifiers)、聚類分析(Clustering)等功能型別。根據應用目標不同,資料探勘可以採用或借鑑各種已經存在的理論和演算法,如資訊理論、數理邏輯、進化計算、神經計算、統計學等以及面向例項的學習的許多演算法都可以應用於資料探勘系統的實現中。水文資料探勘可以應用決策樹、神經網路、覆蓋正例排斥反例、粗糙集(Rough Set)、概念樹、遺傳演算法、公式發現、統計分析、模糊論等理論與技術,並在視覺化技術的支援下,構造滿足不同目的的水文資料探勘應用系統。

視訊資料的資料探勘

目前,多媒體資料已逐漸成為資訊處理領域中主要的資訊媒體形式,尤其是視訊資料,由於它能記錄、保留空間和時間上的各種資訊,其內容豐富,但使人們能夠以最接近自然的方式獲得更多的細節。視訊資料在生活中的應用越來越廣泛,已產生了大量的數字視訊庫,目前的研究主要集中在數字視訊庫的組織管理和使用上,特別是基於內容的視訊檢索技術。基於內容的視訊資訊檢索技術雖然在某種程度上解決了視訊搜尋和資源發現問題,但是,視訊資訊檢索只能獲取使用者要求的視訊“資訊”,而不能從大量視訊資料中分析出蘊含的有價值的用視訊媒體表示的“知識”。為此,需要研究比檢索和查詢層次更高的視訊分析方法,那就是視訊挖掘(Video Mining)。視訊挖掘就是通過綜合分析視訊資料的視聽特性、時間結構、事件關係和語義資訊,發現隱含的、有價值的、可理解的視訊模式,得出視訊表示事件的趨向和關聯,改善視訊資訊管理的智慧程度。視訊挖掘的系統結構一般如圖所示。

    在資料立方體和多維分析的基礎上,採取一些資料探勘的方法能發現隱含在視訊資料中的有用資訊和模式,常用的挖掘方法有分類、聚類和關聯方法。

    分類是常用的一種資料分析形式。常規資料的分類是一個兩步過程:第一步,建立一個模型,用來描述預定義類集,通過分析資料庫中部分資料來構造分類模型,用於建立模型的資料稱為訓練資料集,訓練可以隨機選取。第二步,使用模型進行分類。首先要評價分類模型的分類準確率,採用測試資料集來檢測模型的可行性,如果認為模型的準確率可以接受,就可以用它來對資料庫中的其他資料進行分類。視訊物件的分類就是把一組視訊物件(鏡頭、代表幀、場景、提取出的目標物件、文字等)按照相似性分成若干類,使屬於同一類別的資料之間的相似性儘可能大,而不同類別資料之間的相似性儘可能小。可以根據應用的需要,選取一些用來分類的特性,如視訊鏡頭的顏色直方圖、視訊中物件的運動、視訊的語義描述等。

    聚類分析首先通過分析視訊資料庫中的資料,將具有相同特性的資料聚集在一起,合理地劃分記錄,然後再確定每個資料物件所在的類別。聚類分析不同於分類,將資料分成幾類是事先並不知道的。聚類演算法一般分為基於概率的聚類演算法和基於距離的聚類演算法。視訊物件的聚類在視訊結構分析中具有重要的作用,例如,利用聚類演算法可以將特徵相似的鏡頭聚整合更高層的結構單元——場景。

    關聯規則挖掘是指尋找給定資料集中項之間有用的聯絡。常規資料庫中最典型的關聯規則就是購物籃分析,即通過發現顧客放入其購物籃中不同商品之間的聯絡,分析顧客的購買習慣。挖掘視訊物件之間的關聯,就是把視訊物件看成是一個數據項,從中找出不同視訊物件間出現頻率高的模式。例如兩個視訊物件經常同時出現、視訊鏡頭變換的頻率和視訊型別之間的關聯等。

    視訊挖掘可以應用於政府機關、企業管理、商業資訊管理、軍事情報和指揮、公共事業管理、公共安全、國家安全等指揮決策部門。企業、政府等部門的應用可以帶來直接或間接的巨大的經濟效益;軍事、商業、政府等部門的應用將解決常規方法解決不了的關鍵性隱含模式的發現問題。從下面典型的和潛在的應用中可以看出視訊挖掘技術的市場前景、經濟效益和社會作用。1.交通監控視訊流的實時分析和挖掘,對安裝在多個交通路口獲取的實時交通監控視訊流進行運動特徵分析,挖掘出交通狀況和擁堵模式,為交通控制和指揮機關提供決策支援。2.視訊新聞挖掘,對每天大量的國內和國際視訊新聞進行分析和挖掘,包括事件的關聯分析、危機的發生分析、災害事件(水災、火災、疾病等)分析、軍事部署或兵力調動,在時間或空間維度上展示挖掘出來的模式。例如對多年的視訊新聞資料中的恐怖事件進行分析和挖掘,得出某種有價值的行動模式和事件關聯。3.視訊監視系統的視訊流挖掘,用於銀行、商場、車間、酒店等視訊流的挖掘,分析事故模式、客流模式等。4.數字圖書館視訊資料挖掘,對大規模多主題的視訊資料進行分類、聚類等分析,以改善視訊的分類與索引。5.電視臺視訊節目挖掘,對視訊節目資料庫的敘事模式分析、風格分析,以及視訊節目管理中的高層分析和挖掘,例如生產日期、數量、型別、片長等特性的統計、分佈、關聯的挖掘。6.企業中電子商務的可視交易活動挖掘,對可視電子商務的交易過程的分析和挖掘。使用者與多媒體企業電子商務介面互動,這種可視交易介面是由MPEG-4形式的可互動視訊流構造的。該技術可以用於對使用者的選擇和定購行為進行分析與挖掘。另外,還可以對視訊廣告進行分析和挖掘,分析廣告與效果的關聯模式。

個人資料探勘

個人資料探勘的應用非常廣泛,例如,可以挖掘公司記錄,選擇最好的合作伙伴;挖掘個人家庭醫療史,確定和遺傳有關的醫學模式,從而對生活方式和健康做出最優決策;挖掘股票和公司業績來選擇最優投資方式等。

資料探勘工具的評價標準

如何選擇滿足自己需要的資料探勘工具呢?評價一個數據挖掘工具,需要從以下幾個方面來考慮:

1產生的模式種類的多少。

2解決複雜問題的能力。

資料量的增大,對模式精細度、準確度要求的增高都會導致問題複雜性的增大。資料探勘系統可以提供下列方法解決複雜問題:

多種模式多種類別模式的結合使用有助於發現有用的模式,降低問題複雜性。例如,首先用聚類的方法把資料分組,然後再在各個組上挖掘預測性的模式,將會比單純在整個資料集上進行操作更有效、準確度更高。

多種演算法很多模式,特別是與分類有關的模式,可以有不同的演算法來實現,各有各的優缺點,適用於不同的需求和環境。資料探勘系統提供多種途徑產生同種模式,將更有能力解決複雜問題。驗證方法在評估模式時,有多種可能的驗證方法。比較成熟的方法像N層交叉驗證或Bootstrapping等可以控制,以達到最大的準確度。

資料選擇和轉換模式通常被大量的資料項隱藏。有些資料是冗餘的,有些資料是完全無關的。而這些資料項的存在會影響到有價值的模式的發現。資料探勘系統的一個很重要功能就是能夠處理資料複雜性,提供工具,選擇正確的資料項和轉換資料值。

視覺化工具提供直觀、簡潔的機制表示大量的資訊。這有助於定位重要的資料,評價模式的質量,從而減少建模的複雜性。 擴充套件性為了更有效地提高處理大量資料的效率,資料探勘系統的擴充套件性十分重要。需要了解的是:資料探勘系統能否充分利用硬體資源?是否支援平行計算?演算法本身設計為並行的或利用了DBMS的並行效能?支援哪種平行計算機,SMP伺服器還是MPP伺服器?當處理器的數量增加時,計算規模是否相應增長?是否支援資料並行儲存?

為單處理器的計算機編寫的資料探勘演算法不會在平行計算機上自動以更快的速度執行。為充分發揮平行計算的優點,需要編寫支援平行計算的演算法。

3易操作性

易操作性是一個重要的因素。有的工具有圖形化介面,引導使用者半自動化地執行任務,有的使用指令碼語言。有些工具還提供資料探勘的API,可以嵌入到像C、VisualBasic、PowerBuilder這樣的程式語言中。

模式可以運用到已存在或新增加的資料上。有的工具有圖形化的介面,有的允許通過使用C這樣的程式語言或SQL中的規則集,把模式匯出到程式或資料庫中。

4資料存取能力

好的資料探勘工具可以使用SQL語句直接從DBMS中讀取資料。這樣可以簡化資料準備工作,並且可以充分利用資料庫的優點(比如平行讀取)。沒有一種工具可以支援大量的DBMS,但可以通過通用的介面連線大多數流行的DBMS。Microsoft的ODBC就是一個這樣的介面。

5與其他產品的介面

有很多別的工具可以幫助使用者理解資料,理解結果。這些工具可以是傳統的查詢工具、視覺化工具、OLAP工具。資料探勘工具是否能提供與這些工具整合的簡易途徑?

國外的許多行業如通訊、信用卡公司、銀行和股票交易所、保險公司、廣告公司、商店等已經大量利用資料探勘工具來協助其業務活動,國內在這方面的應用還處於起步階段,對資料探勘技術和工具的研究人員以及開發商來說,我國是一個有巨大潛力的市場。

展望

麻省理工學院的《科技評論》雜誌提出未來5年對人類產生重大影響的10大新興技術,“資料探勘”位居第三。一份最近的Gartner報告中列舉了在今後3~5年內對工業將產生重要影響的五項關鍵技術,KDD和人工智慧排名第一。同時,這份報告將平行計算機體系結構研究和KDD列入今後5年內公司應該投資的10個新技術領域。由此可以看出,資料探勘的研究和應用受到了學術界和實業界越來越多的重視,因而成為資訊產業最有前途的交叉學科。其發展方向有:資料庫資料倉庫系統整合,與預測模型系統整合,挖掘各種複雜型別的資料與應用相結合,研製和開發資料探勘標準,支援移動環境等。

相關推薦

摘錄資料知識發現應用領域

應用 資料探勘技術可以為決策、過程控制、資訊管理和查詢處理等任務提供服務,一個有趣的應用範例是“尿布與啤酒”的故事。為了分析哪些商品顧客最有可能一起購買,一家名叫 WalMart的公司利用自動資料探勘工具,對資料庫中的大量資料進行分析後,意外發現,跟尿布一起購買最多的商品

轉載Kaggle 資料比賽經驗分享

【轉載】Kaggle 資料探勘比賽經驗分享   原文:https://blog.csdn.net/catherine_985/article/details/78781825 簡介 Kaggle 於 2010 年創立,專注資料科學,機器學習競賽的舉辦,是全球最大的資料科學社

乾貨Kaggle 資料比賽經驗分享

簡介Kaggle 於 2010 年創立,專注資料科學,機器學習競賽的舉辦,是全球最大的資料科學社群和資料競賽平臺。筆者從 2013 年開始,陸續參加了多場 Kaggle上面舉辦的比賽,相繼獲得了 CrowdFlower 搜尋相關性比賽第一名(1326支隊伍)和 HomeDep

免費課程小白學資料機器學習

浩彬老撕的新書《小白學資料探勘與機器學習》正式發售啦!!!隨書配套了37節(660分鐘以上)免費

資料應該這樣學:資料資料分析知識流程梳理

編輯文章 資料探勘和資料分析的不同之處: 在應用工具上,資料探勘一般要通過自己的程式設計來實現需要掌握程式語言;而資料分析更多的是藉助現有的分析工具進行。 在行業知識方面,資料分析要求對所從事的行業有比較深的瞭解和理解,並且能夠將資料與自身的業務緊密結合起來;而資料探勘不需要有太多

人工智慧、資料、雲端計算、資料機器學習概述

一、人工智慧、大資料、雲端計算:https://blog.csdn.net/zw0pi8g5c1x/article/details/80027593 二、資料探勘與機器學習:https://blog.csdn.net/xiaogss/article/details/79316063 資料探勘

資料:網際網路大規模資料分散式處理pdf

目  錄第1章  資料探勘基本概念  11.1  資料探勘的定義  11.1.1  統計建模  11.1.2  機器學習  11.1.3  建模的計算方法  21.1.4  資料彙總  21.1.5  特徵抽取  31.2  資料探勘的統計限制  41.2.1  整體情報預警  41.2.2  邦弗朗尼原理 

資料網際網路大規模資料分散式處理》閱讀筆記(二)

轉載連線:http://blog.csdn.net/lovemianmian/article/details/9050617     首先來看看這一章講解的整體架構,分別介紹了分散式檔案系統、Map-Reduce、使用Map-Reduce的演算法,Map-Reduce擴充套

帶你看資料機器學習-廈EDP上課出勤預測

開發十年,就只剩下這套架構體系了! >>>   

如何用Python進行資料和分析!

大資料無處不在。在時下這個年代,不管你喜歡與否,在運營一個成功的商業的過程中都有可能會遇到它。 什麼是大資料? 大資料就像它看起來那樣——有大量的資料。單獨而言,你能從單一的資料獲取的洞見窮其有限。但是結合複雜數學模型以及強大計算能力的TB級資料,卻能創造出人類無法制造的洞見。大資料分析提供

零基礎學習資料的33個知識點整理

摘要: 下面是一些關於大資料探勘的知識點,今天和大家一起來學習一下。1. 資料、資訊和知識是廣義資料表現的不同形式。2. 主要知識模式型別有:廣義知識,關聯知識,類知識,預測型知識,特異型知識3. web挖掘研究的主要流派有:Web結構挖掘、Web使用挖掘、Web內容挖掘4. 一般地說,KD

2018最全面的資料的33個知識點

下面是一些關於大資料探勘的知識點,今天和大家一起來學習一下。 1. 資料、資訊和知識是廣義資料表現的不同形式。 2. 主要知識模式型別有:廣義知識,關聯知識,類知識,預測型知識,特異型知識 3. web挖掘研究的主要流派有:Web結構挖掘、Web使用挖掘、Web內容挖掘 4. 一般地

揭祕資料程式設計師這9行業上班最賺錢!

總是聽說大資料就業前景最好,那麼大資料學完後到底做啥呢,應該把自己放在哪個位置最合適。 在大資料成為趨勢,成為國家戰略的今天,如何最大限度發揮大資料的價值成為人們思考的問題。無論是對於網際網路企業、電信運營商還是數量眾多的初創企業而言,大資料的變現顯得尤為重要。誰最先一步找到密碼,誰就能夠搶佔市場,贏得發展

0基礎轉行資料,如何才能月薪五萬

目前大資料行業異常火爆,不少人都對大資料充滿了興趣,其中有大部分人都是之前沒有接觸過計算機技術的,對程式語言也不太瞭解,那是不是這部分零基礎的朋友就學不了大資料了呢?答案當然是否定的。 大資料學習雖然並不簡單,但也並不是什麼高深莫測,難以駕馭的技術,只要肯努力,零基礎的朋友也是完全可以掌握大資料,成功走上職

乾貨資料招聘官就業指導

大資料招聘官權威“就業乾貨”       本著堅決對大家負責到底的態度,我們邀請了某知名網際網路上市公的司資料分析線招聘負責人,給大家送上權威的大資料就業指南。 First &     平均月薪12K

資料資料化運營實戰:思路、方法、技巧應用》第一章 什麼是資料化運營

《資料探勘與資料化運營實戰:思路、方法、技巧與應用》電子書地址:http://www.chforce.com/books/datamining-om-by-data/index.html 資料化運營實施的前提條件包括企業級海量資料儲存的實現、精細化運營的需求(與傳統的粗放型運營相對比)、資料分析

資料更多時間都在於清洗資料

一、資料清洗的那些事 構建業務模型,在確定特徵向量以後,都需要準備特徵資料線上下進行訓練、驗證和測試。同樣,部署釋出離線場景模型,也需要每天定時跑P加工模型特徵表。 而這一切要做的事,都離不開資料清洗,業內話來說,

零基礎入門資料之spark中的幾種map

今天再來說一下spark裡面的幾種map方法。前面的文章介紹過單純的map,但是spark還有幾種map值得對比一下,主要是下面幾種: map:普通的map flatMap:在普通map的基礎上多了一個操作,扁平化操作; mapPartitions:相對於分割槽P

零基礎入門資料之spark的rdd

本節簡單介紹一下spark下的基本資料結構RDD,方便理解後續的更多操作。 那麼第一個問題,什麼是rdd。我們知道,大資料一般儲存在分散式叢集裡面,那麼你在對其進行處理的時候總得把它讀出來吧,讀出來後總得把它存成某種格式的檔案吧,就好比程式語言裡面的,這個資料是陣列,那麼你可以以陣列

零基礎入門資料之reduce方法

上節介紹過大資料裡面(以spark為例)最為基礎典型的操作:map方法,map方法直白的理解就是一個分散式接受處理函式的方法,形式如map(fun),map方法本身不做處理,沒有map方法,裡面的函式fun就是一個單機的處理函式,有了map,相當於就把這個函式複製到多臺機器上,每臺機器同