1. 程式人生 > >大資料時代下資料探勘技術的應用

大資料時代下資料探勘技術的應用

原文連結:https://mp.weixin.qq.com/s/bxSEO4gKQ-BbDWT1BNnwyw

隨著社會資訊化的迅速發展,無論是資料的變化速率,還是資料的新增種類都在不斷更新,資料研究變得越來越複雜,這意味著“大資料時代”到來。2011年,網際網路資料中心(internet data center,IDC)將大資料重新定義為:在大資料原有的三維特徵——數量、多樣、速度基礎上,增加了另一新的特徵——“價值”。IDC強調:“目前,對於龐大的資料量,通過經濟的方式,極速發掘、獲取和分析處理的技術,進而提煉獲取價值,這是大資料新時代的專屬。”“大資料時代”的專屬特徵被重新定義為:數量(volume)、多樣(variety)、速度(velocity)和價值(value),稱為“4V”。

   

隨著大資料時代的到來,社會對“挖掘”到的資料要求變得更加嚴格,每一個精準的結果都具備獨自的“價值”,這時,大資料時代的新增屬性——“價值”被演繹得有聲有色。資料探勘(data mining, DM)是一門新興的、匯聚多個學科的交叉性學科,這是一個不平凡的處理過程,即從龐大的資料中,將未知、隱含及具備潛在價值的資訊進行提取的過程。1989年8月,在美國底特律市召開的第十一屆人工智慧聯合會議的專題討論會上,知識發現(knowledge discover in database,KDD)初次被科學家們提出,同時,也有人將知識發現稱為資料探勘,但兩者並不完全等同。1995年,KDD這個術語在加拿大蒙特利爾市召開的第一屆知識發現和資料探勘國際學術會議上被人們接受,會議分析了資料探勘的整個流程。實質上,資料探勘是知識發現的子過程。

   

經過了大約20年的發展,資料探勘研究取得了可觀的成績,漸漸地形成了一套基本的理論基礎,主要包括:分類、聚類、模式挖掘和規則提取等。資料探勘是一種從生活中的海量資料裡“挖掘”出潛在的、前所未有的知識的技術。處理大資料需要一個綜合、複雜、多方位的系統,系統中的處理模組有很多,而資料探勘技術以一個獨立的身份存在於處理大資料的整個系統之中,與其他模組之間相輔相成、協調發展。在大資料時代中,資料探勘技術的地位是無可比擬的。

   

 

資料探勘的研究現狀

 

資料探勘將高效能運算、機器學習、人工智慧、模式識別、統計學、資料視覺化、資料庫技術和專家系統等多個範疇的理論和技術融合在一起。大資料時代對資料探勘而言,既是機遇也是挑戰,分析大資料,建立適當的體系,不斷地優化,提高決策的準確性,從而更利於掌握並順應市場的多端變化。在大資料時代下,資料探勘作為最常用的資料分析手段得到了各個領域的認可,目前國內外學者主要研究資料探勘中的分類、優化、識別、預測等技術在眾多領域中的應用。

   

分類

   

伴隨著時代的進步和科技的飛速發展,作為人口大國,中國在健康醫療、老齡化社會等方面產生的公共資料呈幾何級數進行增長,而基於大資料的挖掘資料所附有的價值問題急需解決。健康醫療資料的結構、規模、範圍和複雜度等都在不斷擴大,傳統的計算方法並不能完全滿足分析醫療資料,資料探勘技術則可以根據醫療資料的一些特點:模式的多型性、資訊的缺失性(資料中由於涉及個人隱私問題而導致的缺失值)、時序性、冗餘性對健康醫療資料進行分類,從而可以為醫生或病人提供準確的輔助決策。

   

同時,中國正加速進入老齡化社會,而網際網路是改善老齡化社會的重要媒介,大資料是評估老齡化社會重要的技術手段。屈芳等提出了“網際網路+大資料”模式的養老實現途徑,整個養老服務體系是建立在多元異構資訊匯聚和資料融合挖掘之上,“網際網路+大資料”的養老體系是將多種資訊通訊技術進行融合,在這裡,包括通訊技術、資料探勘技術及人工智慧技術等。

   

優化

   

道路的交通狀況與人們的出行關係密切,隨著城市的快速發展、生活水平的改善,機動車的規模也逐漸擴大,帶來了交通擁堵等問題。資料探勘技術可以有效解決交通道路和物流網路之間的優化問題,Pan等提出了一種資料探勘預測模型,該模型用於“實時預測”短期的交通狀況,給陷入交通擁堵的駕駛人員帶來極大的幫助。

   

隨著科技的發展,網上購物越來越流行,同時帶來了物流運輸擁堵及癱瘓等問題。京東——中國最大的線上交易平臺之一,在人工智慧的優化時代,使用無人機探測道路狀況反饋的資料,採用資料探勘技術精準計算物流網路運輸所需要的引數,可以輕鬆高效地緩解物流運輸癱瘓的問題,從而產生了中國第一個機器人快遞員,將第一個商品送達至中國人民大學。而隨著日後交通網路長度、複雜性等方面的增加,實現無人駕駛的自動化策略難度也大幅增加,只有通過資料探勘技術才可以快速計算出結果,從而獲得從複雜道路資訊中產生的高效價值。

   

識別

   

自從20世紀50年代數字影象出現以來,數字影象成為人類社會中必不可少的“資料”。在計算機應用中,資料探勘在影象識別的應用越來越普遍,有代表性應用為人臉識別和指紋識別。人臉識別通過對獲得的資訊庫進行資料探勘,進一步分析和處理可靠的、潛在的資料,充分準備資料的分析工作和未來的開發工作。Wright等闡述了基於稀疏表示的魯棒人臉識別,並給出了詳細的理論分析與實踐總結。

   

沙亞清等針對目前的電子報稅系統中利用使用者名稱和口令的不安全性,提出了一種基於智慧卡和指紋識別的身份認證方案,並結合指紋技術,構建新的口令引數,從而使得安全性明顯提高。隨著資料探勘技術的不斷髮展,大資料識別人臉和指紋的精確度會越來越高。

   

預測

   

預測問題是各領域中研究最多的問題,其目的是通過歷史資料預測出未來的資料值或發展趨勢。大部分歷史資料是時間序列資料,即指按照時間的順序排列,得到了一系列觀測值。由於資訊科技的不斷進步,時間序列的資料也日益劇增,如氣象預報、石油勘探、金融等。時間序列資料探勘的最終目標就是通過分析時間序列的歷史資料,預測未來一段時間的變化趨勢及其帶來的影響。

   

“氣象”與地球的生態平衡和人們的正常生活息息相關,因此,氣象的準確預報顯得格外重要。周磊等總結了目前的氣象監測模型,基於遙感資料的乾旱方面,將目前的遙感監測方法進行分類,對於外界的環境條件(溫度、溼度等)進行分類討論,提出解決複雜問題的新方法。

   

石油作為一種不可再生資源,目前全球儲量日益減少,從而使得石油勘探變得越來越重要。在石油勘探管理中,所採集的資料具有資料量大、計算量大、採集來源單一及資料處理流程複雜的特點,用資料探勘技術對其採集的大資料集進行高效能平行計算和分析,才可以保證結果的有效性和準確性。

   

在大資料時代下,銀行、證券公司、保險公司等每天的業務都將生成海量資料,採用當前的資料庫系統可以高效地實現資料的錄入、查詢和統計等功能,目前,從簡單的查詢提升到利用資料探勘技術挖掘知識、提供決策支援的層次顯得格外重要。資料探勘技術在金融行業應用具有可行性,將理論基礎應用到相關的例項包括預測股票指數、發現金融時間序列中的隱含模式、信用風險管理及匯率預測等。

   

 

資料探勘主要方法

 

資料探勘是一門交叉性的新興學科,它將資料視覺化、資料庫技術、高效能運算機、統計學、機器學習、模式識別、人工智慧等多個範疇的理論和技術融合在一起。資料探勘的主要方法概括為:預測模型方法、資料分割方法、關聯分析法和偏離分析法(圖1)。解決實際問題時,將已知的資料庫蘊含的複雜資訊轉換成數學的語言,建立數學模型,運用相應的處理方法結果會更加有效。

   

圖1  資料探勘的主要方法

 

預測模型方法

 

預測模型方法是資料探勘主要方法中分支較為複雜的一類,包括神經網路與決策樹等相關人工智慧演算法、進化演算法及支援向量機等演算法。

   

1)神經網路與決策樹等相關人工智慧演算法

 

在預測模型方法中,神經網路演算法、決策樹演算法、貝葉斯分類演算法、基於關聯規則分類演算法等都是經典的人工智慧演算法。

   

1943年,心理學家McCulloch和數理邏輯學家Pitts建立了神經網路和數學模型,稱為MP模型,證明了單個神經元能夠執行邏輯功能,從而開創了人工神經網路研究的新時代。通過模擬和模擬生物的神經系統而獲得非線性處理能力的一種新的演算法——人工神經網路演算法(artificial neural network,ANN)。

   

現有的決策樹的分類演算法有ID3、C4.5等。1986年,Quinlan 提出了著名的ID3演算法,在ID3的基礎上,1993年Quinlan又提出了C4.5演算法。決策樹(decision tree,DT)分類演算法是一種以決策樹形式表示的分類規則,它能夠根據一定的規則將眾多的資料分類,從中挖掘出那些有價值的、潛在的資訊。決策樹的主要優點在於處理大資料的能力強,適合分類及處理預測模型的任務,結論易於解釋和理解。

   

目前的主要研究有3種:CBA、CMAR和CPAR。自1993年Agrawal提出資料庫中的關聯規則挖掘後,基於關聯規則分類演算法(classification base of association,CBA)及應用得到迅速發展。1997年,Ali等提出了使用分類關聯規則進行部分分類的思想。1998年,Liu等提出了基於分類關聯規則的關聯分類演算法CBA,從此揭開了關聯分類的序幕。基於關聯規則分析的分類演算法搜尋頻繁模式與類標號之間的強關聯,有效避免了決策樹歸納一次只考慮一個屬性的限制,使其比一些傳統的分類演算法更為準確。

   

貝葉斯(Bayes)分類演算法是一種演算法相對比較簡單、分類精度相對較高的分類演算法。在分類的效能方面,決策樹演算法、貝葉斯分類演算法及神經網路演算法之間關係十分緊密。現有的貝葉斯分類演算法包括樸素貝葉斯演算法、動態貝葉斯演算法等。常見組合分類方法有隨機森林方法、bagging方法及boosting方法。其中,隨機森林方法是將多個決策樹分類器組合在一起的方法,在boosting演算法中最常見的一種是AdaBoost演算法。在準確度上,二者不相上下,但是,在執行速度上,隨機森林方法更佔優勢。朱凌雲等提出了一種新的技術並在醫學中的應用,體現了資料的處理、多屬性資訊的融合、挖掘演算法的高效性和魯棒性。由於神經網路系統具有高度的抗干擾能力,所以,在各個領域內神經網路演算法應用廣泛,例如資料探勘、訊號處理、自動控制、模式識別及影象處理等多個範疇。

   

2)進化演算法

 

進化演算法,又稱“ 演化演算法”(evolutionary algorithms,EAs),其代表性演算法為遺傳演算法。1969年,Holland提出了一種隨機搜尋的最優化方法,它是模擬自然界中的遺傳機制和生物進化論而成的,稱為遺傳演算法(genetic algorithms,GA)。它將利用自然界中的“優勝劣汰,適者生存”的生物進化原理改變優化引數,根據適應度函式的選取,最終形成編碼串聯到群體中。遺傳演算法的基本步驟:選擇、交叉和變異。遺傳演算法的主要目的是留下適應度值好的個體,淘汰適應度值差的個體,繼續迴圈選擇、交叉和變非同步驟。

   

近幾年,又演化出新的進化演算法,如粒子群演算法、蟻群演算法以及灰狼優化演算法等。粒子群演算法(particle swarm optimization,PSO)是由Eberhart等開發的一種新的進化演算法。與模擬退火演算法相似,PSO演算法也是從隨機解出發,通過迭代進而尋找最優解,與上述的“遺傳演算法”相比而言,規則更為簡單,它沒有遺傳演算法基本步驟中的“交叉”和“變異”,而是通過追隨當前搜尋獲得的最優值來尋找全域性的最優解。粒子群演算法以實現簡便、精度高、收斂快等優點引起了學術界的重視,並且在解決實際問題中展示了其優越性。

   

3)支援向量機

 

1995年,Corinna和Vapnik等首先提出了支援向量機(support vector machine,SVM),它是一種具備較強的分類能力和泛化能力的分類演算法,主要解決小樣本、非線性、高維模式識別及函式擬合等其他機器學習問題。支援向量機主要分為以下3種情況。

   

線性可分情況。針對線性可分的情況,現實生活中存在大量的例項,例如,在一組醫療資料中,通過支援向量機可以將患者和正常人進行分類(即二分類),判斷哪些是患者,哪些是正常人;在一組由民歌和古箏演奏的音樂辨別中進行有效的分類,判斷哪些是民歌,哪些是古箏。

   

線性不可分情況。解決線性不可分問題時,構建核函式,這是支援向量機的優勢所在。但是,對於資料集訓練的“複雜度”最終還是取決於它的規模,在處理大規模資料時,模型區域性受限,泛化能力有時也會有所消耗或損失。

   

非線性可分情況。支援向量機利用結構風險最小化替代經驗風險最小化原則,較好地解決了小樣本情況下的學習問題。針對非線性問題與線性問題是怎樣建立起聯絡的,它們之間是如何進行轉化的,“核函式的思想”提供了新的思路。

   

資料分割方法

 

資料分割是將資料依據某些屬性將其聚類,使之具有一定的意義。由於資料的型別、資料的複雜度和聚類的數目等特點,聚類演算法有很多,如劃分方法、基於網路的方法、基於密度的方法、層次方法等。

   

肖娟等針對傳統的演算法處理多層次的複雜建築物中涉及的困難,提出了一種新的演算法,對建築物進行分割,對幾何基元進行提取。

   

關聯分析法

 

關聯分析法是尋找資料間的關聯,但從大資料集中尋找關聯可能會導致效率降低,找到的關聯也可能毫無意義。在研究過程中存在“支援度”和“置信度”,“支援度”可以有根據地將那些毫無意義的資料刪除,而“置信度”可以衡量設定規則的可能性。關聯分析法的主要演算法有Apriori演算法、DHP演算法和DIC演算法等。

   

Chen等在現有的分析方法基礎上,積累了海量的資料,利用資料探勘技術,提出了一種新的演算法,即通過關聯分析法建立相關模式挖掘方法,藉助多種新型優化技術,可以有效且高效地減少搜尋空間。此外,將該演算法應用於現實世界的資料集中,展示了相關模式挖掘的實用性。

   

偏離分析法

 

偏差包括潛在的資訊量,例如設定模式中的特例、分類中的異樣例項以及分析實驗得到的最終結果與實驗前設定的期望之間的偏差等。觀察比較最終的結果與參照量之間的偏差是偏離分析法的核心所在。

   

在企業的預警或是危機解決的過程中,專業的管理者對突發的意外規則更感興趣,在異常資訊的發現、識別、觀察、分析、挖掘、評價和預警等方面,挖掘意外規則的應用價值備受關注。

   

 

大資料時代下資料探勘的應用

 

在大資料時代下,資料探勘已經廣泛地應用到生活中各種各樣的領域中,成為當今高科技發展的熱點問題。無論在軟體開發、醫療衛生方面,還是在金融、教育等方面都可以隨處看到資料探勘的影子,可以使用資料探勘技術發現大資料的內在的巨大價值。

   

惡意軟體的智慧檢測

 

在大資料時代下,在惡意軟體檢測中資料探勘技術得到廣泛的應用。惡意軟體嚴重損害到網路和計算機,惡意軟體的檢查依賴於簽名資料庫(signature atabase,SD),通過SD,對檔案進行比較和檢查,如果位元組數相等,則可疑檔案將被識別為惡意檔案。有些基於有標籤的惡意軟體檢測的主題,集中在一個模糊的環境下,進而,無法進行惡意軟體行為的動態修改,無法識別隱藏的惡意軟體。相反地,基於行為的惡意軟體檢測就可以找到惡意檔案的真實行為。而如果採用基於資料探勘技術的分類方法,就可以根據每個惡意軟體的特徵和行為進行檢測,從而檢測到惡意軟體的存在。

   

生物資訊學中的廣泛應用

 

生物資訊學是一門交叉學科,融合了生命科學、電腦科學、資訊科學和數學等眾多學科。隨著科技的快速發展、技術的提升及結果的優化,將高科技資訊科技拓展到生物研究領域。但是,單純憑藉原有的計算機技術是遠遠不夠的,需要以電腦科學做輔助,將生命科學、資訊科學和數學等交叉學科融合在一起,通過資料探勘技術進行處理,仔細分析生物資料之間的內在聯絡,挖掘生物資料內部的潛在資訊。生物資訊資料的特點有很多,孫勤紅總結了當前生物資訊資料的特點,包括數量大、種類多、維度高、形式廣及序列性等。當前生物資訊學的熱點包括:從以序列分析為代表的組成分析向功能分析的轉變;從單個生物分析的研究到基因調控的轉變;對基因組資料進行整體分析等。人類目前在生物基因組計劃中的研究,僅僅是冰山的一角,未來在差異基因表達、癌症基因檢測、蛋白質和RNA基因的編碼等生物基因方面的研究工作都與資料探勘技術密不可分,只有更好地利用資料探勘技術,才可以挖掘出生物基因組中的非凡價值。

   

信用卡的違約預測

 

如今,隨著科技的高速發展,資訊量急劇增加,內容變得越來越豐富,信用卡在人們的生活中具有不可忽視的地位。眾所周知,信用卡是由銀行發放,銀行需要對申請人的個人資訊進行核實,確認無誤後再進行發放信用卡,Chen等針對商業銀行貸款行為提出了一種關於信用率的模糊演算法。信用卡在辦理之前,銀行首先需要對申請人進行細緻調查,根據申請人的實際情況判斷是否有能力來償還所貸金額,劉銘等在傳統的神經網路基礎上,採用灰狼優化演算法計算神經網路的初始權值和閾值,並提出了一種改進的模糊神經網路的演算法,通過建立的信用卡客戶的違約預測模型,與目前其他的預測方法進行比較,得到較好的預測結果,進一步,驗證了模糊神經網路在信用卡客戶的預測上具有較好的魯棒性、準確性和高效性。採用有效的資料探勘技術,針對信用卡客戶屬性和消費行為的海量資料進行分析,可以更好的維護優質客戶,消除違約客戶的風險行為,為信用卡等金融業務價值的提升提供了技術上的保障。

   

疾病的智慧診斷

 

1)宮頸癌的診斷。

   

宮頸癌是國際上最普遍的婦科惡性腫瘤之一。2012年統計數字顯示,宮頸癌在全球的新發病例數為52.8萬,死亡數26.6萬,居女性生殖道惡性腫瘤發病率的首位。按照有關資料統計,發展中國家佔83%,其中死亡病例佔85%,由於宮頸癌的篩查工作不夠完善,導致高發病率和高死亡率。相反地,在發達國家,很大程度上宮頸癌的低發病率源於有效的篩查和診斷。為了減少來自每個專家的標籤資料量,Fernandes等提出一種基於正則化的轉移學習策略,鼓勵源模型和目標模型共享相同的係數符號。

   

2)乳腺癌的診斷。

  

乳腺腫瘤是女性惡性腫瘤中最常見的腫瘤,影響婦女的身體和精神健康,甚至威脅生命。20世紀以來,全世界範圍內乳腺癌的患病率均有所增加,特別是歐洲和北美地區,分別佔歐洲和北美女性惡性腫瘤發病率的第一和第二位。目前,世界女性乳腺癌在癌症中的發病率最高,據美國疾病預防中心統計,早期乳腺癌的治癒率可高達97%,進展期的治癒率僅為40%。因此,越早發現乳腺癌,治癒效果越好,即“早發現,早治療”。

   

在大資料時代下,醫療方面的資料呈現出數量大、型別多、處理方法複雜等特點,資料探勘技術對這些問題的處理起到了至關重要的作用。威斯康星大學醫院Wolberg提供的乳腺腫瘤分析結果顯示,乳腺腫瘤的特徵可以由9 個引數來表示。基於改進的BP神經網路,劉銘建立了乳腺腫瘤的模擬模型,對傳統的BP神經網路進行改進和發展,當Levenberg-Marquardt(L-M)迭代替代了梯度下降演算法時,網路收斂速度得到了明顯的提高。

   

使用Matlab2010a進行求解,採用L-M迭代後,目標誤差為0.1,得到結果。通過圖2可知,神經網路在第7代達到收斂。測試資料有83個樣本。其中良性54例,惡性29例。採用檢測資料進行檢測,診斷結果為良性54 例,良性發生率100%,惡性28 例,惡性發生率96.6%,所以平均診斷髮病率為98.8%,結果良好。

   

圖2  神經網路訓練效能

 

3)冠心病的診斷。

   

近年來,心血管疾病已成為威脅人類的最嚴重疾病之一,冠心病是心血管疾病中常見的疾病。因此,研究冠心病的有效診斷方法是必要的,有助於進一步採取預防措施和及時治療。目前,冠狀動脈造影是觀察冠狀動脈形態的唯一直接途徑,被醫學界稱為“金標準”。然而,這是一項創傷性診斷,需要高水平的醫療條件,否則不慎操作會引起嚴重併發症甚至死亡,這限制了診斷技術的發展。因此,許多專家專注於研究國內外冠心病的有效和非創傷性診斷。經對Cleveland診所基金會提供的冠心病病例分析後,劉銘得出了反映冠心病特徵的14個引數,採用BP演算法,通過使用L-M演算法的迭代對BP演算法進行改進和開發,提高了網路收斂速度,在改進的BP演算法的基礎上,建立了智慧診斷的模擬模型。隨著該方法的應用,診斷率可達99.3%。

   

針對疾病的智慧診斷,資料探勘具有4個應用角度:在醫院資訊系統中的應用、在疾病輔助診斷中的應用、在藥物開發中的應用、在遺傳學方面的應用。

   

地質災害的風險評估

 

地質災害研究具有悠久的歷史,地質災害風險評估是一個新興的研究領域。近年來,在某些領域已經開發出更準確的預測和分析的方法,這些領域涉及到坍塌、地震、山體滑坡和泥石流等地質災害。

   

劉銘提出了一種新穎的智慧計算方法,將資料探勘技術與地質災害風險實際問題融合在一起,這種混合計算方法促進了對地質災害風險的準確評估。混合智慧演算法包括粒子群優化、遺傳演算法和反向傳播神經網路。反向傳播神經網路和粒子群演算法優化了網路連線權重,閾值的初始化採用遺傳演算法,同時,在迭代過程中更新連線權重和閾值。這項地質災害預測研究是在吉林災害監測資料的基礎上,模擬中國東北地區,通過混合智慧演算法獲得的準確度遠高於BP神經網路方法帶來的準確度。隨著地質災害風險評估在國際風險評估機構中得到肯定,混合方式得到更廣泛的應用,如混合智慧演算法將促進更有效的應急響應、環境管理、土地利用和開發規劃。

   

汙水的成因分析

 

在大資料時代的背景下,當研究水環境和汙水處理時,生物膜的組成和活性是兩個非常重要的引數。而處理汙水問題時,面對的資料海量,單一的傳統數學方法解決效果不夠理想,引入資料探勘技術進行分析,問題優化的結果將會更令人滿意。

   

研究水環境的重點在於對汙水處理、執行和控制方面的實際需要,通過資料探勘技術可以準確找到生物膜的表徵和活性,並進行估計,進而對於引數不足以描述生物膜活性的問題得以解決。

   

在給定的限度內,隨著生物膜的厚度增加,生物膜的活性也隨之增強。測量或估計生物膜厚度和活性的方法是評估生物膜廢水處理效率的重要因素,然而目前用於預測生物膜厚度和空間分佈適應性的工具較差。對此林山鬆等基於碳-氮-磷濃度的空間分佈生物膜厚度和活性,提出了支援向量迴歸模型,用以預測反應器中的生物膜的厚度和活力。

   

採用共聚焦鐳射掃描顯微鏡方法對12個樣點的4個隨機位置上形成的成熟生物膜的厚度進行估算,並將其平均值作為每個載體的最終厚度。圖3為共聚焦鐳射掃描顯微鏡的微圖,展示了在執行100天后載體上的典型生物膜的厚度,其中Z 軸上的數字(30.6 μm)是由鐳射共聚焦顯微鏡測量的生物膜厚度。得到的資料作為觀測值來估計反應器中未被取樣點的生物膜厚度,這些未被取樣的點的生物膜厚度通過使用Kriging插值得到。

   

 

圖3 用於檢測生物膜厚度的鐳射共聚焦顯微鏡顯微照片的例子

 

基於實際值的Kriging插法和距離反應器底部垂直35 cm處的生物膜厚度和生物膜活性的支援向量迴歸模型預測值進行了比較。圖4比較了使用支援向量迴歸模型的生物膜厚度和生物膜的活性的實際值和預測值。結果表明較高的係數R2=(0.996,0.997),並且通過支援向量迴歸基於碳-氮-磷值在碎石球狀骨料反應器中預測生物膜厚度和生物膜活性的高度可行性,同時根據實際值驗證Kriging插值的準確性。

   

圖4  生物膜厚度(a)和生物膜活性(b)實際值與預測值

 

 

利用Kriging插值法分析組合共聚焦鐳射掃描顯微鏡和流式細胞術顯示,生物膜厚度從22 μm到31 μm,生物膜活性在反應器的流動方向上從80%降至30%。同時,證實了化學需氧量,總氮量和總磷酸鹽去除特徵與生物膜厚度和生物膜活性的水分分佈之間存在明顯的相關性。

   

教育大資料的挖掘

 

教育是國家發展的根本,在大資料時代,教育大資料的挖掘是教育資料價值的體現。根據教育部的資料顯示,截至2013年,中國高校貧困學生數目已經高達500餘萬,中國高校的貧困學生比例已經高達20%,其中,特困學生的比例已經超過了總在校人數的5%。全國各個高校都對貧困學生都有各種資助政策,儘量不讓每個學生因為貧困而放棄學業。傳統的資助形式都是大學生進行申請,並遞交相關貧困證明材料,但部分學生因為較強的自尊心,不想讓同學發現自己的特殊性而放棄申請,從而導致貧困助學金並不能準確地發放到每個貧困學生的手中。2015年3月2日,南京理工大學的“暖心飯卡工程”受到來自各界的關注。南京理工大學教育發展基金會工作人員對學生在日常生活中的資料進行了調查和資料的採集,該項調查涉及的共有16000餘名南京理工大學當前在校學習的本科生,採集的資料為在2014年9月中旬至11月中旬期間學生的飯卡刷卡記錄,將每個月平均在食堂消費60次以上,消費總額不足420元的學生確立為補助物件,不需要學生申報,直接將補助打入學生的飯卡。這次針對學生生活行為的資料探勘,不僅在教育大資料的基礎上實現了“精準扶貧”,而且對學生真正做到了“人文關懷”,體現出了資料的價值性。

   

國內圖書情報的研究

 

目前,資料探勘技術在圖書情報領域的研究可分為6個方面:數字圖書館及個性化服務;WEB和資訊服務;資訊資源及參考諮詢;圖書館及資訊檢索;高校圖書館及圖書館採購;情報學領域等。

   

大資料時代下,資料探勘技術在中國圖書情報領域中,基於中國知網資料庫中圖書情報領域的相關研究論文,郭婷等分別利用了共詞分析法和文獻分析法對文獻的增長規律和期刊的分佈情況進行分析,在中國圖書情報領域中,對資料探勘的研究現狀進行研討,進一步強調了資料探勘技術在圖書情報領域研究的熱點和重點。而且中國知網等線上圖書機構採用資料探勘技術研發的“學術不端文獻檢測系統”有效地避免了學術舞弊行為,保證了中國科研工作的正常發展。

   

 

大資料時代下資料探勘的發展趨勢

 

無論是研究領域,還是商業應用,資料探勘都是熱點問題,得到越來越多的人們關注,人們逐漸瞭解、學習並加以運用,相關領域日益成熟。在利用資料探勘技術處理和解決實際問題時,王光巨集等提出了3個值得注意的角度:用資料探勘技術解決問題的型別、解決資料探勘的資料準備工作及資料探勘的理論基礎。在大資料時代下,資料探勘的發展趨勢將會圍繞資料價值的挖掘體現在以下5個層面。

   

多媒體資料探勘

   

大資料時代下,視訊、音訊、影象等都屬於多媒體的範疇,隨著時代的發展,海量的資料結構變得複雜化和動態化,而通過單獨的傳統數學方法去管理現實生活中的問題,得到的效果往往不能滿足人們的期待。無人機和無人車的實際應用、公安天網工程的展開、智慧醫療專案的全面發展都會要求對多媒體資料進行快速處理,為了得到更理想的效果,得到的效果變得最優化,需要開發和設計資料探勘的新智慧演算法。

   

金融領域潛在資料的挖掘

   

在信用卡業務中,違約預測的資料探勘具有預言性、有效性、實用性的優勢。在信用卡交易的過程中,資料探勘的應用型別也比較多,如在信用卡異常行為檢測、高階信用客戶的維護和信用卡風險控制等方面,均可以展開深入研究。

   

資料探勘演算法的改進和視覺化

   

當採用資料探勘的演算法分析和處理海量資料時,演算法的改進主要取決於演算法的精度和速度,即演算法的準確度和效率。如今,學術研究主要集中在精度和效率之間設定適當的臨界值和對資料探勘的結果進行視覺化兩個方面。針對資料探勘演算法中的新貴——RNN、CNN、DNN、Capsule等一系列深度學習演算法的研究,將成為引領大資料研究方法的風向標。

   

資料探勘和隱私保護

   

在解決實際問題時,難免會涉及隱私的資料,例如在研究信用卡和使用者之間的關係時,資料中難免會有使用者的個人資訊;在研究宮頸癌(危險因素)與人的年齡、懷孕次數、性伴侶數等關係時,會有部分隱私資訊不便透漏外界。在進行資料探勘過程中,不洩露使用者的個人隱私問題,對資料進行脫敏處理,將成為人們研究資料探勘的另一個重要方面。

   

資料探勘技術與其他系統的整合

   

資料探勘是一個完整的過程,而不是單純的某一個演算法或者其中的幾個演算法簡單混合就可以的。將資料探勘應用到實戰演練的過程中,還是需要將資料探勘與其他領域和系統有條理地整合,而不能理解成單獨的一個演算法就足以解決一個問題,進而最大化地體現了資料探勘的優勢。

   

 

結 論

 

在大資料時代下,當運用傳統的數學方法遇到困難時,熟練地應用資料探勘技術顯得格外重要。本文通過對國內外的研究現狀進行剖析,分析了資料探勘技術的主要方法,介紹了資料探勘技術的應用領域,總結了在大資料時代下資料探勘技術未來的發展趨勢。

   

無論是在金融、醫療方面,還是在電信、教育等社會各個領域,每一時刻都會產生海量資料,由於社會存在過多的不確定性因素,導致處理的資料型別越來越繁雜,即便是採用計算機輔助,對於傳統的處理方法、解決實際問題依然能力侷限,但是通過資料探勘技術,解決大資料問題,則開闢了另一個途徑。未來的時代是“資料為王”,資料探勘技術會面對更加嚴峻的挑戰,利用資料探勘的相關演算法,處理實際問題和分析資料的能力將會更加顯著。

 

基金專案:國家自然科學基金專案(61503150)

   

參考文獻(略)  

 

 

 

本文作者:劉銘,呂丹,安永燦

 

作者簡介:劉銘,長春工業大學數學與統計學院,副教授,研究方向為智慧計算與資料探勘。

 

本文發表於《科技導報》2018 年第9 期,敬請關注。

 

(責任編輯  劉志遠)