1. 程式人生 > >【學習筆記】大資料搜尋與挖掘

【學習筆記】大資料搜尋與挖掘

第一章 緒論

“我們雖然淹沒在資訊的海洋中,但是卻渴求所需的知識。”   美國作家,奈斯位元《大趨勢》。

為什麼會出現這種情況呢?主要原因之一是缺乏有效的大資料搜尋、挖掘與知識獲取手段。

何謂大資料?研究機構Gartner給出了這樣的定義:大資料是需要新處理模式才能具有更強的決策了、洞察發現力和流程優化能力的海量、高增長率和多樣化的資訊資產;大資料通常用來形容大量的額非結構化和半結構化資料。

大資料的主要特點:

1)資料量巨大

2)資料多樣化

3)資料速度變更快

面對大資料的新特點,如何解決大資料規模大、速度快、多樣化以及價值密度低等挑戰? 採用大資料分析方法學,即從客觀存在的全量超大規模、多源異構、實時變化的微觀資料中,利用自然語言處理、資訊檢索、機器學習等技術抽取知識。轉化為智慧的方法學。

Web搜尋

Web搜尋,又稱網路資訊檢索,其理論基礎是資訊檢索技術。資訊檢索是對資訊按照一定的方式組織、儲存,從大量的大資料中找到滿足使用者資訊需求的知識,尤其是對非結構化或半結構化文字的檢索(在這一點,資訊檢索與基於資料庫的檢索不同。在資料庫領域,資料之間有特定關係並按照這種關係進行結構化儲存,檢索時可按照這種邏輯關係直接找到需要的資訊),其主要目的是研究如何從海量文件集中高效檢索出於使用者需求相關的文件,其研究涉及海量資訊採集、表示、組織、內容分析與知識挖掘、索引、訪問、表現等方面。

一般地,搜尋引擎主要包括資訊採集、資訊加工、資訊檢索檢索結果提供這幾個部分。其中,資訊採集模組以一定的策略在因特網等資訊原中採集相關資訊;資訊加工主要指對網頁資源進行資訊抽取與去噪、內容分析(包括文字分析、分詞處理、主題詞抽取)、建立倒排索引、根據內容分析的結果編制摘要、完成資訊分類等;資訊檢索模組則根據使用者的檢索提問對檢索項與索引項進行匹配運算以獲取對應的檢索結果集,有些系統為方便使用者使用還提供了高階檢索功能、支援自然語言提問等;檢索結果提供則是在進行必要的相關分析後以超鏈等形式給出檢索結果。