1. 程式人生 > >我對結構化和非結構資料的理解

我對結構化和非結構資料的理解

        現在網上對大資料有結構化和非結構化的爭論,前者如XML,後者象網頁上的文字、圖片、音視訊等內容。孰優孰劣,在這裡我不想去評論它。我想說的是,應該換一個角度來看待這個問題,就是說,無論這些資料無論它外在表象是什麼,到了CPU、磁碟層面,它們都是一串資料流,或者稱位元組陣列。如果讓這些資料能夠被計算機處理和產生價值,它的前提是必須能夠被CPU理解和計算。所以,在這個概念基礎上,我在Laxcus體系設計裡,對資料採用的是一種可格式化(formatable)的處理方案。這個方案簡單來說就是這樣:資料進入磁碟和CPU前,它們首先做一個預處理,被拆解成CPU理解的,或者能夠按照一種即定規則,能夠被CPU理解的格式。現在Laxcus的所有資料,都是按照這種方案來採集、整理、處理資料。這樣做的好處有兩個:1.因為規則明確,體系設計相對就簡單了;2.在CPU層面,資料的處理速度會很快。典型的象SQL.LIKE這樣模糊檢索,在資料庫裡都很慢,但是在Laxcus分佈環境下,這樣的資料處理也可以馬上獲得結果。