1. 程式人生 > >專利:結構化大數據通信協議(2)

專利:結構化大數據通信協議(2)

結構化大數據通信協議

說明2:數據的唯一性是實現“數據全球通”的基礎

在班、組這樣的小環境中可以用每個人的姓名而區分出每一個人,然而在全國範圍內,由於人數太多,重名的很多,因此僅靠姓名就不能準確無誤地識別出每一個人。大數據時代以前的關系數據庫中的數據只是應用於某個機構內部,因此各個數據就容易識別,然而如果把關系數據庫中的數據放到大數據環境中,那麽這些數據就成了不可識別的數據。在大數據環境中,有關人的所有數據都必須含有“身份證號”,這是為了表明數據的唯一性。

關系數據庫用“ID”來表明每張表中的數據的唯一性。關系數據庫所考慮的只是一張表中的數據的唯一性問題,而未考慮大數據環境中的數據唯一性問題。例如,在很多醫療信息系統中,只是用“門診號”、“住院號”來標識患者的信息,而未含有患者的身份證號。如果要在國家醫療大數據環境中查詢某個患者的病史數據,那麽,就會由於患者的數據中未含有身份證號而為查詢造成非常大的困難,因為患者的病史數據有可能包含在全國97.8萬家醫療機構所產生的數百萬張以上的表中。

在大數據環境中,每個事物的數據的“數據的唯一性”就是一個非常重要的問題。“數據的唯一性”是確保數據在大數據環境中具有“數據的識別性”的一個關鍵。例如,在生產廠家、經銷商的信息系統中,同一件商品的代號都必須是全球唯一的、統一的、標準的,這樣才能確保在大數據環境中數據是可識別的。然而,目前國際上還未做到這一點,各家企業的信息系統都有自己的編碼方式,各不相同,針對同一種商品,不同企業的編碼是不一樣的,這為數據的全球通及大數據分析造成了很大的困難。

合格的大數據應該是:在藥店買一盒藥,可以根據這盒藥上面的唯一的編碼而查詢到這盒藥的整個生產、流通環節各種相關情況,是哪個廠家生產的,何時生產,何時出廠,中間經過了哪幾個中間商。

世界經濟最需要的是“數據全球通”,即全球所有企業的信息系統中的各種數據都可以“互聯互通”,或者說“全球任何兩個企業的信息系統之間都可以及時地發送、接收任何商品的數據。”當前的實際情況是:每家企業都有獨有的產品編碼規則,當企業接到訂單時,還需要手工把訂單數據轉換為自己的信息系統可識別的數據,然後自己的系統才能處理客戶的訂單數據,只有極少數的企業的信息系統可以直接處理上遊企業發來的數據。這種“全球數據都不通”的現象的根本原因就在於當前的數據缺乏“數據的唯一性”,沒有國際統一的、標準的商品編碼標準為“數據的唯一性”提供支持。

要跟蹤一種商品在世界各地的流通情況,“數據的唯一性”是基礎。一種商品的數據會出現在全球數百萬個企業的信息系統中,只有體現“數據的唯一性”的大數據識別碼才能準確無誤地從數百萬個信息系統中把這種商品的數據識別出來。全球大數據統一編碼、解碼(可稱作為大數據識別碼)是大數據中的一項非常重要的工作,也是一項非常復雜的工作。在國際貿易中訂單、商品的全球統一編碼、解碼就非常重要,這是商品“數據全球通”的基礎。

對企業而言,在大數據時代,訂單、商品數據的國際標準、國家標準、行業標準是全球企業實現“數據全球通”的基礎。沒有訂單、商品的標準,企業就不能進入到大數據時代。

說明3:數據的歸屬性是區分大數據與小數據的一個關鍵

如果從關系數據庫理論的角度來看,增加“數據來源”會使系統中產生大量的冗余數據。然而,在大數據時代,所要處理的數據來源於數百萬個以上的信息系統,因此,就非常有必要說清楚各個數據從何而來,不然,就無法區分眾多的數據。在大數據環境中,“數據來源”就是非常關鍵的數據,也是必不可少的。在大數據中,為每一個數據都增加“數據來源”數據項的目的就是讓數據無論在哪裏都能獨立地、完整地表達出其完整的含義。數據如物,人類社會的各種物都有其主,數據也應有其主。

區分大數據與小數據的一個關鍵指標就是數據中是否含有“數據來源”。凡是不含有“數據來源”的數據都是小數據,都是不合格的結構化大數據,這是關系數據庫高手很難理解的,然而這也是數據庫技術人員的思想觀念是否已轉到大數據時代的一個標誌。大數據所面對的是:數十萬家以上的單位,數百萬個以上的信息系統,數千萬以上的表,數萬億以上的數據。在大數據環境中,沒有“數據來源”就會引起大混亂。在大數據時代,有了“數據來源”可以大幅度減少編寫程序代碼的行數,在數據交換時就需要有“數據來源”,數據共享時,需要有“數據來源”。

說明4:數據的標準化、規範化是實現萬能查詢的關鍵

結構化大數據通信協議是在模仿大腦的記憶、聯想、思維的基礎上而創立的,開始於1982年,當時是希望計算機能模仿人的大腦的聯想功能(即查詢)。人的大腦在處理數據時所采用的技術是“超級高保真數據處理技術”。“數據的標準化、規範化是實現萬能查詢的關鍵”,這需要從人的大腦的超級高保真數據處理技術的角度來理解。目前人們都是從計算機技術的角度來解讀什麽是“數據”,實際上從人的大腦記憶、聯想、思維的角度來解讀什麽是“數據”才是最合適的。

人的大腦是大自然界最優秀的“計算機”。人的大腦中所存貯的才是真正合格的“數據”。人的大腦中的“數據”是“超級高保真數據”。人的大腦中的數據都是模擬數據,幾乎是不失真的,是超級的高保真數據,是真正的數據,能非常真實地反映自然界的各種事物,是自然界的各種事物的在大腦中的一個縮影。人的大腦中的數據與數據之間的關系是以事物的自然屬性而自然地建立起來的自然關系,可以真實地反映到自然界的各種事物之間微妙關系,這才是大腦具有超強功能的根本。

計算機中的數據是死的,人的大腦中的信息是活的。大腦可以突破時間、空間,隨時地激活大腦中的“各種事物”,回放過去的各種場景。計算機也可以放電影,但是計算機不能為電影中的各個事物建立聯想關系。人的大腦可以由一個場景而聯想到另一個場景,計算機就不能。大腦在回憶北京的故宮、長城時,眨眼間就可回憶起在上海的黃埔,又一眨眼就跑到了貴州黃果樹。大腦可實現“瞬間數千年,眨眼九萬裏”。計算機中的數據與數據之間沒有什麽關系,然而任何輸入到人的大腦中的事物的信息,人的大腦都會自動地與大腦中的相關事物信息之間形成聯想關系,這種聯想關系是根據事物的自然屬性而建立的。

人的大腦的超級高保真數據處理技術主要有四種:1、超級高保真數據采集技術;2、超級高保真數據存貯及再現技術;3、超級高保真形成數據與數據之間的關系技術(形成聯想關系);4、超級高保真利用數據之間的關系技術(即以聯想來處理數據)。

用當前的技術可以比較好地模仿大腦的“超級高保真數據采集技術”及“超級高保真數據存貯及再現技術”。然而現有技術無法全面實現(甚至說根本無法模仿)大腦的“超級高保真形成數據與數據之間的關系技術”和大腦的“超級高保真數據處理技術”,這兩種技術才是大腦具有超級功能的根本。

超級高保真數據采集技術:大腦是通過視覺、聽覺、觸覺、嗅覺、味覺、痛覺等感覺器官而采集數據。

超級高保真存貯及真實再現數據技術:大腦不但可以以超級高保真的形式存貯數據,猶如把自然界的事物“搬”到了大腦中,而且還可突破時間、空間使以往的事物隨意再現(聯想)。大腦中的數據是自然界真實的具體的事物的縮影。

超級高保真建立數據之間的關系技術:大腦不但可以采集、存貯數據,更重要的是,大腦可以自動地讓數據在大腦中形成相似聯想、接近聯想、同時聯想關系。大腦中的數據聯想關系是根據事物的自然屬性而自然地建立的。大腦不只是超級高保真存貯了數據,而且還超級高保真地存貯了數據與數據之間的自然關系。這是現有技術難以模仿的。

超級高保真利用數據之間的關系技術(數據處理技術):計算機所處理的只是數字信號,而人的大腦所處理的全是模擬信號。大腦以相似聯想、同時聯想、接近聯想等方式處理超級高保真的模擬數據(即大腦思維)。現有技術根本無法全面模仿這種技術,只能局部模仿。

下面用事例比較詳細地說明“大腦的超級高保真數據處理技術”。主要說明:自然事物、事物的屬性、大腦根據事物的屬性而進行聯想、推理,以及數據與數據之間的聯想關系是根據事物的自然屬性而建立的。

1、“人可以通過聽聲音而判斷出你是在敲鐵塊,還是在敲木頭。”這是因為,在人的大腦的記憶中,敲鐵塊發出的聲音已非常自然地與鐵塊聯系在一起,敲木頭的聲音已非常自然地與木頭自然地聯系在一起,這些信息都是人們在日常生活中所接收到的。因此,人們可以通過聲音而聯想到相應的事物。計算機也可以存貯音像文件,然而計算機不能實現聲音與圖像之間的自然聯系,也不能靈活地識別聲音和圖像。

2、“我在手中輕輕地把松花蛋拋起幾次,就可以判斷出這個松花蛋是不是好的。”這是因為好的松花蛋在手中輕拋時,手掌就會感到一種輕微的顫動,而生雞蛋、熟雞蛋就不會產生顫動,壞的松花蛋也不會產生顫動。在我的大腦的記憶中,顫動已與松花蛋自然地建立了聯系。

3、“買雞蛋時,把雞蛋拿在手中輕輕地搖一搖就可以判斷出雞蛋的好壞。”壞雞蛋,或者說放時間長的雞蛋,用手輕輕地搖一搖,雞蛋裏面的蛋黃、蛋清就會動,而好雞蛋中的蛋黃蛋清就不會動。在我的大腦記憶中,這些有關雞蛋的信息,已自然地與雞蛋的好壞建立起了聯系。

4、“看見窗外樹在動,就知道刮風了。”人的大腦中已存貯了風吹樹動的信息。

5看見窗外的樹在動,就知道那是有人在搖樹。”因為人搖樹與風吹樹是不一樣的。風吹樹,很多樹都動。人搖樹,只有一棵樹在動,其它樹不動。而且人搖樹引起的樹動,與風吹樹引起的樹動是有差別的。

與人的大腦相比,關系數據庫中的數據幾乎是百分之百的失真數據。關系數據庫是人為地為數據建立關系,關系數據庫理論認為這是關系數據庫的最突出的優勢,然而這才是關系數據庫的最致命的缺陷!因為,人為地為數據建立關系,破壞了自然界的事物之間本身的自然聯系。關系數據庫不能象人的大腦那樣根據事物的自然屬性而建立聯系。關系數據庫的一個優點是數據冗余非常小。然而這也是關系數據庫的致命缺陷!因為關系數據庫在降低了數據冗余的同時也導致數據嚴重失真。嚴重失真的數據就不能根據事物的自然屬性而自然地建立關系。

關系數據庫把數據存貯在不同的表中,這樣就割裂了事物與事物之間的自然屬性之間的關系。關系數據庫把同一類事物的數據存貯在同一張表中,不同類的事物的數據存貯在不同的表中。大腦是根據事物的自然屬性而對事物進行分類,事物是不是同一類,由事物的自然屬性決定,擁有相同屬性的事物就是同一類事物。塑料盆、塑料杯子、塑料袋子、塑料桶,形態各不相同,大腦是根據塑料的自然屬性而把它們歸為一類。對於塑料杯子、玻璃杯子、鋼杯子,大腦是根據“杯子”的自然屬性而把它們歸為一類。大腦中的數據都在同一張表中,大腦根據事物的自然屬性就可以非常靈活地對各種數據進行分類。

“數據”並不只是一個代號、符號,真正的“數據”應該是自然界的具體事物的縮影。人的大腦可以把敲鐵塊所發出的聲音自然地與鐵聯系在一起,關系數據庫就不能讓“數據”實現這樣的自然聯系。

結構化大數據通信協議模仿了大腦的超級高保真數據處理技術。結構化大數據通信協議就是要堅決鏟除關系數據庫中的“人為關系”,讓數據獨立地、自然地根據事物的自然屬性而建立“自然的關系”。關系數據庫中的關系是人為建立的,破壞了事物之間的自然關系。要想使計算機接近人的大腦的超級思維功能,就必須象大腦那樣使數據盡量地少失真,使數據能夠根據事物的自然屬性而建立自然的關系。也必須堅決地鏟除人為地為數據建立的關系,因為人為的關系肯定會破壞數據與數據之間的自然關系。

計算機中的“數據”的概念非常狹隘。“數據”不應該只是“數字”、“代號”,而且還應該是自然界的事物的真實反映,更重要的是也應該反映出“數據”與“數據”之間的自然關系。計算機中的“手機”只是數字,而人的大腦中的“手機”卻是真實的“手機”的真實的反映,大腦通過視覺、聽覺、觸覺接收到了海量的有關“手機”的各種各樣的信號。合格的“數據”應該是失真程度最少的,能夠比較全面地反映具體的事物,也能真實反映出事物之間的自然關系。關系數據庫中的數據不能真實地反映出數據與數據之間的自然關系。數據與數據之間的關系絕對不能人為地建立,而應該是由事物本身的自然屬性而自然地建立關系。結構化大數據通信協議是通過一定量的“數據冗余”而使數據盡量地少失真,使“數據”與“數據”之間自然地根據事物的自然屬性而建立“自然的關系”。

“信息系統名、數據庫名、表名、字段名”要用標準化的、統一的、規範的自然語言,盡量不用代碼,以便實現“聯想”。信息系統的名稱、數據庫的名稱、表名、字段名都是非常重要的事物屬性,都具有重要含義。關系數據庫系統的設計人員習慣於用代碼、英文縮寫、漢語拼音縮寫作為數據庫名、表名、字段名。這就導致普通用戶看不懂關系數據庫中的數據。關系數據庫忽視了這種信息,因為它所處理的是小數據。在大數據環境中,這些信息就是非常重要的,不能缺省。

在結構化大數據通信協議中,為了使數據具有獨立性、完整性、可識別性,在每個數據中都增加了“信息系統的名稱、數據庫的名稱、表名”,“信息系統的名稱、數據庫的名稱、表名”實際上是事物的“分類”,或者說是事物的屬性。這種做法是關系數據高手所難以理解的、不可思議的,因為這種做法增加了大量的數據冗余。結構化大數據通信協議在“數據冗余”與“數據的獨立性、數據的完整性、數據的識別性、數據與系統的耦合度”之間選擇後者。其目的是讓不懂技術的普通人也能看懂數據的真實含義。

關系數據庫的數據冗余非常少,但其代價是,不懂技術的普通人看不懂關系數據庫中的數據,關系數據庫中的數據只能存貯在相應的數據庫中,一旦脫離了相應的數據庫就變成了無意義的數據。關系數據庫中的數據需要通過大量的應用程序的翻譯才能讓普通用戶讀懂。

如果數據庫中的數據都是標準化的、規範化的,那麽,這些數據就可以自然地根據“萬能數據結構表”中的“事物屬性”和“事物屬性值”而自動地聯立起自然的“聯想”關系(通過索引而建立)。由於利用結構化大數據通信協議所建立的各種信息系統所產生的數據全部存貯在一張,或若幹張結構完全一樣的“萬能數據結構表”中,所以可以很容易地編寫出通用的“萬能查詢”工具。例如,如果全國的各種醫療信息系統都是用結構化大數據通信協議而建立的,那麽就可以通過患者的身份證號而方便地從國家醫療大數據中心而“聯想”(查詢)到患者的病史數據。因為患者的病史中的每條數據中都含有身份證號(大數據識別碼),通過患者的身份證號就可以“聯想”到與患者有關的所有數據。而當前的各種醫療數據中不一定含有患者身份證號,所以從全國各家醫院的信息系統中查詢患者的病史數據就非常困難。

結構化大數據通信協議之所以用大量的“數據冗余”而使數據滿足12個技術特性,其根本目的就是為了使數據成為“高保真的數據”,“數據冗余”彌補了數據的失真,只有“高保真的數據”才能使信息系統可以象人的大腦那樣實現“超級高保真數據處理”。

說明5:不必進行ETL轉換即可高效挖掘並可實現萬能查詢

要對當前的全國的醫療數據進行挖掘將是非常困難的,原因在於當前的各種信息系統中的數據不標準、不規範。例如:醫療行業有數百萬張表,數千億條記錄,各表的結構各不相同。對如此之多的結構各不相同的表中的數據進行挖掘、查詢,需要編寫大量的程序。如果全國的各家醫療機構的各種信息系統全部是按結構化大數據通信協議而設計,那麽對這樣的信息系統所產生的數據進行挖掘、查詢將是很容易的。因為這些信息系統全都采用“萬能數據結構表”,其中的數據全是標準的、規範的、統一的。

表五:兩種方法的數據挖掘、查詢效果對比表

序號

對比內容

用關系數據庫而建設的當前的

全國醫療的各種信息系統

用結構化大數據通信協議而建設的全國醫療的各種信息系統

1

表的數量及結構

數百萬張以上的表,各表結構各不相同。

數百萬張表,各表的結構完全相同,全部采用“萬能數據結構表”。

2

數據量

數千億條

數千億條

3

ETL、數據挖掘

因各家醫療機構的數據全都不標準、不規範、不統一,ETL的難度非常高,數據挖掘成本非常高。因性別、癥狀名稱、疾病名稱、藥名各不相同,不統一,數據挖掘、統計、分析非常困難。

在信息系統的設計階段,在數據采集階段,在產生數據階段,全部都采用標準的、規範的、全國統一的數據,不需要ETL就已是標準的、規範的、全國統一的數據,數據挖掘、統計、分析非常容易。

4

以查詢患者病史為例

要對全國的數百萬張結構各不相同的表進行查詢,需要編寫大量的程序,成本非常高。各醫療機構是以住院號、門診號作為標識而記錄患者的各種數據,而各家醫院的住院號、門診號的編碼各不相同,相互之間沒有規律,在全國範圍內查患者病史數據很難。需要先根據患者的名稱、身份證號從全國97.8萬醫療機構的信息系統中分別查詢患者是否有就診記錄,若有還要查相應的住院號、門診號,然後再根據住院號、門診號而從各種表中查詢患者的病史數據。(註:由於原來沒有“數據的唯一性”、大數據識別碼的概念,同一患者的醫療數據,在不同的醫療機構的表現形式各不相同,識別方式也各不相同,不能保持“唯一”。)

數據百萬張表,結構完全相同。因此,可以通過技術處理,編寫一個通用的查詢工具,使用戶在查詢數據時猶如查詢一張表中的內容。因為與患者相關的所有數據中都包含了患者身份證號,因此只要通過身份證號即可查詢到所有數據。有了通用的查詢工具後,查詢的難度及工作量大幅度減少(即只是查詢一張表中的數據)。(註:這也體現出了“數據的唯一性”、大數據識別碼在大數據中強大作用。)

5

萬能查詢

要從數百萬張結構各不相同的表中查詢數據,不能實現萬能查詢。

經技術處理後,猶如只有一張表,可實現萬能查詢,只要編寫一個通用的軟件工具即可。

“大數據的最關鍵技術是查詢技術”:大數據的特點是大,正因為大,要想獲得所需數據特別困難,因此,從大數據中查詢到所需要的數據就是最關鍵的,然後才是對查詢到的數據的分析、統計。因此,可以說“大數據就是查詢”,大數據的前期工作是為查詢做準備,大數據的後期工作是對查詢到數據進行統計、分析,大數據的各種工作都是以查詢為中心而展開的。

說明6:利用結構化大數據的12個技術特性為大數據的真實性提供技術保障

大數據是一種象石油一樣重要的資源。大數據的真實性是大數據的基礎,失去了真實性的大數據就是數據垃圾。因此,在大數據時代,如何確保大數據的真實性,就是一項非常重要的任務。

在小數據時代,各種信息系統所處理的數據主要是各單位內部的數據,數據的真實性主要由各單位自己控制。在大數據時代,數據不只是在各單位的內部流通,更需要在國內外各個單位之間流通,因此,大數據的真實性、公證性、權威性就需要得到保證,必須使大數據象公文那樣具有法律效力。結構化大數據通信協議從技術的角度為大數據的真實性提供了保障。“數據的唯一性”是控制大數據的“數據的真實性”的關鍵。“數據的唯一性”可通過大數據識別碼來體現,控制大數據的“數據的真實性”可通過控制大數據的識別碼來實現,大數據識別碼是事物的數據的“身份證”,一個事物的數據無論處於什麽環境中,其大數據識別碼都是唯一的。大數據不只數據、代碼、符號,也是一種資源,象一種商品,也象物品,也象財產,因此要象對待資源、商品、物品、財產那樣來管理大數據。物流、人流需要大量的交通警察來控制,數據流也要控制。國家是通過工商局、海關等機構來管理控制商品,大數據的真實性也需要采用類似工商局、海關管理控制商品的方法來管理控制,由各個國家的工商局(或法院、公安部、工信委等)的國家級大數據中心負責管理控制大數據的真實性比較合適。

各種商品、訂單等的大數據識別碼由各國的國家級大數據中心負責編碼及發放工作,並對大數據識別碼進行備案。國家級大數據中心負責各單位的各種資質的審核工作,只有通過了國家級大數據中心審核的單位才有資格獲得的商品、訂單等的大數據識別碼。國家級大數據中心只負責發放大數據識別碼,不負責商品、訂單等的數據的真實性的審核。數據的真實性出現問題並發生糾紛時國家級大數據中心的“數據警察”對數據的真實性進行審核,並根據審核結果而進行相應的處罰,並把結果記錄在案。猶如交通,司機對自己的行為負責,只是出現交通事故時,交警才出現。

獲得了大數據識別碼的訂單、公文等要向國家級大數據中心或第三方公證機構備案,有第三方公證機構備案的訂單、公文等就猶如蓋了公章一樣具有法律效力。這樣做可以節約大量的紙質文件,也節省訂單、公文等的傳遞的時間。

企業獲得了商品的大數據識別碼後需要把商品相應的各種數據上傳到國家級大數據中心進行備案。企業的客戶可以根據商品的大數據編碼通過國家級大數據中心而獲得商品的各種數據。

由於是全球統一編碼,各企業信息系統之間可以直接發送、接收訂單,並對訂單的內容進行解讀。訂單中的數據采用“萬能數據結構表”來存貯,並使數據具有結構化大數據的12個技術特性。訂單中的各項“事物屬性”(猶如字段名)必須是全球統一的。訂單中的各項“事物屬性”用各種不同的語言來表達時會各不相同,因此,也需要制訂全球標準,使各項“事物屬性”在各種語言中都能按國際標準一一對應。這樣就可以設計出通用的數據解讀、翻譯軟件工具,由軟件工具自動完成不同語言的訂單的翻譯工作。

當前的問題:全球企業的信息系統之間不能互聯互通。原因是各個系統所采用的數據編碼不統一、不規範,企業的信息系統之間不能直接發送接收訂單數據,需要人工把訂單數據再次錄入到自己的系統中。

大數據識別碼的好處:實現數據全球通。以及時、準確、全面的數據流確保商品流等的順利流通。借助於大數據識別碼,企業可以利用全球數據十萬個、數百萬個信息系統而跟蹤商品在全球各地的銷售、庫存情況。全球企業信息系統互聯互通對供應鏈上下遊的企業都有好處,可為商品的生產、流通提供保障。

國家級大數據中心對各種組織及個人使用大數據識別碼的資格的認證:各種組織及個人都可以獲得使用大數據識別碼的資格,但在使用前需要通過國家級大數據中心的審核,審核合格後發給具有法律效力的“大數據電子印章”。經國家級大數據中心審核、認證後可獲得使用大數據識別碼的各種相關功能的資格,可以發布相關信息。國家級大數據中心的公證性、權威性確保了大數據的“數據真實性”。大數據擁有了“數據真實性”之後,可以廣泛地應用各個領域。

大數據識別碼在產品防假冒、藥品監管方面具有廣泛的用途。企業可為每個商品申請一個大數據識別碼、一個驗證碼。用戶購買到商品後,可通過手機根據商品的大數據識別碼而獲得驗證碼,驗證碼與商品上的相同則為正品,否則是假冒的,或者手機掃描二維碼即可得知是否假冒。

用大數據識別碼可以方便地管理各種證件,證件的驗證非常方便,只要根據大數據識別碼就可以在國家級大數據中心查到證件的信息。例如可用於如下證件管理:企業的各種資質,個人的各種證書,企業的各種認證,公證書,房產證,商檢合格證,結婚證,畢業證,駕照(不必再出示駕照,說出號、或出示二維碼即可)。甚至不必再各種發證書,只要發一個大數據證書即可。

用大數據識別碼可以方便地管理“合同、文件、契約、借條、聲明、各種承諾、票據、訂單、招標文件、投標文件”等。大數據中心也可以成為一個龐大的檔案管理系統。國際大數據中心為全球大數據的最高管理機構,由各個國家組成,負責全球大數據標準、規範的制訂,為全球大數據立規矩。

說明7:利用結構化大數據通信協議所建立的各種信息系統所產生的數據具有累加性

創立結構化大數據通信協議的初始想法:大數據就是數據量很大的數據,當前各行各業已有很多小數據,這些小數據累加起來能不能稱作是大數據呢?可以稱作是大數據,但不能稱作是合格的大數據。因為對這些數據進行挖掘非常困難!那麽,如何使這些小數據以累加的方式成為合格的大數據?當前的數據為什麽不能累加成合格的大數據呢?因為關系數據庫產生的數據根本就不是真正的數據,只能稱作是代碼!要真正了解什麽是大數據,需要首先搞清楚什麽是“數據”,什麽是“代碼”。

數據的定義:“能讓相應專業的人員看懂的信息才稱作是真正的數據。”例如,有關醫療的數據應該是相應的醫學專業人員能直接看懂的數據,不需要其它註釋、解釋;有關化學的數據應該是化學專業的人員能看懂的數據,不需要其它註釋、解釋。

代碼的定義:“相應專業的人員不能看懂的信息稱作代碼,相應的專業人員需要利用相應的應用程序、軟件工具對代碼進行翻譯、解讀、註釋之後才能看懂代碼的真實含義。”

對關系數據庫而言,普通用戶所看到的數據都是通過信息系統對關系數據庫中的數據進行解讀、翻譯、註釋之後的數據,並不是關系數據庫中的原始數據。關系數據庫中的數據不具備“識別性、獨立性、完整性”,即直接把關系數據庫中的數據呈現給普通用戶時,用戶不能“識別”這些“數據”,原因在於關系數據庫不能“獨立地”、“完整地”表達出應有的含義。

合格的數據的定義:只有能夠“獨立地(數據的獨立性)”(不依靠軟件的解讀、不依靠他人的解釋)、“完整地(數據的完整性)”表達出應有的含義,並能夠讓人及其它信息系統“識別(數據的識別性)”的數據才是合格的數據。然而關系數據庫中的數據不具備這樣的特性,原因在於關系數據庫中的數據是一種“與系統的耦合度非常高的數據”。關系數據庫中的數據與關系數據庫系統和應用系統是密不可分的。關系數據庫中的數據一旦脫離了關系數據庫系統及應用系統,就成了不可識別的、無意義的數據。

從結構化大數據的12個技術特性的角度可以這樣來描述關系數據庫中的數據:由於關系數據庫中的“數據”與關系數據庫系統以及應用系統密不可分(不具備“與系統的耦合性(耦合度為零)”),所以“數據”不能獨立地(不具備“獨立性”)、完整地(不具備“完整性”)讓人識別(不具備“可識別性”),也不能讓其它信息系統識別。

由上述分析可得出這樣的結論:由於關系數據庫中的數據“與系統的耦合度非常高”,關系數據庫中的數據一旦脫離了關系數據庫系統及應用系統,就成了不可識別的、無意義的數據,所以關系數據庫中的數據不具備累加性。由於當前的各種信息系統基本上都是利用關系數據庫而開發的,所以當前的信息系統所產生的數據不可能通過累加的方法而成為合格的大數據。

用關系數據庫所建立的信息系統之所以難以互聯互通是因為這樣的信息系統所生成的數據沒有“移植性”,即數據不能直接從一個系統移植到另一個系統,這是由大數據4V特性中的“數據類型多(Variety)”問題而引起的。如果各個信息系統全部都用“萬能數據結構表”存貯數據,那麽“數據類型多(Variety)”問題就迎刃而解。目前只有“萬能數據結構表”可使數據具有“結構統一性”及“移植性”,也可使數據與信息系統脫離耦合關系。

結構化大數據通信協議就是針對關系數據庫所存在的問題而創立的,目的是把關系數據庫中的數據轉換為合格的大數據。解決方案是:利用“萬能數據結構表”先讓數據“脫耦”,使數據具有“結構統一性”,以“獨立性、完整性、規範性、唯一性、歸屬性”使數據具有“識別性”。

利用現有技術即可使數據具有“識別性、獨立性、完整性、與系統的耦合性(耦合度為零)、結構統一性”。然而僅利用現有技術還不能使數據真正具有“累加性”和“移植性”。結構化大數據通信協議以“唯一性、歸屬性、規範性”使數據真正具有“累加性”和“移植性”,並有效地解決了大數據4V中的“數據速度(velocity)”問題。使數據具有“唯一性、歸屬性、規範性”的方法才是結構化大數據通信協議的的核心技術,是專為小數據轉化為大數據而創立的,看似沒什麽技術含量,卻非常關鍵。

數據的規範性對大數據的重要性:在小數據時代,各個信息系統基本上都在單位內部使用。在大數據時代,信息系統之間的互聯互通,挖掘來源於不同的信息系統的數據,就成了非常突出的問題,因此讓數據具有規範性就是非常必要的。如果說沒有“國際大數據標準、國家大數據標準、各行各業的大數據標準”,那麽大數據時代就不可能到來。之所以極力強調數據標準的重要性,是因為結構化大數據通信協議來源於模仿大腦的聯想及大腦的超級高保真數據處理技術,只有數據全部標準化之後,數據與數據之間才能自動地根據事物的自然屬性而自然地建立起聯想關系,有了聯想關系,大數據4V中的“數據速度快(velocity)”問題就可以迎刃而解!業內無數人士想盡各種辦法都無法從根本上解決數據挖掘難的問題,其中的一個根本原因就在於當前的各個信息系統中的數據全部是不標準的、不規範的。如果各個信息系統中的數據都是規範的、統一的,數據挖掘就會很容易。數據的規範性是一個大家都了解的、非常普通的概念,然而表面平常,背後的作用卻無比巨大!讓數據具有規範性才能使數據的挖掘變得容易。只有把數據的規範性發揮到極致,讓所有數據都是標準的、規範的、統一的,數據的規範性的超級威力才能顯示出來。數據標準說起來容易,做起來非常難,需要花費巨大的人力物力,已成為影響大數據的一個關鍵因素。

從表面上看“數據的唯一性”和“數據的歸屬性”沒有任何技術含量,只不過為數據增加了兩個數據項、兩個屬性。如果從小數據的角度來看的確如此,由於小數據時代的信息系統主要是用來處理某個單位內部的數據,“數據的唯一性”根本不算什麽技術,而“數據的歸屬性”只會為系統帶來大量冗余。然而在大數據時代,“數據的唯一性”和“數據的歸屬性”就具有劃時代的意義,是小數據變成大數據的關鍵,只有增加了這兩個數據項,小數據才能變成大數據,凡是不含這兩個數據項的都不是合格的結構化大數據,小數據只有貼上這兩個標簽才有資格進入大數據時代。

數據的歸屬性對大數據的重要性:小數據的範圍是某個單位,只是在一個信息系統中生存,而大數據的範圍是全球,所面對的是全球數百萬以上的信息系統。為數據增加歸屬性的目的是確保數據無論放到哪個角落都保持不變,不會失真。數據中若不含歸屬性,那麽,當數據移植到其它信息系統之中後就會失真,或者說,從大數據中查到數據後,就無法知道是從哪裏查到的。數據的歸屬性對大數據非常重要,是數據的識別性、累加性、移植性的基礎。

數據的唯一性對大數據的重要性:數據的唯一性是為了方便地在大數據環境中快速、準確地抓到數據,也是為了使計算機可以模仿大腦的聯想功能。大數據的環境非常大,可以是全國,也可以是全球,唯一性則可確保計算機在全球範圍內快速、準確地把數據從天涯海角抓出來。若無唯一性,在全球範圍內抓數據就非常困難。例如,企業的A商品會出現在全球的數十萬個零售商店中,A商品若無大數據識別碼,企業要想從全球的數據十萬信息系統中把A商品的庫存、銷售數據抓出來,就非常困難。唯一性讓數據無處可藏,無處可逃。沒有唯一性,數據在不同的信息系統中就會象白骨精那樣,變成不同的樣子。為數據增加“數據的唯一性”,就等於為數據安裝了跟蹤器。

數據的12個技術特性之間的關系“累加性、移植性”是由“ 1、可識別性;2、獨立性;3、完整性;4、規範性;5、與系統的耦合性(耦合度為零);6、結構的統一性;7、唯一性;8、歸屬性”來實現。數據與系統的耦合性(耦合度為零)是由“ 1、可識別性;2、獨立性;3、完整性;4、規範性;5、結構統一性”來實現。數據的可識別性是由“獨立性、完整性、規範性、唯一性、歸屬性”來實現。

利用結構化大數據通信協議所設計的系統所產生的數據為什麽可累加成合格的大數據?因為所有數據的數據結構都是相同的,數據都是規範的,不必ETL就已是可以挖掘的數據。累加性是由數據的“唯一性、歸屬性、可識別性、獨立性、完整性、規範性、與系統的耦合性、結構的統一性”來保證的。數據具有了“唯一性、歸屬性、可識別性、獨立性、完整性、規範性、與系統的耦合性(耦合度為零)、結構的統一性”就具有了累加性。

說明8:數據的移植性為信息系統互聯互通提供了方便

當前的信息系統之所以難以互聯互通,是因為當前的信息系統中的數據與系統的耦合度非常高,當數據脫離了關系數據庫系統和應用系統之後就變成了無意義的數據。結構化大數據通信協議通過對數據的優化而數據具有了“ 1、可識別性;2、獨立性;3、完整性;4、規範性;5、與系統的耦合性(耦合度為零);6、結構統一性;7、唯一性;8、歸屬性;9、時間性、10、真實性”,同時擁有這八大技術屬性的數據就擁有了“移植性”。具有“移植性”的數據在任何信息系統中的含義都是一樣的,都保持不變,即可以直接把數據發送任何數據系統中而實現互聯互通。

說明9:結構化大數據通信協議可為數據在各數據庫系統之間的互聯互通提供通信協議

各數據庫系統之間的數據互聯互通的通信協議:

1、需要在各數據庫中建立一張萬能數據結構表,各數據庫系統中的萬能數據結構表的結構必須完全統一。

2、所要發送的結構化數據必須滿足12個技術特性:“ 1、唯一性;2、歸屬性;3、可識別性;4、獨立性;5、完整性;6、規範性;7、與系統的耦合性(耦合度為零);8、結構統一性;9、累加性;10、移植性;11、時間性;12、真實性。”

只要滿足上述二個條件,任何數據庫之間的任何數據都可以互聯互通,因為數據的發送方與數據的接收方都是以萬數據數據結構表存貯數據,所以數據的接收方在收到數據後可以直接把數據寫入自己的數據庫中的萬能數據結構表中。



專利:結構化大數據通信協議(2)