1. 程式人生 > >大資料,想說愛你不容易

大資料,想說愛你不容易

不論是在過去還是現在,人的生活沒法離開資料。作為科學工作者,尤其是系統學過統計學後,對於資料有了更為理性的認知。如今進入了大資料時代,大到國家政策決策 ,小到企業或醫院管理,都離不開資料分析。最近就遇到一個地方部門拋棄傳統的調查,直接使用網路系統大資料定性事關企業是否合法經營的事,讓人哭笑不得,生生嚐到了大資料給人帶來的苦沚。

不論是大資料還是小資料,反映的都是一種現象,本質的東西是透過資料現象來間接表達的。既然是現象就有真象和假象。資料既是真實的和客觀的,但資料也可能是不真實和不客觀的。做為大資料的使用,一定是通過資料化管理的科學方法。運用分析工具對客觀、真實的資料進行科學分析,並將分析結果運用到生產、營運、銷售、管理決策等各個環節中去,譬如業務指導管理、營運分析管理、經營策略管理、戰略規劃管理四個由低到高的層次。

在這裡相信有許多想要學習大資料的同學,大家可以+下大資料學習裙:957205962,即可免費領取套系統的大資料學習教程

大資料與傳統資料而言,只是樣本量的不同。大資料的樣本量有時就是總體的量,除此外大資料與適量樣本資料沒有更多的本質不同。即使大資料能全部反映總體,但也不一定能說明總體。因為大資料都是基於分類統計的,分類是否符合邏輯、是否科學、是否精準,都決定了分類的正確性與準確性。事物間的性質或者彼此比較,只有同質的就可比,不同質的就無法比。如果不小心將一個正常的資料歸類到不正常的資料之中,正常也就變得不正常了。或者一個不正常的資料,混淆到正常的資料中,那豈不是也變成正常資料了。

大資料是否能反映真實與客觀,決定於資料的分類和清洗方法,還決定於資料鏈之間的相關關係與因果關聯,而不能簡單的依據一個或一組大資料來說明本質性的問題。用大資料在管理決策、執法監督中尤其應該慎重。大資料分析要與傳統的樣本資料分析相結合,只有相互印證的資料才是可靠的,相互不能印證的資料就不能被使用。任何用大資料分析去替代傳統資料分析必須要非常的謹慎與小心,特別是事關專案決策、執法監督裁決,更是要格外的慎重。如果視大資料如救命稻草,那如同草菅人命。

縱觀大資料時代的兩個極端,之前只認識到大家對於大資料的不重視,譬如筆者所接觸的醫院管理,資料資訊利用嚴重不足,資料資源浪費可以說是醫院資源浪費最大的環節。但也遇到不少的醫院管理者,盲目依據所謂的計算機大資料,常常也被大資料顯示出來的假象所迷惑,讓管理決策偏離科學軌道。這兩種極端,前者較為普遍,後者也有苗頭,未來也許會越來越嚴重。

人類應該迷信大資料嗎?說幾個社會公佈的大資料看你信也不信?

幾年前,某醫療權威部門說中國有1億人患有精神心理疾病,說有1億多人患有糖尿病,憑的是大資料。作為自己是個醫學與心理專業工作者,我是既相信也不信。釋出這些大資料的背後動機到底是基於科普還是基於商業,有待人們去鑑別。

再看看癌症的病人越來越多,是真的癌症病發病率提高了嗎?筆者以為是癌症的檢查手段更加豐富了,檢測技術更能早期發現了。但筆者也相信,癌症大資料帶來的也不全是福音,而是禍害。禍害之一是誤診,筆者就有二個醫界的醫生朋友被所謂的癌症誤診了,遭受了痛苦的化療和放療。筆者也相信有一些早期發現的癌症患者,如果沒有被檢測出來,最後憑著人類本身的自我免疫機制,而自愈的。

還有譬如我們國家都是第二大經濟體了,不就是大資料證明出來的嗎?但統計造假,資料虛報,統計口徑不同,重複統計,我們能簡單相信這些資料。當下的中美貿易戰,我們不正是吃了國際大資料不真實、不客觀的虧?

現在國家提倡“放、管、服”,這正是基於大資料時代的新要求。

放,就是要放開。也就是說大資料並不就是全是真實的,單純憑資料做決策,就會把人們的行為束縛起來,計劃經濟模式最典型的就是依據資料來做社會管理。然而社會不只是通過大資料來反映,社會是鮮活的,是富於個性化的,如果不放,百姓如何能服。

管,說明大資料時代資料多了,資訊量大了,一定要有科學和精細的資料管理。通過事前、事中、事後的資料分析與管理,來保障社會、企業或醫院的正常秩序和健康發展。大資料分析中有幾個熱詞,如資料的採集、資料的清洗、資料的分析和資料的適用。

首先,資料採集方式一定是系統和綜合的,不能是單一的渠道。在網際網路時代,人們生活在其中,如何不讓人被人工智慧所限制是當今需要解決的大問題。如果人工智慧完全控制人的生活與工作,那將是多麼的可怕。人工智慧管理社會、管理企業、管理醫院,不就是靠流程和資料嗎?醫院管理者都知道,流程要不斷再造,因為在追求科學的道路上,現實與科學永遠有距離,我們永遠離真相差那麼幾步。

其次,資料一定要清洗,讓我們所需要的資料暴露出來,不能摻雜那些相似而非同質的資料。特別是企業或醫院管理的績效考核、執法部門的執法監督,資料的清洗非常重要。而對資料清洗最重要的手段,就是撿回傳統的資料處理方法或者其他現代化方法。

第三,資料的分析要基於管理的動機,同時也要站在管理物件的利益上去雙重考量,而不是有先入為主的概念,管理和執法一定是基於調查研究的基礎上。可以先有假設,但一定不能有先結論預判,那樣的話,就會出現害人害己的資料分析和管理。

第四,資料適用有嚴格的範圍。要把每一個數據適用於較窄的內涵,不能外延擴大化。

服,在我的理解上,是管理者的服務,也要讓被管理者信服。大資料結論出來,如果管理者自己都不知道其背後所真正代表的意義,也不能讓被管理者認識其中的意義,那這個大資料寧可拋棄而不得使用。昨天,國內一知名保險企業的二位資料處理專家專程來會見筆者,諮詢醫保支付管理軟體的設計。他們其中一個苦惱就是其評估管理系統不為醫院的醫務人員所接受。筆者瀏覽到軟體的大概後發現,其根本的設計缺陷在於只滿足於管理方的動機要求,而不兼顧被管理的實際,是管理倫理上存在根本的缺陷。

所以在大資料時代,大資料是用來服務的,而不是用來下結論的,大資料讓人們對資料分析帶來了不少好處,也會帶來弊端。譬如從循證醫學的實踐中體會到,資料並非越多或越大越好,而是恰如其分才好。資料多了,會誤導判斷,資料也能殘酷無情地“殺人”,管理者當然要重視大資料的利用,但也不能迷信大資料。

但願大資料服務好管理,對大資料要持敬畏,既要相信,也要質疑,絕對相信大資料,那將是人類的大災難降臨。