1. 程式人生 > >2018年大資料新手入門指南!

2018年大資料新手入門指南!

2018年大資料新手入門指南!

大資料的概念提出已經有一段時間了,但實際上它仍然有點模糊不清。作為人工智慧、資料分析和物聯網等數字化轉型浪潮中的驅動力,它的概念有待在發展中重新審視。

基於以上考慮,我覺得該寫一份針對初學者的指南了,解釋下當下大資料的含義。這篇文章和我之前寫的關於區塊鏈的文章一樣,沒有深奧的術語,能夠向任何知識背景的人解釋清楚核心的概念和理念。

DT時代以來,我們的資料量開始指數級增長。這在很大程度上,是由於計算機的興起,網際網路和資訊採集技術可以從我們的真實生活中採集資料,並將其轉化為數字資料。

在2017年,我們無時無刻不在生產資料,當我們上網、使用帶GPS功能的智慧手機,與朋友們在聊天軟體中聊天,或逛街,都會產生大量的資料。因此,你可以說,我們做每件事都會留下數字腳印,每件事都是一場資料交易。

除此之外,裝置產生的資料也在迅速增長。當我們的智慧家居裝置相互之間或與主伺服器通訊時,它們在生成和分享資料。世界各地的工廠越來越多地使用配備感測器的裝置來採集和傳輸資料。很快,無人駕駛汽車將走上街頭,只要它們經過的地方,都會採集到一個實時、四維的地圖。

很多初學者,對大資料的概念都是模糊不清的,大資料是什麼,能做什麼,學的時候,該按照什麼線路去學習,學完往哪方面發展,想深入瞭解,想學習的同學歡迎加入大資料學習企鵝群:458345782,有大量乾貨(零基礎以及進階的經典實戰)分享給大家,並且有清華大學畢業的資深大資料講師給大家免費授課,給大家分享目前國內最完整的大資料高階實戰實用學習流程體系
 

大資料能做什麼?

這種不斷增長的流感測器資訊,照片,文字,語音和視訊資料,是大資料的基礎,我們現在對這些資料的用途,在幾年前是不可能的實現。目前,大資料正在以下領域幫助人們:

治療疾病和預防癌症

通過分析大量的醫療記錄和影象,可以幫助人們發現早期疾病和研發出新的藥物。

遏制飢餓

農業資料可以最大化地提高農作物產量,減少汙染物向生態系統的排放以及優化農用器械的使用。

探索外太空

美國宇航局通過分析數百萬資料,來模擬火星地表各種可能性以及部署未來研究計劃。

預測和應對天災人禍

通過分析感測器資料,可以預測地震,並在搜救地震倖存者時給出搜救線索。大資料技術也被用來監測和幫助難民離開世界各地的戰區。

預防犯罪

警方正在越來越多地採用基於警方自己的情報資訊和公共資料的資料驅動戰略體系,來更有效地部署資源以及發揮必要的威懾作用。

讓我們的生活更便利

網購,拼車或度假,自主選擇最合適的時間預定機票,決定接下來看什麼電影,這些便利的生活都要感謝大資料。

大資料如何工作?

大資料的原理是,你收集的資料越多,你得到的情報就越準確可靠,並對未來的發展變化做出預測。通過更多資料的碰撞比對,可以發現它們相互之間的潛在關係,以幫助我們學習和驗證決定。

最常見的分析方法是,通過建立一個數據模型,不斷訓練收集的資料,並監測模型返回結果的自動化過程來實現。今天的高階資料分析技術可以同時執行數億百萬的資料模型,探索資料,直到迭代完善,從而解決我們面臨的問題。

我們收集的很多資料都是非結構化的,以圖片和視訊居多(比如,上傳到Facebook或Twitter上的衛星圖片,以及電子郵件資料、聊天及通話記錄),這些資料很難被結構化關係型資料庫處理。我們常常覺得,大資料是人工智慧分析和機器學習的前沿學科,通過比人類處理資料更優秀的計算機影象識別和自然語言處理技術,可以發掘出這些資料背後的價值。

過去幾年時間,大資料工具和技術主要通過Paas平臺來提供。企業通過租用伺服器空間、軟體和第三方雲服務提供商的服務,來完成所有的工作,而客戶只需要在平臺上支付相應費用。這種模式使得任何機構都有機會去嘗試大資料領域的應用探索,因為不需要在硬體、軟體、辦公場地和技術開發人員方面支出費用。

大資料問題

今天,大資料帶給我們前所未有的認知和機會,但它也給我們提出了一些刺手的問題:

資料隱私

現在的大資料包含了很多我們的私人生活資訊,並且大部分極具個人私密性。這就促使我們在暴露私人資訊與方便地使用大資料應用系統和服務之間做出取捨,我們允許誰來訪問這些資料?

資料安全

即使我們為了某一特定目地而非常樂意地分享資料,但我們能確保這些資料的安全嗎?現有的法律體系能規範這些海量資料的使用目的嗎?

資料歧視

當個人行為被暴露後,因私人資料而遭受歧視的情況發生時我們能接受嗎?我們已經使用信用評分來決定可以給誰貸款,運用資料驅動策略來決定將保險賣給誰。但我們希望這些分析和評估能夠更詳細一點,更謹慎一點,因為它們會讓那些擁有較少資源和資訊獲取渠道的人,生活變得更加困難。

以上問題只是“大資料”挑戰中的一部分。雖然它們只是大資料學術圈常常討論的重點話題,但這些問題必須由那些使用大資料進行商業行為的人解決。如果他們不予以解決,會使企業變得不堪一擊,並導致金融災害和鉅額罰款。

當人們剛開始談論大資料時,被認為是心血來潮。這是因為作為時髦術語,在下一個新技術到來之前,自然被人們經常談論,但往往曇花一現。雖然目前還沒有證據證明大資料是杭兒風。事實上,就算出現新的時髦術語,大資料仍然是它們背後的驅動力。我們收集的資料只會不斷增長,分析技術將變得更強。因此,假如大資料能夠解決今天的一切問題,那麼它的明天還難想象嗎。