1. 程式人生 > >資料分析 菜鳥學習筆記

資料分析 菜鳥學習筆記

1.資料形式

    對資料的分析我們需要對資料有一個基本的認識。資料分為Structured Data與UnStructured Data。

   1. 結構化資料(Structured Data)是指資料在一個記錄檔案中以固定格式存在的資料。

        結構化資料主要分為線性資料與非線性資料。

          線性資料:

                        

         非線性資料:

                        

    2.非結構化資料(UnStructured Data)是指資料沒有在預先定義好資料模型的資料。

        這類資料主要表現為不方便使用資料庫二維邏輯表表現的資料。主要包括文字、圖片、音訊、視訊等等。

本文主要針對Structured Data進行分析

2.資料質量分析

    通過資料質量分析,我們主要研究資料的缺失值、異常值、資料的一致性

(1).缺失值 

   1.產生原因:缺失值為我們採集資料時,遺漏的資料或者需要付出很大代價來獲取的資料而暫時無法獲取的資料。

    2. 影響:對缺失值不進行處理,會丟失大量有用資訊。資料所表現的不確定性更加顯著,模型中的規律更難把握。同時空值對資料建模也會產生很大的影響。

    3.分析:使用簡單的統計分析我們即可得到資料缺失的個數。

    4.處理:刪除資料缺失的記錄、補全資料、不處理資料。

(2).異常值 

指樣本中明顯偏離他所屬樣本的其餘觀測值的資料
    1.意義:分析產生異常值的原因可以發現一些問題所在,從而使改進決策的契機。

    2.影響:若對異常值不進行處理,會對結果產生不良影響。
    3.分析方法:主要分為三倍標準差原則與箱形圖分析法

    三倍標準差:計算資料的平均值p與標準差s。那麼非異常資料的取值範圍在(p-3s,p+3s)中。若資料屬於正太分佈則超出這個範圍的資料其出現的概率小於0.003。

    箱形圖分析:找出兩個四分位數,上四分位數U為樣本中有1/4的資料比它大,下四分位數L為樣本中有1/4的資料比它小。計算四分位數間距Q,即上四分位數減去下四分位數的大小。非異常資料的範圍在(U+1.5Q,L-1.5Q)。超出這個範圍的資料我們視為異常資料。 

    這種方法相比於三倍標準差原則具有一定的魯棒性,離散點一般在最大值或最小值中,箱形圖分析方法中對於四分位數的取值我們有25%的資料無法對其產生影響,異常值在無限遠處也無法對這個標準施加影響。

                

(3).一致性分析

    兩個相關聯的資料,其中一個數據對其進行了更新,而另一個數據並沒有進行更新,這會導致資料的不一致。

個人見解:線上性資料中,以上兩種異常資料分析方法對於區域性的異常資料分析無法達到精確。是對所有資料整體的異常資料進行分析。在此我提出一種通過變化量來判斷資料異常的方法。通過計算相鄰兩個數之間的變化大小,求得變化大小的平均值a,再計算變化大小標準差S,若資料變化大小的絕對值在(a-3S,a+3S)之間我們視為非異常資料。這樣可以對區域性每一個數據的變化時發現其是否存在異常,而非對一整個資料集中的資料進行異常資料判斷。

對資料(x1,y1),(x2,y2),(x3,y3)...(xn,yn)分析異常資料

公式:1)  d1=y2-y1

              d2=y3-y2

              d3=y4-y3

               ...

              d(n-1)=yn-y(n-1)

        2)  a=(d1+d2+d3+...+d(n-1))/(n-1)

        3) s=

        4) 則d的取值範圍為(a-3s,a+3s),超出這個範圍視為異常資料

3.資料特徵分析

(1).資料分佈分析

    分佈分析可以揭示資料的分佈特徵與分佈型別。對於定量的資料欲瞭解其分佈形式是對稱的還是非對稱的,我們可以繪製頻率分佈直方圖進行直觀的分析。

    1.求極差:最大值減去最小值

    2.確定組數與組距:組距=極差/組數

    3.求出每組中資料出現的概率:概率=該組中的資料個數/資料總個數

    4.繪製頻率分佈直方圖。

(2).對比分析

    結構相對數:同一總體內的資料與全部資料對比求得比重,用來說明事物的性質、結構或質量。

    比例相對數:將同一整體中的不同部分進行數值對比。

    比較相對數:將統同一時期兩個性質相同的資料進行對比,表明在不同空間的下的數量對比關係。

    動態相對數:將同一現象在不同時期的指標數值進行對比,來說明發展方向和變化速度。

(3).資料離中趨勢度

    變異係數:cv=標準差/平均值

    變異係數主要用來比較兩個或多個具有不同單位或不同波動幅度的資料集的離中趨勢。

(4).貢獻度分析

    貢獻度分析即為帕累託分析,也稱20/80定律。通俗的講就是80%的財富掌握在20%的人手中。希望大家都成為這20%。:)

    在某些領域中常常會用到這種分析方法,例如餐飲,最熱銷的菜往往會帶來最多的利潤。對於這方面的菜要著重把握。經過這裡簡單的排序,將大的資料加在一起得到總銷售的80%,這裡的資料物件便是我們需要集中關注的物件。

(5).相關性分析

    兩個線性資料集我們,可以通過計算一個係數來表示他們的相關程度。高度相關的資料我們就可以通過一個數據集來預測另一個數據集。

   pearson 相關係數:                         

                                          

                                          

4.資料預處理

(1).處理異常值
        異常資料的處理我們可以先去除異常資料,再通過插值法補全。

        常用的插值法分為拉格朗日插值法、牛頓插值法、三次自然樣條插值法。

        拉格朗日插值法與牛頓插值法實現效果相同,牛頓插值法時間複雜度上較低,而拉格朗日插值法實現較為簡單。三次自然樣條插值擬合的曲線相比於牛頓插值與拉格朗日插值擬合的曲線更為平滑。

        拉格朗日插值多項式:


        牛頓插值法:

求已知n個點對的所有階差商公式

               

聯立以上所有階差商公式建立如下值多項式f(x)

                                         

其中P(x)是牛頓插值逼近函式,R(x)是誤差函式

                                       

        三次自然樣條插值法:

三次子讓樣條原理:每兩個點之間擬合一段曲線,該曲線為三次函式,在每一個點處連續一階可導與二階可導,同時規定在首尾處二次導數為0。

首先定義S(x)為一個分段式的函式,在處S()==之間的一個函式共有n個數據,那麼就有:

                               

的求解,我們令

                                   

此時有XM=YX為可逆矩陣,我們可以通過逆矩陣求出M向量,即:M=Y,求得每一點處二次導數的值。

通過上面四組方程a,b,c,d我們可以求出每一項的係數為:

                                   

這樣就可以確定了每兩個相鄰點之間的函式,我們只需通過帶入x的值便可補全相應資料。

這裡為三種方法的比較,以及三次自然樣條得java實現:

https://download.csdn.net/download/m0_37864755/10471586

(2).資料濾波

    環境對資料的影響很大,會使得資料在無環境干擾的情況下上下波動,資料呈現的形式也不夠平滑,我們可以通過濾波來降低干擾。這裡給出一個簡單的濾波方法,首先設定一個窗寬,這裡設定為5,我們可以得到如下公式,來濾波。使得曲線變得跟加平滑。


(3).資料變換

    兩個量級不同的資料在一起比較很難得出精準的結果。我們需要通過資料變換將其劃分到同一區間,或是使其量級相同。常用的方法即為歸一化處理。

        最大-最小規範:最大值為1,最小值為0,將資料按比例縮小到(0,1)之間。

        零-均值化規範:資料變換結果為每一個數據減去平均值再除以標準差。

                                                 

        小數定標規範化:通過移動所有資料絕對值最大資料小數點將其對映到[-1,1]之間。

持續更新中>>>

相關推薦

資料分析 學習筆記

1.資料形式    對資料的分析我們需要對資料有一個基本的認識。資料分為Structured Data與UnStructured Data。   1. 結構化資料(Structured Data)是指資料在一個記錄檔案中以固定格式存在的資料。        結構化資料主要分為

Android學習筆記(WebView載入html頁面,頁面提交資料問題)

在開發過程中,有一個問卷調查功能,問卷是url用webView載入html頁面出來,在html頁面提交時發現session沒和webview的同步導致提交失敗,這個問題困擾了我很久,後來在前輩的共同研究下,終於找到辦法:獲取html頁面提交的url,然後對url做一次coo

C++學習筆記系列(6)——簡單標頭檔案的編寫

C++菜鳥學習筆記系列(6) ——簡單標頭檔案的編寫 我們在上一篇部落格 C++菜鳥學習筆記系列(5)中已經敘述了一些關於在C++中建立自己的資料型別的一些方法,但是隨之而來的一個問題是我們在建立了一個自定義類之後經常還要在其他的檔案中使用同樣的類,這時候我們可

C++學習筆記系列(9)——迭代器

C++菜鳥學習筆記系列(9) 本期主題:迭代器介紹 我們在C++菜鳥學習筆記系列(7)、C++菜鳥學習筆記系列(8)中分別介紹了C++語言標準庫型別string,vector 的定義及使用。 對於string型別的物件我們可以通過範圍for語句和索引的方式訪問其

Python資料分析與挖掘學習筆記(2)使用pandas進行資料匯入

一、匯入pandas模組:   import pandas as pda 二、匯入CSV格式資料: #資料匯入 i=pda.read_csv("E:/hexun.csv")     可對匯入的資料進行統計以及按列排序: #統計 i.describe() #排序 i

C++學習筆記系列(12)——算術運算子

C++菜鳥學習筆記系列(12) 本期主題:算術運算子 C++語言為我們提供了一套豐富的運算子,並定義了這些運算子用於內建型別的運算物件時所執行的操作。同時當運算物件時類型別時,C++語言也允許我們指定上述運算子的含義(運算子的過載)。 在介紹後面的算術運算子之前

C++學習筆記系列(14)——條件語句

C++菜鳥學習筆記系列(14) 本期主題:條件語句 和其他大多數語言類似的,C++語言也為我們提供了條件執行語句(if、switch)這些都是我們寫程式中最常見也是最常用的語句。在本期的部落格中我們就主要圍繞這兩個語句進行簡單的討論。 在開始之前,我們先了解一下

Python資料分析與挖掘學習筆記(4)淘寶商品資料探索與清洗實戰

一、相關理論: 資料探索的核心: (1)資料質量分析(跟資料清洗密切聯絡) (2)資料特徵分析(分佈、對比、週期性、相關性、常見統計量等) 資料清洗的步驟: (1)缺失值處理(通過describe與len直接發現、通過0資料發現) (2)異常值處理(通過散點圖發現

Python資料分析與挖掘學習筆記(5)資料規範化與資料離散化實戰

一、相關理論: 1、資料規範化的常見方法: (1)離差標準化(最小-最大標準化)--消除量綱(單位)影響以及變異大小因素的影響。(最小-最大標準化)                         x1=(x-min)/(max-min) (2)標準差標準化--消除單

python資料分析的numpy學習筆記

1. 首先是安裝anaconda整合環境安裝 首先進入anaconda官網進行下載安裝,安裝成功後就可以引用資料分析的庫洛。 2. numpy的學習 NumPy系統是Python的一種開源的數值計算擴充套件。這種工具可用來儲存和處理大型矩陣,比Python自身的巢狀列表(nested l

學習筆記——前端開發——CSS(5) 例項練習

由於上次做網頁佈局的練習摔得有點慘,這次再找一個練一練,效果見下方動圖。例題網址    http://www.runoob.com/w3cnote/htmlcss-make-a-website.html這次練習的是——簡單的響應式網頁step1:只佈局,無響應效果導航欄由於之

CTF學習筆記之初始CTF

    大一下學期,有幸加入HNUST的網路攻防小組。同時也明白了網路攻防的其中一種形式就是-----CTF比賽。對於我這種菜鳥來說是一種全新的經歷,雖然有些陌生,但並不妨礙我的用心學習,刻苦鑽研。從實戰出發,以戰代練,不斷儲備自己的知識,彌補自身的缺點。

Python-資料分析與展示學習筆記(二)

前言 此次學習的主題是圍繞機器學習所需的python庫展開。 在學完了python的基礎語法後,瞭解到機器學習還需要掌握一些python進階知識:利用python爬取資料、資料分析與展示。 於是在網上找了許多教程,發現北理工嵩天老師的pyth

React-學習筆記(一)

  新公司的專案前端架構用的是react.js 之前孤陋寡聞並沒聽說過,想著後期開發和維護多少要會點前端的東西,就簡單研究一下。個人的學習習慣能寫程式碼的就不寫文字,必要的地方加兩行註釋,程式碼一行行敲下去,執行過有問題及時發現,存檔當作日後小問題備查的工具。感覺前端尤如玄學,標點啥的處處要留心,

React-學習筆記(二)

  這篇新穎的東西是React的元件的封裝和引用   <!DOCTYPE html> <html> <head> <meta charset="UTF-8" /> <title>Hello React!<

Excel學習筆記

一、常用的分析模型:波特五力模型:用於行業分析和商業戰略研究SWOT分析模型:用於市場分析(strength、weakness、opportunity、threats)5W2H分析模型:用於解決問題(what、why、when、where、who、how、how much)P

python資料分析與挖掘學習筆記(6)-電商網站資料分析及商品自動推薦實戰與關聯規則演算法

這一節主要涉及到的資料探勘演算法是關聯規則及Apriori演算法。 由此展開電商網站資料分析模型的構建和電商網站商品自動推薦的實現,並擴充套件到協同過濾演算法。 關聯規則最有名的故事就是啤酒與尿布的故事,非常有效地說明了關聯規則在知識發現和資料探勘中起的作用和意義。 其中有

Python資料分析與挖掘學習筆記一:庫和環境搭建

概念介紹: 資料分析:  用適當的統計分析方法對收集來的大量資料進行詳細研究和概括總結,以求最大化地發揮資料的作用,提取有用資訊和形成結論 資料探勘: 從大量資料中通過演算法搜尋隱藏於其中資訊的過程. 資料分析的三大作用:現狀分析、原因分析、預測分析。 資料分析的流程

學習筆記——前端開發——CSS(3)

老樣子,先貼練習網址:菜鳥教程CSS例項:http://www.runoob.com/css/css-examples.htmlW3SCHOOL HTML參考手冊:http://www.w3school.com.cn/tags/tag_a.asp一、今天來學習一下盒模型(Bo

thinkphp學習筆記(一)

開始寫學習筆記,不給別人看,只是為了紀錄,畢竟不是所有看過的內容都能用的熟練,紀錄下有用的碎片,需要時還可以翻看翻看 thinkphp環境配置 windows下配置什麼的都不說了,原生配置容易,wamp或者什麼appserv之類的活著xampp都可以,配置極簡,就是穩定