1. 程式人生 > >論文筆記:時間序列分析

論文筆記:時間序列分析

論文筆記:Causal Inference on EventSequences

論文綜述

  • 解決的問題:兩個不同的序列xn與yn,是否能斷定他們相互關聯,或者說存在因果關係。
  • 依託的主要知識:概率論

名詞解釋:

  • 格蘭傑因果關係 Granger causality
    • 統計學上的因果關係:從統計的角度,因果關係是通過概率或者分佈函式的角度體現出來的:在宇宙中所有其它事件的發生情況固定不變的條件下,如果一個事件A的發生與不發生對於另一個事件B的發生的概率(如果通過事件定義了隨機變數那麼也可以說分佈函式)有影響,並且這兩個事件在時間上有先後順序(A前B後),那麼我們便可以說A是B的原因。
  • 熵與最優編碼
    • 最優編碼長度就是熵
    • lower entropy corresponds to better compression
  • Transfer Entropy:
    +它是一種基於概率分佈,夏農熵,統計的方法得出時間序列間因果性的方法
  • regret
  • 最大似然函式
  • SNML

論文方法描述

  • 兩個假定:
    1. 原因發生在結果前
    2. 原因擁有影響未來值的資訊
  • 步驟:

    1. 編碼長度的比較:
    2. 根據編碼長度確定因果
    3. 設定閾值
    4. 如何確定可用的概率(存在問題:模型給錯結果一定錯)
    5. SNML定義式子:
    6. 用於二進位制資料
    7. Conditional Compression(在引入yn,xn兩個序列的時候該如何處理這個問題)
      • 簡單來說,根據y(用XOR)構造出不同的序列來檢視哪個序列的熵最小,找到規律然後按照規律帶入相關量
      • 把上述所有序列代入計算
      • 如圖所示,對於1的預測,選取的序列1越多,熵越小,對於0的預測,選取的1越少,熵越少。
      • 上述式子要帶入哪些值就知道了
  • 實驗:生成資料的實驗和水文,氣溫的實驗。

  • 總結:這篇論文的核心思想在於提高對於有噪音的資料的序列分析,並且不依賴於lag這個引數,但於此同時,這篇論文的限制也很明顯,只能處理離散資料。
  • 疑問:
    1. 選取傳遞熵得到的結果做對比,效果可信嗎?上圖是三種方法對比,第一行是作者的方法,準確率100%,第二種是作者對比的方法,只有39%的準確率,而第三種才是常用的格蘭傑因果關係檢驗方法,有70%的準確率(目前只是初步處理,還有可能提高)
    2. 文章中始終沒有說明怎麼處理所謂的閾值,而格蘭傑因果關係檢測是可以判斷顯著性程度的。
    3. 文章中只是在確定有因果關係的資料中分析誰是原因誰是結果,但是如果兩者沒有因果關係呢?