1. 程式人生 > >PSSP之特徵提取(PSSP protein secondary structure prediction)

PSSP之特徵提取(PSSP protein secondary structure prediction)

PSSP之特徵提取(PSSP protein secondary structure prediction)

One-hot encoding AAC

維度為20+3(BXZ)。

PSSM encoding

  1. fasta檔案
  2. psi-blast程式+protein db(nr db 40G 下載失敗 uniref50 6G 下載成功)
  3. makeblastdb.exe (uniref50
    格式化成功 耗時 4846 secords)
  4. python批量 cmd操作(待續)
  5. data_process.py

SVM 分類

多核組合rbf+lin 效果好

優化之特徵清洗

  • 加上標誌位
  • 或是化學效能的特徵
  • 還有加上3個AAC
  • 再用資料庫uniref50跑一下pssm 還是自己的程式跑出來PSSM 比較靠譜 而且 看了很多論文也用了uniref50說明他還是有點靠譜的
  • 還有就是歸一化特徵 我去我之前LSTM跑的文字分類裡去找一下靈感
  • 還有就是劃窗操作 吧PSSM用滑動視窗處理下 看看會不會有優化效果
  • 給PSSM的值歸一化