PSSP之特徵提取(PSSP protein secondary structure prediction)
阿新 • • 發佈:2018-12-25
PSSP之特徵提取(PSSP protein secondary structure prediction)
One-hot encoding AAC
維度為20+3(BXZ)。
PSSM encoding
- fasta檔案
- psi-blast程式+protein db(nr db 40G 下載失敗 uniref50 6G 下載成功)
- makeblastdb.exe (uniref50
- python批量 cmd操作(待續)
- data_process.py
SVM 分類
多核組合rbf+lin 效果好
優化之特徵清洗
- 加上標誌位
- 或是化學效能的特徵
- 還有加上3個AAC
- 再用資料庫uniref50跑一下pssm 還是自己的程式跑出來PSSM 比較靠譜 而且 看了很多論文也用了uniref50說明他還是有點靠譜的
- 還有就是歸一化特徵 我去我之前LSTM跑的文字分類裡去找一下靈感
- 還有就是劃窗操作 吧PSSM用滑動視窗處理下 看看會不會有優化效果
- 給PSSM的值歸一化