生物資訊指令碼練習（1）找出fasta檔案中大於500的序列

阿新 • • 發佈：2019-01-30

最近做了一些生物資訊的指令碼練習。
這是第一個例子。
找出一個fasta檔案中大於500的序列，並重定向到另一個新的檔案中。
這個檔案每條序列是如下的樣子。

c100027.graph_c0|orf3 type=complete len=150nt loc=c100027.graph_c0:123-272:-
ATGAGGATCTTTACGCCAAATGAGGGCCTTGTTGTTGATCTTTTCAGTAAGAGACGTTGC
GGAAATATTGGCGAAAATTTAAGAAACCTAGTTAGTTTTAGCAGCCACATAGTTGGCAAG
AATTATACTATTCAAGCCATGTGGCACTGA

這是我一開始的解法：
思路是用正則匹配第一行中len的數值。找到他們之後，根據這數字算出這條序列有多少行，然後把這麼些行的資訊輸出。

import re
output = open('data.txt', 'w')
seq = []
element = []
row = []
with open ("d:/Zanthoxylum_Bungeanum_Maxim.Unigene.cds.fa","r") as f:
    for l in f:
        seq.append(l)
for i in seq:
    if re.match(">.*len=[5-9][0-9][0-9]nt.*" 
,i) or re.match(">.*len=[0-9][0-9][0-9][0-9]nt.*",i):
        element_number = seq.index(i)   #>500序列的標籤所處的位置
        element.append(element_number)                    
        row_number = re.search("len=\d*nt", i).group(0)
        index = row_number[4:7]        
        row_number = (int(index)// 60) + 1 
   #每個>500的序列的行數
        row.append(row_number)
len_row = len(row)
def f(n):    #輸出一個完整的帶序列標籤的序列 ，共找到n條符合條件序列
    x = 0  
    for i in seq:
        if x <= row[n]:  
            output.write(seq[element[n]+x]) #輸出>之後的鹼基序列
            x += 1
    return
for i in range(0,len_row):
    f(i)
output.close()

這是我的另外一種解法：

先把序列整合成一個字串，正則找到之後整個輸出，而不是每行輸出。

import re
fw=open('use.fa','w')
with open("data1.fa","r") as f:
    line = f.readlines()
for i in line:
    if i[0]!= ">":
        i  = i.strip("\n")
    else: 
        i = i.replace(">","\n>")
    fw.write(i) 
fw.close()
ttt = []
with open("use.fa","r") as f:
    seq = f.readlines()
    seq = seq[1:]
    for i in seq:
        if seq.index(i)%2 ==0:
            a = re.search("len=\d+",i).group(0)
            ttt.append(a[4:]) #這個列表只包含所有序列的長度值
print(ttt)
with open('temp.fa','w') as qq:
    qq.write(seq[0])
    for i in ttt:
        if int(i)>500:
            #qq.write(seq[ttt.index(i)])
            qq.write(seq[ttt.index(i)+1])

其實python和perl一樣，“答案都不止一個”
期待更好的解法

# 8.14更新。我有了更好的解法
# 這種把fasta檔案轉化成字典的方法來自這個論壇，感謝。
# http://www.biotrainee.com/forum-59-1.html

import os
import re
os.chdir("c:/程式設計題")
def readfasta(filename):
    fa = open(filename, 'r')
    res = {}
    ID = ''
    for line in fa:
        if line.startswith('>'):           
            ID = line#.strip('\n')
            res[ID] = ''
        else:            
            res[ID] += line#.strip('\n') 
    return res
output = {}
res = readfasta('500.fa')
regex = re.compile(r'=\d+')
for k,v in res.items():
    m = regex.findall(k)
    for n in m:
        if int(n[1:])> 500:
            output[k] = v

f = open("output.txt" , "w")
for k,v in output.items():
    f.write(k)
    f.write(v)
f.close()

生物資訊指令碼練習（1）找出fasta檔案中大於500的序列

最近做了一些生物資訊的指令碼練習。這是第一個例子。找出一個fasta檔案中大於500的序列，並重定向到另一個新的檔案中。這個檔案每條序列是如下的樣子。 c100027.graph_c

C++程式設計小練習（一）找出100以內的素數

int i,j,n,a[101]; //對陣列賦值 for (i=1;i<=100;i++) a[i]=i; a[1]=0; //將非素數賦值為0。 for (i=2;i<sqrt(100);i++) for (j=i+1;j<

華為上機試題（java）找出一個字串中出現次數最多的字元

Java求字串中出現次數最多的字元，如String Str = "aaabbcddddee";那麼輸出：d 4 ;若String Str = "aaabbcddddeexxxxxx";那麼輸出：x 6 import java.util.*; import java.uti

輸入m個學生，每個學生有4門課，在主調函式中輸入學生的相關資訊，編寫三個函式：（1）求第一門課的平均分；（2）找出有兩門課以上不及格的學生，並輸出他們的學號和全部成績，要求用指標函式實現：fl

輸入m個學生，每個學生有4門課，在主調函式中輸入學生的相關資訊，編寫三個函式：（1）求第一門課的平均分；（2）找出有兩門課以上不及格的學生，並輸出他們的學號和全部成績，要求用指標函式實現：float*Search(float(*p)[4],int n)；（3）找出

Android計算器APP練習（1）--- 界面

span 練習 pre nbsp 方式 src 修改正常自己的 Android Studio 2.3.2 。參考文章：http://blog.csdn.net/like_program/article/details/51813632 1. 新建工程 MyCalcul

Python小練習（1）

duyuheng python 比較價錢找出一個月中的天數計算三角的周長點在矩形內嗎？金融方面：比較價錢假設你購買大米時發現它有兩種包裝。你會別寫一個程序比較這兩種包裝的價錢。程序提示用戶輸入每種包裝的重量和價錢，然後顯示價錢更好的那種包裝。下面是個示例運行#!/usr/bin/env pytho

HTML常用標簽練習（1）

第二章 cnblogs lap 一個 clas -1 size 練習第三章中級第一天，學習了一些常用的html標簽 HBuileder的使用，適用於html編寫 1.html head部分的學習 View Code 2.html body部分的學習 View

mysql======練習（1）

char sel ddr cte 考試科目 unique sco score select mysql 練習題***創建student表mysql> create table student ( -> id int(10) not null unique

程序練習（1）

目前 item 文件菜單 {} with open art -s it! 一.商品買賣程序：要求：1.啟動程序後，讓用戶輸入工資，然後打印商品列表；　　 2.允許用戶根據商品編碼購買商品　　 3.用戶購買商品後，檢測余額是否夠，夠就直接扣款，不夠就提醒

python：一些簡單練習（1）

input 位數 div put 要求這樣的 pass for n) 1.輸入一個數字，求從1到這個數的所有十位數和個位數不相同的數字組合及這樣的數的個數： n = 0 x = input(‘請輸入數字：‘) for item in range(1, int(x)):

野生前端的數據結構練習（1）——棧

操作數棧 sha ttr src master 彈出多個第一個入棧習題主要選自Orelly出版的《數據結構與算法javascript描述》一書。參考代碼可見:https://github.com/dashnowords/blogs/tree/master/St

作業練習（1）

1.在server主機中配置yum倉庫，並安裝gcc編譯器 (1)從真機上下載rhel-server-7.0-x86_64-dvd.iso到虛擬機器 (2)掛載：mount rhel-server-7.0-x86_64-dvd.iso /mnt (3)rm -rf /etc/yum.

MATLAB生物資訊分析工具箱（一）

這裡給出 MATLAB_R2017a 的生物資訊學工具箱中自帶的樣例一覽：如果是預設安裝，則相關目錄在： C:\Program Files\MATLAB\R2017a\examples\bioinfo 按字母排序如下： AlignMultipleSeq

C++ STL練習（1）

說明：題目節選自《演算法競賽入門經典》（第二版），僅為了練習使用，跟著書中手敲程式碼，並新增自己的理解，僅此記錄，我始終相信，當你開始不懂許多東西的時候，跟著書中弄懂作者的寫的程式碼的思路，照著敲出來，敲多了，明白許多原理了，還有你會為了看懂它，查很多資料，然後當自己面對新的問題，腦子就有的呼叫了

程式設計練習（1）

題目： 1 有這樣一個數字，ABCD * E ==DCBA ，其中各個數字不相等，編寫一個程式，計算出ABCD各代表什麼數字。 #include <stdio.h> int fun(int i,i

shell指令碼基礎（1）

一、簡介 windows格式： .bat linux格式：.sh shell是c語言編寫的程式，即使一種命令語言，又是一種程式設計語言 shell種類： .sh ash ,bash, ksh, csh, zsh 二、操作

Pandas個人操作練習（1）建立dataframe及插入列、行操作

個人分類： Python 使用pandas之前要匯入包： import numpy as np import pandas as pd import random #其中有用到random函式，所以匯入一、dataframe建立 pandas.DataF

演算法練習（1）動態規劃：買賣股票的最佳時機1

給定一個數組，它的第 i 個元素是一支給定股票第 i 天的價格。如果你最多隻允許完成一筆交易（即買入和賣出一支股票），設計一個演算法來計算你所能獲取的最大利潤。注意你不能在買入股票前賣出

作業系統PV原語練習（1）

題目描述：一條河上架設了由N個橋墩組成的一座橋。若一個橋墩只能站一個人，過河的人只能沿著橋向前走而不能向後退。過河時，只要對岸無人過，就可以過。但不允許河對岸的兩個人同時過，以防止出現死鎖。請給出兩個方向的人順利過河的同步演算法。（可以簡單擴充為多個方向上一個環形的

【c語言】（迴圈）找出1到10000的完全數

題目：找出1到10000中的完全數完全數：完全數的所有因數之和等於其本身（1不是完全數） --------如：（6 = 1 + 2 + 3）思路分析：找出一個數的全部因數判斷因數之和是否等於本身程式碼實現： #include<stdio

生物資訊指令碼練習（1） 找出fasta檔案中大於500的序列

這是我的另外一種解法：

相關推薦

生物資訊指令碼練習（1）找出fasta檔案中大於500的序列