1. 程式人生 > >[轉載]PDB數據格式詳解

[轉載]PDB數據格式詳解

文本格式 charge 第一個 rst ide 小數 編輯 TE 修飾

完整的PDB文件提供了非常多的信息, 包括作者, 參考文獻以及結構說明, 如二硫鍵, 螺旋, 片層, 活性位點. 在使用PDB文件時請記住, 一些建模軟件可能不支持那些錯誤的輸入格式.

PDB格式以文本格式給出信息, 每一行信息稱為一個 記錄(record). 一個PDB文件通常包括很多不同類型的記錄, 它們以特定的順序排列, 用以描述結構.

PDB文件中的記錄類型

一. 標題部分

  1. HEADER: 分子類, 公布日期, ID號

  2. OBSLTE: 註明此ID號已廢棄, 改用新ID號

  3. TITLE: 說明實驗方法類型

  4. CAVEAT: 可能的錯誤警告

  5. COMPND: 化合物分子組成

  6. SOURCE: 化合物來源

  7. KEYWDS: 關鍵詞

  8. EXPDTA: 測定結構所用的實驗方法

  9. AUTHOR: 結構測定者

  10. REVDAT: 修訂日期及相關內容

  11. SPRSDE: 已撤銷或更改的相關記錄

  12. JRNL: 發表坐標的期刊

  13. REMARK REMARK 1: 有關文獻 REMARK 2: 最大分辨率 REMARK 3: 用到的程序和統計方法. 記述結構優化的方法和相關統計數據. REMARK 4-999: 其他信息

二. 一級結構

  1. DBREF: 其他序列庫的有關記錄

  2. SEQADV: PDB與其他記錄的出入

  3. SEQRES: 殘基序列

  4. MODRES

    : 對標準殘基的修飾

三. 雜因子

  1. HET: 非標準殘基

  2. HETATM: 非標準殘基的名稱

  3. HETSNY: 非標準殘基的同義字

  4. FORMOL: 非標準殘基的化學式

四. 二級結構

  1. HELIX: 螺旋. 標識螺旋的位置和類型(右手α螺旋等), 每個螺旋一條記錄.

  2. SHEET: 片層. 標識每個片層的位置, 類型(sense, 如反平行等), 相對於模型中每個束的片層(如果存在的話)中前一束的說明, 每個片層一條記錄.

  3. TURN: 轉角

五. 連接註釋

  1. SSBOND: 二硫鍵. 定義半胱氨酸CYS殘基之間的二硫鍵

  2. LINK: 殘基間化學鍵

  3. HYDBND

    : 氫鍵

  4. SLTBRG: 鹽橋

  5. CISPEP: 順式殘基

六. 晶胞特征及坐標變換

  1. CRYST1: 晶胞參數(NMR除外). 記述晶胞結構參數(a, b, c, α, β, γ, 空間群)以及Z值(單位結構中的聚合鏈數).

  2. ORIGXn: 直角-PDB坐標

  3. SCALEn: 直角-晶體分數坐標(n=1, 2, 3, NMR除外). 說明數據中直角坐標向晶體分數坐標的變換因子.

  4. MTRIXn: 非晶相對稱

  5. TVECT: 平移矢量

七. 坐標部分

  1. MODEL: 多亞基時顯示亞基號 當一個PDB文件中包含多個結構時(例: NMR結構解析), 該記錄出現在各個模型的第一行. MODEL記錄行的第11-14列上記入模型序號. 序號從1開始順序記入, 在11-14列中從右起寫. 比如說有30個模型, 則第1至9號模型, 該行的7-13列空白, 在14列上記入1-9的數字; 第10-30號模型, 該行的7-12列空白, 13-14列上記入10-30的數字.

  2. ATOM: 標準殘基的原子. 記述標準殘基(氨基酸以及核酸)中各原子的原子名稱, 殘基名稱, 直角坐標(單位埃), 占有率, 溫度因子等信息.

  3. SIGATM: 標準差

  4. ANISOU: 各向異性

  5. SIGUIJ: 各種溫度因素導致的標準差

  6. TER: 殘基鏈的末端. 表示殘基鏈的結束. 在每個聚合鏈的末端都必須有TER記錄, 但因序列無序造成的鏈中斷處不需要該記錄. 例如, 一個血紅蛋白分子包含四個亞鏈. 彼此之間並不相連. TER標識了每條鏈的結束, 以防顯示時這條鏈與下一條相連.

  7. HETATM: 非標準殘基的原子. 記述非標準殘基(標準氨基酸以及核酸以外的化合物, 包括抑制劑, 輔因子, 離子, 溶劑)中各原子的原子名稱, 殘基名稱, 直角坐標(單位埃), 占有率, 溫度因子等信息. 與ATOM記錄的唯一區別在於HETATM殘基默認情況下不會與其他殘基相連. 註意, 水分子也應放在此記錄中.

  8. ENDMDL: 亞基結束. 與MODEL記錄成對出現, 記述在各模型的鏈末端的TER記錄之後.

八. 連接信息部分

  1. CONECT: 原子間的連接信息

九. 簿記

  1. MASTER: 版權擁有者

  2. END: 文件結束. 標誌PDB文件的結束, 必需記錄.

一些記錄類型的說明

PDB文件裏面的每個記錄都有著嚴格的格式. 每個記錄中的字段, 如標識, 原子名稱, 原子序號, 殘基名稱, 殘基序號等, 不僅要按照嚴格的順序書寫, 而且每個字段所占的字符串長度, 及其所處的位置都是嚴格規定好的. 這些記錄中, 通常最關心的是原子記錄, 其詳細說明可參考PDB原子記錄官方文檔.

一些老的PDB文件可能不完全遵循新格式. 對大多數用戶而言, 最值得註意的區別在於ATOMHETATM記錄中的溫度因子字段. 下文的例子中沒有使用這些字段. 此外, 有些字段常常留空, 例如, 如當原子沒有可替換位置時, 可替位置標識符就會留空.

ATOM記錄

PDB文件 ATOM 記錄
數據格式, 對齊說明
1-4 ATOM 字符, 左 Record Type 記錄類型
7-11 serial 整數, 右 Atom serial number 原子序號.
PDB文件對分子結構處理為
segment, chain, residue, atom四個層次(一般並不用到chain),
因此此數位限定了一個殘基中的最大原子數為為99999
13-16 name 字符, 左 Atom name 原子名稱.
原子的元素符號在13-14列中右對齊
一般從14列開始寫, 占四個字符的原子名稱才會從13列開始寫.
如, 鐵原子FE寫在13-14列, 而碳原子C只寫在14列.
17 altLoc 字符 Alternate location indicator 可替位置標示符
18-20 resName 字符 Residue name 殘基名稱
22 chainID 字符 Chain identifier 鏈標識符
23-26 resSeq 整數, 右 Residue sequence number 殘基序列號
27 iCode 字符 Code for insertion of residues 殘基插入碼
28-30 留空
31-38 x 浮點, 右 Orthogonal coordinates for X in Angstroms 直角x坐標(埃)
39-46 y 浮點, 右 Orthogonal coordinates for Y in Angstroms 直角y坐標(埃)
47-54 z 浮點, 右 Orthogonal coordinates for Z in Angstroms 直角z坐標(埃)
55-60 occupancy 浮點, 右 Occupancy 占有率
61-66 tempFactor 浮點, 右 Temperature factor 溫度因子
67-72 留空
73-76 segID 字符, 左 Segment identifier(optional) 可選的片段標識符
VMD會使用此數據
77-78 element 字符, 右 Element symbol 元素符號
79-80 charge 字符 Charge on the atom(optional) 可選的原子電荷.
實際分子模擬中往往重新定義電荷, 故此列往往不用.
VMD寫出的PDB文件中無此列.

HETATM記錄

PDB文件 HETATM 記錄
數據
1-6 HETATM
7-80 與ATOM記錄相同

TER記錄

PDB文件 TER 記錄
數據格式, 對齊說明
1-3 TER 字符
7-11 Serial number 整數, 右 序號
18-20 Residue name 字符, 右 殘基名稱
22 Chain identifier 字符 鏈標識符
23-26 Residue sequence number 整數, 右 殘基序列號
27 Code for insertions of residues 字符 殘基插入碼

SSBOND記錄

PDB文件 SSBOND記錄
數據格式, 對齊說明
1-6 SSBOND 字符
8-10 Serial number 整數, 右 序號
12-14 Residue name (CYS) 字符, 右 殘基名稱(CYS)
16 Chain identifier 字符 鏈標識符
18-21 Residue sequence number 整數, 右 殘基序列號
22 Code for insertions of residues 字符 殘基插入碼
26-28 Residue name (CYS) 字符, 右 殘基名稱(CYS)
30 Chain identifier 字符 鏈標識符
32-35 Residue sequence number 整數, 右 殘基序列號
36 Code for insertions of residues 字符 殘基插入碼
60-65 Symmetry operator for first residue 整數, 右 第一個殘基的對稱操作
67-72 Symmetry operator for second residue 整數, 右 第二個殘基的對稱操作

HELIX記錄

PDB文件 HELIX 記錄
數據格式, 對齊說明
1-5 HELIX 字符, 左
8-10 Helix serial number 整數, 右 螺旋序號
12-14 Helix identifier 字符, 右 螺旋標識符
16-18 Initial residue name 字符, 右 起始殘基名稱
20 Chain identifier 字符 鏈標識符
22-25 Residue sequence number 整數, 右 殘基序列號
26 Code for insertions of residues 字符 殘基插入碼
28-30 Terminal residue name 字符, 右 終止殘基名稱
32 Chain identifier 字符 鏈標識符
34-37 Residue sequence number 整數, 右 殘基序列號
38 Code for insertions of residues 字符 殘基插入碼
39-40 Type of helix 整數, 右 螺旋類型註1
41-70 Comment 字符, 左 註釋
72-76 Length of helix 整數, 右 螺旋長度

註1: 螺旋類型有如下幾種:

  • 1: Right-handed alpha (default) 右手α螺旋(默認)

  • 2: Right-handed omega 右手ω螺旋

  • 3: Right-handed pi 右手π螺旋

  • 4: Right-handed gamma 右手γ螺旋

  • 5: Right-handed 3/10 右手3/10螺旋

  • 7: Left-handed omega 右手ω螺旋

  • 6: Left-handed alpha 右手α螺旋

  • 8: Left-handed gamma 右手γ螺旋

  • 9: 2/7 ribbon/helix 2/7帶狀螺旋

  • 10: Polyproline 聚脯氨酸

SHEET記錄

PDB文件 SHEET 記錄
數據格式, 對齊說明
1-5 SHEET 字符
8-10 Strand number (in current sheet) 整數, 右 束編號(當前片層中)
12-14 Sheet identifier 字符, 右 片層標識符
15-16 Number of strands (in current sheet) 整數, 右 束數目(當前片層中)
18-20 Initial residue name 字符, 右 起始殘基名稱
22 Chain identifier 字符 鏈標識符
23-26 Residue sequence number 整數, 右 殘基序列號
27 Code for insertions of residues 字符 殘基插入碼
29-31 Terminal residue name 字符, 右 終止殘基名稱
33 Chain identifier 字符 鏈標識符
34-37 Residue sequence number 整數, 右 殘基序列號
38 Code for insertions of residues 字符 殘基插入碼
39-40 Strand sense with respect to previous 整數, 右 相對於前一個片層的類型註2
以下字段標識兩個原子,
第一個位於當前片層, 第二個位於前一片層,
它們彼此之間以氫鍵相連.
對束1這些字段應留空.
42-45 Atom name (as per ATOM record) 字符, 左 原子名稱(每個ATOM記錄一個)
46-48 Residue name 字符, 右 殘基名稱
50 Chain identifier 字符 鏈標識符
51-54 Residue sequence number 整數, 右 殘基序列號
55 Code for insertions of residues 字符 殘基插入碼
57-60 Atom name (as per ATOM record) 字符, 左 原子名稱(每個ATOM記錄一個)
61-63 Residue name 字符, 右 殘基名稱
65 Chain identifier 字符 鏈標識符
66-69 Residue sequence number 整數, 右 殘基序列號
70 Code for insertions of residues 字符 殘基插入碼

註2: 類型標識:

  • 1: 平行

  • -1 反平行

  • 0: 用於束1

格式說明

對於熟悉FORTRAN程序語言的用戶, 下面是格式說明

  • ATOMHETATM: Format ( A6,I5,1X,A4,A1,A3,1X,A1,I4,A1,3X,3F8.3,2F6.2,6X,A4,A2,A2 )

  • SSBOND: Format ( A6,1X,I3,1X,A3,1X,A1,1X,I4,A1,3X,A3,1X,A1,1X,I4,A1,23X,2I3,1X,2I3 )

  • HELIX: Format ( A6,1X,I3,1X,A3,2(1X,A3,1X,A1,1X,I4,A1),I2,A30,1X,I5 )

  • SHEET: Format ( A6,1X,I3,1X,A3,I2,2(1X,A3,1X,A1,I4,A1),I2,2(1X,A4,A3,1X,A1,I4,A1) )

在FORTRAN語言的輸入/輸出格式中, X表示輸入/輸出空格; An表示輸入/輸的字符串占n位, 左對齊; In表示輸入/輸的整數占n位, 左對齊; Fm.n表示輸入/輸的浮點數占m位, 其中小數點後的數字占n位. 這些格式前面的整數則表示重復次數, 如23X表示23個空格, 3F8.3表示F8,3格式重復三次.

如果你使用其他程序語言, 可根據上面的格式說明轉換為相應的形式.

PDB文件示例

單鏈蛋白

胰升血糖素(Glucagon)是一個小蛋白, 29個殘基處於單條鏈中. 第一個殘基是終端為氨的氨基酸HIS, 接著的是SER和GLU殘基. 坐標部分開頭如下:

12345678901234567890123456789012345678901234567890123456789012345678901234567890
----+----1----+----2----+----3----+----4----+----5----+----6----+----6----+----8
ATOM      1  N   HIS     1      49.668  24.248  10.436  1.00 25.00
ATOM      2  CA  HIS     1      50.197  25.578  10.784  1.00 16.00
ATOM      3  C   HIS     1      49.169  26.701  10.917  1.00 16.00
ATOM      4  O   HIS     1      48.241  26.524  11.749  1.00 16.00
ATOM      5  CB  HIS     1      51.312  26.048   9.843  1.00 16.00
ATOM      6  CG  HIS     1      50.958  26.068   8.340  1.00 16.00
ATOM      7  ND1 HIS     1      49.636  26.144   7.860  1.00 16.00
ATOM      8  CD2 HIS     1      51.797  26.043   7.286  1.00 16.00
ATOM      9  CE1 HIS     1      49.691  26.152   6.454  1.00 17.00
ATOM     10  NE2 HIS     1      51.046  26.090   6.098  1.00 17.00
ATOM     11  N   SER     2      49.788  27.850  10.784  1.00 16.00
ATOM     12  CA  SER     2      49.138  29.147  10.620  1.00 15.00
ATOM     13  C   SER     2      47.713  29.006  10.110  1.00 15.00
ATOM     14  O   SER     2      46.740  29.251  10.864  1.00 15.00
ATOM     15  CB  SER     2      49.875  29.930   9.569  1.00 16.00
ATOM     16  OG  SER     2      49.145  31.057   9.176  1.00 19.00
ATOM     17  N   GLN     3      47.620  28.367   8.973  1.00 15.00
ATOM     18  CA  GLN     3      46.287  28.193   8.308  1.00 14.00
ATOM     19  C   GLN     3      45.406  27.172   8.963  1.00 14.00

註意到, 每一行(記錄)都以記錄類型ATOM開始, 記錄中的下一項是原子序號.

原子名稱是ATOM記錄中的第三項, 它的前一或二個字符包含原子類型的元素符號. 所有以C開始的原子名稱都代表碳原子, 同理, N代表氮原子, O代表氧原子. 原子名稱的下一字符為遠程標識符, 表示離氨基碳原子的遠近, 含義如下

  • A: α

  • B: β

  • G: γ

  • D: δ

  • E: ε

  • Z: ζ

  • H: η

如果需要, 原子名稱的最後一個字符可以代表分支標識符.

ATOM記錄的下一數據字段為殘基類型. 註意, 每一 記錄都包含殘基類型. 在上面的例子中, 鏈中的第一個殘基為HIS, 第二個為SER.

ATOM記錄的下一數據字段為殘基的序列號. 註意到, 殘基從HIS變為SER後, 殘基序列號從1變為2. 兩個相同的殘基可能相鄰, 因此殘基編號對於區分它們非常重要.

ATOM記錄的下三個數據字段分別為原子的X, Y, Z坐標. 後面接著的數據字段是占有率. 最後的數據字段是溫度因子(也稱B值).

胰升血糖素的PDB文件以這種方式繼續下去, 直至最後一個殘基

12345678901234567890123456789012345678901234567890123456789012345678901234567890
----+----1----+----2----+----3----+----4----+----5----+----6----+----6----+----8
ATOM    239  N   THR    29       3.391  19.940  12.762  1.00 21.00
ATOM    240  CA  THR    29       2.014  19.761  13.283  1.00 21.00
ATOM    241  C   THR    29        .826  19.943  12.332  1.00 23.00
ATOM    242  O   THR    29        .932  19.600  11.133  1.00 30.00
ATOM    243  CB  THR    29       1.845  20.667  14.505  1.00 21.00
ATOM    244  OG1 THR    29       1.214  21.893  14.153  1.00 21.00
ATOM    245  CG2 THR    29       3.180  20.968  15.185  1.00 21.00
ATOM    246  OXT THR    29       -.317  20.109  12.824  1.00 25.00
TER     247      THR    29

註意, 這一殘基包含額外的氧原子OXT, 它處於末端羰基上. TER記錄終止了氨基酸鏈.

雙鏈蛋白

更復雜的一個蛋白, 胎血紅蛋白(fetal hemoglobin), 包含兩條殘基酸鏈(α和γ), 以及兩個血紅素基團. 這個蛋白坐標部分的前10行內容如下:

12345678901234567890123456789012345678901234567890123456789012345678901234567890
----+----1----+----2----+----3----+----4----+----5----+----6----+----6----+----8
ATOM      1  N   VAL A   1       6.280  17.225   4.929  1.00  0.00
ATOM      2  CA  VAL A   1       6.948  18.508   4.671  1.00  0.00
ATOM      3  C   VAL A   1       8.436  18.338   4.977  1.00  0.00
ATOM      4  O   VAL A   1       8.813  17.657   5.941  1.00  0.00
ATOM      5  CB  VAL A   1       6.317  19.598   5.527  1.00  0.00
ATOM      6  CG1 VAL A   1       6.959  20.999   5.376  1.00  0.00
ATOM      7  CG2 VAL A   1       4.819  19.636   5.383  1.00  0.00
ATOM      8  N   LEU A   2       9.259  18.958   4.152  1.00  0.00
ATOM      9  CA  LEU A   2      10.715  18.872   4.330  1.00  0.00
ATOM     10  C   LEU A   2      11.156  20.058   5.187  1.00  0.00

數據文件與上面胰升血糖素的基本一樣, 除了第五個數據字段包含單個字符的鏈標識符A, 它標識血紅蛋白分子的α鏈. 而在胰升血糖素的例子中, 這一字段為空. 在鏈A的終止處, 出現血紅素基團的記錄

12345678901234567890123456789012345678901234567890123456789012345678901234567890
----+----1----+----2----+----3----+----4----+----5----+----6----+----6----+----8
ATOM   1058  N   ARG A 141      -6.576  12.834 -10.275  1.00  0.00
ATOM   1059  CA  ARG A 141      -8.044  12.831 -10.214  1.00  0.00
ATOM   1060  C   ARG A 141      -8.186  14.096  -9.365  1.00  0.00
ATOM   1061  O   ARG A 141      -7.591  15.139  -9.671  1.00  0.00
ATOM   1062  CB  ARG A 141      -8.579  11.531  -9.580  1.00  0.00
ATOM   1063  CG  ARG A 141      -8.386  11.441  -8.054  1.00  0.00
ATOM   1064  CD  ARG A 141      -8.727  10.045  -7.568  1.00  0.00
ATOM   1065  NE  ARG A 141      -9.095  10.056  -6.143  1.00  0.00
ATOM   1066  CZ  ARG A 141      -9.268   8.931  -5.414  1.00  0.00
ATOM   1067  NH1 ARG A 141      -8.602   8.795  -4.282  1.00  0.00
ATOM   1068  NH2 ARG A 141     -10.097   7.962  -5.830  1.00  0.00
ATOM   1069  OXT ARG A 141      -8.973  13.984  -8.310  1.00  0.00
TER    1070      ARG A 141
HETATM 1071 FE   HEM A   1       8.133   8.321 -15.014  1.00  0.00
HETATM 1072  CHA HEM A   1       8.863   8.752 -18.417  1.00  0.00
HETATM 1073  CHB HEM A   1      10.362  10.946 -14.389  1.00  0.00
HETATM 1074  CHC HEM A   1       8.482   7.374 -11.743  1.00  0.00
HETATM 1075  CHD HEM A   1       6.982   5.180 -15.773  1.00  0.00
HETATM 1076  N A HEM A   1       9.452   9.545 -16.178  1.00  0.00

α鏈中最後一個殘基為ARG, 額外的氧原子OXT同樣出現在末端羰基基團中. TER記錄標識了多肽鏈的結束. 在多肽鏈的結束處使用TER記錄非常重要, 這樣, 才不至於將一條鏈的終結處與另一條鏈的起始處相連.

上面的例子中, TER記錄是正確的, 並且應該存在. 但是, 即便沒有TER記錄標識, 分子鏈仍然應該在某處終止, 因為HETATM殘基不會與其他殘基相連, 或互相相連. 作為單個殘基的血紅素基團由HETATM記錄組成.

在α鏈血紅素基團的結束處, γ鏈開始出現:

12345678901234567890123456789012345678901234567890123456789012345678901234567890
----+----1----+----2----+----3----+----4----+----5----+----6----+----6----+----8
HETATM 1109  CAD HEM A   1       7.582   6.731 -20.480  1.00  0.00
HETATM 1110  CBD HEM A   1       8.992   6.848 -20.968  1.00  0.00
HETATM 1111  CGD HEM A   1       8.998   6.529 -22.465  1.00  0.00
HETATM 1112  O1D HEM A   1       9.693   5.683 -22.895  1.00  0.00
HETATM 1113  O2D HEM A   1       8.276   7.153 -23.229  1.00  0.00
ATOM   1114  C   ACE G   0       7.896 -18.462  -1.908  1.00  0.00
ATOM   1115  O   ACE G   0       7.246 -18.839   -.922  1.00  0.00
ATOM   1116  CH3 ACE G   0       9.415 -18.301  -1.832  1.00  0.00
ATOM   1117  N   GLY G   1       7.354 -18.174  -3.077  1.00  0.00
ATOM   1118  CA  GLY G   1       5.904 -18.282  -3.283  1.00  0.00
ATOM   1119  C   GLY G   1       7.139 -19.112  -2.930  1.00  0.00
ATOM   1120  O   GLY G   1       7.026 -20.248  -2.448  1.00  0.00
ATOM   1121  N   HIS G   2       8.300 -18.533  -3.176  1.00  0.00
ATOM   1122  CA  HIS G   2       9.565 -19.224  -2.889  1.00  0.00

這裏, 新鏈的開始隱含著TER記錄存在. 新鏈的標識符為G. 整個文件以與前面相同的模式繼續下去, 到整條γ鏈及其血紅素結束.

數據字段中的空格非常關鍵. 如果沒有提供數據, 相應的字段應該留空. 例如, 僅包含單條氨基酸鏈的蛋白沒有鏈標識符, 因此, 22列應該留空.

對於上面的例子, 看起來PDB格式依賴於 殘基 的概念. 殘基的規則總結如下:

  1. 所有處於單個殘基內的原子都必須具有唯一的名稱. 例如, 殘基VAL可能只有一個名稱為CA的原子. 其他殘基可能也含有CA原子, 但VAL中出現的CA不能超過一個.

  2. 殘基名稱最大長度為三個字符, 並且能唯一地標識殘基類型. 因此, 文件中具有給定名稱的所有殘基都具有相同的殘基類型, 相同的結構. 每個特定殘基在PDB文件中出現時都應具有相同的原子和連接性.

PDB格式文件中的常見錯誤

如果一個PDB文件無法正常展示, 在其成百上千行數據中找到錯誤位置有時很困難. 這裏給出PDB文件中一些最常見的錯誤.

程序創建的PDB文件

虛假的超長鍵

由程序創建的PDB文件中, 常見的一種錯誤會導致在本來不該相連的殘基間顯示出非常長的鍵. 這種錯誤來自於缺少了分子鏈結束處的TER記錄. 根據PDB標準, TER記錄標識了分子鏈的結束. 文件中如果缺失了TER記錄, 應該插入它們. 或者, 作為替代方法, 對每條鏈使用不同的鏈標識符.

顯示超長鍵的第二個常見原因是不正確地使用ATOM記錄, 而不使用HETATM記錄. HETATM記錄應該用於那些不形成鏈的化合物, 如水或血紅素. 許多程序創建的PDB文件沒有正確地使用HETATM記錄. 在這種情況下, ATOM記錄的開頭 6 列應改為HETATM, 這樣, 其余列的排列仍然正確.

未正確排列的原子名稱

PDB記錄中未正確排列的原子名稱可能導致問題. ATOMHETATM記錄中的原子名稱由下列內容組成: 元素符號(如C), 對齊在13-14列中; 遠程標識字符(如A), 對齊在15-16列中. 許多程序只是簡單地從第13列開始將整個原子名稱左對齊. 在下面血紅蛋白的一部分文件中可以清楚地看到區別:

正確的

12345678901234567890123456789012345678901234567890123456789012345678901234567890
----+----1----+----2----+----3----+----4----+----5----+----6----+----6----+----8
HETATM  976 FE   HEM     1      12.763  34.157   9.102  1.00  0.00
HETATM  977  CHA HEM     1      16.124  33.461  10.405  1.00  0.00
HETATM  978  CHB HEM     1      11.350  32.580  12.046  1.00  0.00
HETATM  979  CHC HEM     1       9.326  34.709   7.887  1.00  0.00
HETATM  980  CHD HEM     1      14.138  35.379   6.119  1.00  0.00

錯誤的

12345678901234567890123456789012345678901234567890123456789012345678901234567890
----+----1----+----2----+----3----+----4----+----5----+----6----+----6----+----8
HETATM  976  FE  HEM     1      12.763  34.157   9.102  1.00  0.00
HETATM  977  CHA HEM     1      16.124  33.461  10.405  1.00  0.00
HETATM  978  CHB HEM     1      11.350  32.580  12.046  1.00  0.00
HETATM  979  CHC HEM     1       9.326  34.709   7.887  1.00  0.00
HETATM  980  CHD HEM     1      14.138  35.379   6.119  1.00  0.00

手動創建的PDB文件

重復的原子名稱

在手動創建的PDB文件中, 一個可能的編輯錯誤是, 對於一個給定殘基中的所有原子沒有指定唯一的名稱. 在下面的例子中, 殘基VAL中有兩個原子具有名稱CA.

12345678901234567890123456789012345678901234567890123456789012345678901234567890
----+----1----+----2----+----3----+----4----+----5----+----6----+----6----+----8
ATOM      1  N   VAL A   1       6.280  17.225   4.929  1.00  0.00
ATOM      2  CA  VAL A   1       6.948  18.508   4.671  1.00  0.00
ATOM      3  C   VAL A   1       8.436  18.338   4.977  1.00  0.00
ATOM      4  O   VAL A   1       8.813  17.657   5.941  1.00  0.00
ATOM      5  CA  VAL A   1       6.317  19.598   5.527  1.00  0.00
ATOM      6  CG1 VAL A   1       6.959  20.999   5.376  1.00  0.00
ATOM      7  CG2 VAL A   1       4.819  19.636   5.383  1.00  0.00
ATOM      8  N   LEU A   2       9.259  18.958   4.152  1.00  0.00
ATOM      9  CA  LEU A   2      10.715  18.872   4.330  1.00  0.00
ATOM     10  C   LEU A   2      11.156  20.058   5.187  1.00  0.00

取決於所用的可視化程序, 可能無法正確顯示殘基的連接, 或者只有當標記殘基才會給出缺少CB原子的錯誤.

序列之外的殘基

在下面的例子中, 出現於文件中的第二個殘基(SER)被錯誤地編號為殘基5. 許多可視化程序會顯示殘基5與殘基1和3相連, 但只有當初確實需要這樣時才正確. 如果殘基5被假定出現在殘基4和殘基6之間, 它就應該出現在那裏.

12345678901234567890123456789012345678901234567890123456789012345678901234567890
----+----1----+----2----+----3----+----4----+----5----+----6----+----6----+----8
ATOM      1  C   HIS     1      49.169  26.701  10.917  1.00 16.00
ATOM      2  CA  HIS     1      50.197  25.578  10.784  1.00 16.00
ATOM      3  CB  HIS     1      51.312  26.048   9.843  1.00 16.00
ATOM      4  CD2 HIS     1      51.797  26.043   7.286  1.00 16.00
ATOM      5  CE1 HIS     1      49.691  26.152   6.454  1.00 17.00
ATOM      6  CG  HIS     1      50.958  26.068   8.340  1.00 16.00
ATOM      7  N   HIS     1      49.668  24.248  10.436  1.00 25.00
ATOM      8  ND1 HIS     1      49.636  26.144   7.860  1.00 16.00
ATOM      9  NE2 HIS     1      51.046  26.090   6.098  1.00 17.00
ATOM     10  O   HIS     1      48.241  26.524  11.749  1.00 16.00
ATOM     11  C   SER     5      47.713  29.006  10.110  1.00 15.00
ATOM     12  CA  SER     5      49.138  29.147  10.620  1.00 15.00
ATOM     13  CB  SER     5      49.875  29.930   9.569  1.00 16.00
ATOM     14  N   SER     5      49.788  27.850  10.784  1.00 16.00
ATOM     15  O   SER     5      46.740  29.251  10.864  1.00 15.00
ATOM     16  OG  SER     5      49.145  31.057   9.176  1.00 19.00
ATOM     17  C   GLN     3      45.406  27.172   8.963  1.00 14.00
ATOM     18  CA  GLN     3      46.287  28.193   8.308  1.00 14.00

輸入錯誤

有時字母l和數字1被互相替換了. 取決於這種錯誤在文件中出現的位置, 導致的問題也不一樣. 錯誤放置的原子可能預示著錯誤出現在坐標字段中. 確定這種錯誤的一種方式是, 使用大寫字母表示文件中的數據, 然後使用文本編輯器查找所有的小寫字母l.

氫原子約定

PDB文件中的氫原子約定如下:

  1. 出現在ATOM記錄中的氫原子, 處於特定殘基所有其他原子的後面.

  2. 每個氫原子的名稱根據與它相連原子的名稱來確定: 名稱的第一個位置(13列)為可選的數字, 當有兩個或多個氫原子與同一個原子相連時才使用; 第二個位置(14列)為元素符號H; 接下來的兩列包含與氫原子相連原子的遠程和分支標識符(1或2個字符).

示例如下

12345678901234567890123456789012345678901234567890123456789012345678901234567890
----+----1----+----2----+----3----+----4----+----5----+----6----+----6----+----8
ATOM      1  N   VAL     1     -13.090   1.966   9.741  1.00  0.00
ATOM      2  CA  VAL     1     -12.852   3.121   8.892  1.00  0.00
ATOM      3  C   VAL     1     -13.047   4.399   9.711  1.00  0.00
ATOM      4  O   VAL     1     -12.143   5.228   9.800  1.00  0.00
ATOM      5  CB  VAL     1     -13.753   3.058   7.658  1.00  0.00
ATOM      6  CG1 VAL     1     -13.930   4.446   7.036  1.00  0.00
ATOM      7  CG2 VAL     1     -13.208   2.063   6.631  1.00  0.00
ATOM      8  H   VAL     1     -13.919   1.449   9.527  1.00  0.00
ATOM      9  HA  VAL     1     -11.816   3.075   8.557  1.00  0.00
ATOM     10  HB  VAL     1     -14.734   2.707   7.977  1.00  0.00
ATOM     11 1HG1 VAL     1     -13.951   4.357   5.950  1.00  0.00
ATOM     12 2HG1 VAL     1     -14.866   4.883   7.384  1.00  0.00
ATOM     13 3HG1 VAL     1     -13.098   5.085   7.333  1.00  0.00
ATOM     14 1HG2 VAL     1     -12.623   1.298   7.142  1.00  0.00
ATOM     15 2HG2 VAL     1     -14.039   1.594   6.104  1.00  0.00
ATOM     16 3HG2 VAL     1     -12.575   2.588   5.917  1.00  0.00

在上面的例子中

  • 所有氫原子都出現在殘基的其他原子之後

  • 9號原子HA與2號原子CA相連. 這兩個原子的遠程標識符A相同.

  • 有三個氫原子與CG1相連. 它們具有相同的遠程標識符, 分支標識符, 但13列中含有區分數字, 因此每個氫原子都具有唯一的名稱.

  • 當只有一個氫原子與給定原子相連時, 不需要使用數字作為氫原子名稱的前綴.

氨基酸殘基與核酸縮寫

氨基酸殘基和核酸的標準IUB/IUPAC縮寫
單字母三字母中文 單字母三字母中文 單字母三字母中文 單字母中文
A Ala 丙氨酸 I Ile 異亮氨酸 R Arg 精氨酸 A 腺苷
C Cys 半胱氨酸 K Lys 賴氨酸 S Ser 絲氨酸 C 胞苷
D Asp 天門冬氨酸 L Leu 亮氨酸 T Thr 蘇氨酸 G 鳥苷
E Glu 谷氨酸 M Met 蛋氨酸 V Val 纈氨酸 I 肌苷
F Phe 苯丙氨酸 N Asn 天門冬酰胺 W Trp 色氨酸 T 胸苷
G Gly 甘氨酸 P Pro 脯氨酸 Y Tyr 酪氨酸 U 尿苷
H His 組氨酸 Q Gln 谷氨酰胺 X Unk 未指定或未知氨基酸 X 未指定或未知核酸

一些概念說明

溫度因子 B-factor

The B-factor (or temperature factor) is an indicator of thermal motion about an atom. However, it should be pointed out that the B-factor is a mix of real thermal displacement, static disorder (multiple but defined conformations) and dynamic disorder (no defined conformation), and all the overlap between these definitions.

B因子也叫溫度因子, 一般在晶體測定的pdb中都有, 是晶體學中的一個重要參數. 晶體學中結構因子可以表達為坐標x, y, z與Bj因子的函數. 物理學上對於Bj的表征有很多理論模型, 最成功的是由Debye和Waller提出的. 將固體內振蕩的量子本質計算在內後, 他們將Bj表征為絕對溫度T和其他各基本參數的函數. 由此可見, Bj與原子的質量等基本性質有關, 也與實驗溫度有關.

B因子體現了晶體中原子電子密度的”模糊度”(diffusion), 這個”模糊度”實際上反映了蛋白質分子在晶體中的構象狀態. B因子越高, “模糊度”越大, 相應部位的構象就越不穩定. 在晶體學數據中, B因子一般是以原子為單位給出的, 我們可以換算成相應殘基的B因子, 從而分析殘基的構象穩定性. 另外, 計算出的B因子中實際上包含了實驗中的很多因素, 如晶體結構測定的實驗誤差等, 精度高的晶體結構數據提供較可靠的B因子數據.

此外, 另外溫度因子還和占有率相關, 如果本身結構解析過程中占有率低, 也會導致溫度因子升高. 這個時候只能說是X-ray收集數據的時候這個地方的信號比較弱, 而和結構本身的構象如何, 沒有關系.

PDB中的晶體學數據是以原子為單位的, 它所給出的B因子是相對於每個原子的. 統計中, 首先將原子的B因子換算成殘基的B因子, 即把每個殘基所有原子的B因子取平均值. 由於蛋白質分子表面殘基的運動性比較大, B因子相對較高, 所以在統計中除去了這部分殘基, 具體方法是將數據中B因子高的殘基去掉10%, 對剩下的殘基進行統計, 計算平均值.

溫度因子做圖後可以體現蛋白某些部位的活動性和柔韌性. 它也可以由計算rmsf得到. 在GROMACS中, g_rmsf可以將rmsf換算成B因子輸出至pdb. 與晶體測定結構中的B因子相比較, 如果呈較好的相關, 可以說明模擬的過程是正常, 合理的. 但pdb中的B因子都是原子的, 一般是比較殘基間的, 可以轉換一下.


來源:https://jerkwin.github.io/2015/06/05/PDB%E6%96%87%E4%BB%B6%E6%A0%BC%E5%BC%8F%E8%AF%B4%E6%98%8E/

[轉載]PDB數據格式詳解