Biocheming 发布的文章

WATVina支持输入包含多个配体的单一pdbqt文件

作者: Biocheming
时间: 2023-12-29
分类: 默认分类
评论

PDBQT，刚想提笔说是历史遗留，想找点资料，却又想说是历史的遗憾。

PDBQT在PDB的基础上多了Q和T，Q是partial charge的通用符号，T是atom type的代表。除此以外对于小分子，在PDB的基础上还扩展了分子树的定义，于是出现了ROOT和BRANCH的定义。在这个格式之前，还能找到PDBQ和PDBQS，前者未曾出现原子类型，后者则添加了溶剂化相关的参数。相比较千变万化的小分子结构，蛋白质结构及原子类型相对固定，但无论如何，将小分子做成PDBQT格式，是缺失了众多信息的，如键和键级，于是疲于格式的转换，从sdf到pdbqt再回到sdf等，这种复杂的转换，一直持续了30多年，而且这种工作未曾减轻，而一直存在。

Autodock和Autodock Vina太流行了。

以至于我们搜索分子对接教程，从2010年之前盛行Autodock，到今天盛行Autodock Vina，pdbqt未曾消失，也未曾进步。我们今天想面对的是含有多分子或者多构象的同一个pdbqt文件。
格式如下：

MODEL 1
第一个分子/构象的pdbqt内容
ENDMDL
MODEL 2
第二个分子/构象的pdbqt内容
ENDMDL
...
MODEL N
第N个分子/构象的pdbqt内容
ENDMDL

如果想抽取其中的第n个构象的坐标，可以定义一个 pdbqtn的命令函数，如果觉得能增效，就写到~/.bashrc中常用吧。

#usage: pdbqtn 3 input.pdbqt >input_3.pdbqt
function pdbqtn {
 sed -n "/MODEL ${1}\>/,/ENDMDL/p" ${2} |egrep -v "MODEL|ENDMDL"
}

当然也可以用Autodock Vina随身携带的命令vina_split进行拆解

vina_split --input input.pdbqt

vina_split命令的结果，或者说成果是丰富的，因为生成了更多的文件。我们都不知道是不是该赞美：你好聪明哦。

WATVina既然是Vina的衍生，天生支持pdbqt，如果有一天WATVina不支持pdbqt了，它的名字也会演化，变成watdock或者wdock或者wd... ...
断舍离的生活，从精简文件的数量开始，既然可以用MODEL/ENDMDL来区分分子或者构象，WATVina自然也就得去支持它，可以用于对多个分子/构象打分，对接，优化，放松一下(relax_only)。

#对接
watvina -c vina.config -r pro.pdbqt --multiligs_pdbqt input.pdbqt 
#打分
watvina -c vina.config -r pro.pdbqt --multiligs_pdbqt input.pdbqt --score_only
#优化
watvina -c vina.config -r pro.pdbqt --multiligs_pdbqt input.pdbqt --local_only
#放松一下，但平移旋转，可旋转键的旋转在此案例中没有过火(0-1之间代表搜索范围不同程度)，
watvina -c vina.config -r pro.pdbqt --multiligs_pdbqt input.pdbqt --relax_only --tramplitude 0.1 --toramplitude 0.1

多个分子顺序对接，无需重新读取受体，也就无需重新计算所有的原子类型的能量格点，节约了计算时间，哪怕每次节约1-3秒，也是一去不复返的时间和成本。

输出文件名为“运算序号_输入文件名称”，且打分直接打印到屏幕。
在这片漆黑的屏幕下，是第五生产元素数据：

LIGAND: [1]（第一个分子的打分）
Using random seed: -1129898720
Num of confs to search: 2652672
+-----------+-------------+------------------------------------------------+--------+
| summary   |   RMSD_TO   |               Score contribution               | E_GRID |
+---+-------+------+------+-------+-------+-------+-------+-------+--------+--------+
|No.| score | best | init |  VDW  | HBond | Elect | Desol | Intra | Torsion|  TMPH4 |
+---+-------+------+------+-------+-------+-------+-------+-------+--------+--------+
!  1  -4.55   0.00   1.94  -24.55   -1.20   -1.59    0.00    0.92    0.09    0.00
!  2  -4.44   1.54   1.34  -27.23   -1.28   -0.35    0.00    1.72    0.01    0.00
!  3  -4.28   2.83   2.38  -29.22   -0.03   -1.46    0.00    0.83    0.08    0.00
!  4  -4.03   2.24   2.22  -26.54   -0.30   -1.45    0.00    0.80    0.08    0.00
!  5  -3.91   3.62   2.83  -24.81   -0.47   -1.64    0.00    1.34    0.09    0.00
!  6  -3.73   2.47   3.47  -26.56   -1.39   -0.98    0.00    2.19    0.08    0.00
!  7  -3.62   2.13   2.75  -26.56   -0.05   -1.62    0.00    1.04    0.02    0.00
!  8  -3.29   1.76   1.75  -22.65   -0.94   -0.95    0.00    1.58    0.08    0.00
!  9  -3.27   1.76   1.71  -22.90   -0.59   -1.70    0.00    1.26    0.03    0.00
! 10  -3.27   2.55   3.37  -21.45   -0.50   -1.40    0.00    1.64    0.01    0.00
LIGAND: [2]（第二个分子的打分）
Using random seed: -1127312280
Num of confs to search: 2652672
+-----------+-------------+------------------------------------------------+--------+
| summary   |   RMSD_TO   |               Score contribution               | E_GRID |
+---+-------+------+------+-------+-------+-------+-------+-------+--------+--------+
|No.| score | best | init |  VDW  | HBond | Elect | Desol | Intra | Torsion|  TMPH4 |
+---+-------+------+------+-------+-------+-------+-------+-------+--------+--------+
!  1  -4.49   0.00   2.51  -24.59   -1.20   -1.49    0.00    0.84    0.15    0.00
!  2  -4.33   1.39   2.92  -26.96   -1.33   -0.42    0.00    1.75    0.08    0.00
!  3  -4.18   2.50   3.75  -28.90   -0.07   -1.37    0.00    0.75    0.15    0.00
!  4  -3.90   3.48   5.20  -25.43   -0.41   -1.66    0.00    1.33    0.09    0.00
!  5  -3.41   2.20   1.65  -26.23   -0.40   -2.14    0.00    2.01    0.00    0.00
!  6  -3.28   2.64   4.26  -23.48   -0.23   -1.57    0.00    1.12    0.02    0.00
!  7  -3.28   2.01   2.73  -24.97   -0.12   -2.03    0.00    1.27    0.08    0.00
!  8  -3.25   1.93   2.96  -24.53   -0.54   -1.57    0.00    1.27    0.09    0.00
!  9  -3.08   2.52   3.14  -21.97   -0.49    0.07    0.00    0.76    0.15    0.00
! 10  -2.76   5.11   5.92  -25.67   -0.00   -0.44    0.00    1.54    0.01    0.00

当然WATVina也支持从文件夹中获取分子：

watvina -c vina.config -r pro.pdbqt --ligands_dir ligs

如果不想看到密密麻麻的文件，就不用关注ligs文件夹里到底具体是啥了。

Ledock_omega 通过显性水提高分子对接准确性

作者: Biocheming
时间: 2021-05-15
分类: 默认分类
评论

从学术免费版开放以来，ledock已被越来越多的学术用户重视，而学术专业版ledock_go对其准确性和速度进行了更大的调整，并增加了sdf格式的支持，新冠疫情期间，为提升其对有核酸参与的靶点的对接，进行了进一步调整，使得其研究对象进行了拓宽。ledock本身采用的是模拟退火和遗传算法进行构象搜索，ledock_go则采用了模拟退火和最陡下降的算法，提升了其速度，也适合在单cpu和单核使用。最近ledock进一步改进提出了ledock_omega版本，在具有显水信息的帮助下进一步提升其对接准确性，建议对结构和药物设计有一定经验的用户使用。

ledock_omega版本需要水分子的信息，因此第一步是预测水分子的位置，以及替代水分子的能量，氢键贡献等信息，这里采用的是lesite程序，受体文件的输入格式仍然为charmm27兼容的pdb文件，可以采用lepro生成，也可以采用其他程序生成，只要原子类型兼容该版本的力场即可。需要注意的是，无论是ledock和lesite，其氢键的计算对氢原子的构象比较敏感，建议在使用之前对H原子进行优化，甚至有些情况需要对His，Gln，Asn的侧链进行flip操作。这里介绍一般的操作流程，但并不代表以上的建议不需要。

1.下载pdb

wget https://files.rcsb.org/download/1n2v.pdb

2.采用lepro生成charmm27兼容的pro.pdb文件，以及分子对接需要的参数文件dock.in文件

lepro 1n2v.pdb -metal

3.采用lesite预测pro.pdb中口袋（根据dock.in中的口袋定义）的水分子的位置和能量信息,生成waters.pdb文件

lesite dock.in

4.这里不介绍ledock的具体教程，小分子sdf/mol2文件自行准备，采用ledock_omega进行对接

ledock_omega dock.in -water

从上面的结果来看，如果不给出蛋白上结合水的信息，小分子的对接位置偏离晶体结构中的位置，这大概是众多分子对接软件都会有的问题，由于采用显水，并且参考其置换水的能量，可以看出ledock_omega给出的结果与晶体结构中的位置是一致的。水分子在分子识别中的作用在许多研究论文中都有阐述和介绍，然而这一信息并不是那么容易获得，即使是watermap也难免有不理想的情况，对于lesite以及ledock_omega的使用，也要适当地参考水分子，例如对于锚定位点的水分子（金属离子结合的水，关键位点氢键形成的点），这里并不建议保留，仍然需要研究者对于研究对象有较深的理解。但lesite和ledock_omega做到了易用性和准确性的平衡。水能载舟，亦能覆舟。分子对接这一基本的工具如何用好水，这里给出了一个典型的案例。Ledock对于分子对接方面的思想也一直在改进，帮助研究者更好地设计药物！

如何向pdb文件中添加序列信息

作者: Biocheming
时间: 2021-05-08
分类: 化学信息
评论

通常情况下RCSB PDB数据库中下载的pdb文件里都含有完整的序列信息
Chimera软件打开后也会发现缺失的信息用红色的框标出，大多数情况下缺失一些loop，这时候可以用Chimera补全（调用的Modeller）。然而我们也有时候仅仅有坐标信息，pdb中不带有全部序列信息，直接在tools sequence中加载外部的fasta序列，并进行序列和结构关联即可。这里介绍一个比较麻烦的事情是将序列信息写入pdb文件。根据规定，序列信息写在SEQRES起始的行中，其格式如下：

#from pdb database
Record Format
COLUMNS        DATA TYPE      FIELD        DEFINITION
------------------------------------------------------------------------------
1 -  6         Record name    "SEQRES"     起始行
8 - 10         Integer        serNum       每条链从1开始的数字，以下每行加1.
12             Character      chainID      属于哪条链
14 - 17        Integer        numRes       该条链有多少氨基酸.
20 - 22        Residue name   resName      残基名字.
24 - 26        Residue name   resName      残基名字.
28 - 30        Residue name   resName      残基名字.
32 - 34        Residue name   resName      残基名字.
36 - 38        Residue name   resName      残基名字.
40 - 42        Residue name   resName      残基名字.
44 - 46        Residue name   resName      残基名字.
48 - 50        Residue name   resName      残基名字.
52 - 54        Residue name   resName      残基名字.
56 - 58        Residue name   resName      残基名字.
60 - 62        Residue name   resName      残基名字.
64 - 66        Residue name   resName      残基名字.
68 - 70        Residue name   resName      残基名字，每行记录13个残基名字.

例如泛素1ubq.pdb文件中的序列信息:

#from 1ubq.pdb
SEQRES   1 A   76  MET GLN ILE PHE VAL LYS THR LEU THR GLY LYS THR ILE          
SEQRES   2 A   76  THR LEU GLU VAL GLU PRO SER ASP THR ILE GLU ASN VAL          
SEQRES   3 A   76  LYS ALA LYS ILE GLN ASP LYS GLU GLY ILE PRO PRO ASP          
SEQRES   4 A   76  GLN GLN ARG LEU ILE PHE ALA GLY LYS GLN LEU GLU ASP          
SEQRES   5 A   76  GLY ARG THR LEU SER ASP TYR ASN ILE GLN LYS GLU SER          
SEQRES   6 A   76  THR LEU HIS LEU VAL LEU ARG LEU ARG GLY GLY

泛素1-76的序列信息为:

#from Uniprot
>sp|P0CG48|1-76
MQIFVKTLTGKTITLEVEPSDTIENVKAKIQDKEGIPPDQQRLIFAGKQLEDGRTLSDYNIQKESTLHLVLRLRGG

为了实现以上pdb文件中的信息，首先将氨基酸的单字母缩写改为3字母缩写，可以自己写个字典对应，也可以利用网站来做：https://www.bioinformatics.org/sms2/one_to_three.html 保存为一个1to3.seq的文件.

#3 letter sequence
MetGlnIlePheValLysThrLeuThrGlyLysThrIleThrLeuGluValGluProSer
AspThrIleGluAsnValLysAlaLysIleGlnAspLysGluGlyIleProProAspGln
GlnArgLeuIlePheAlaGlyLysGlnLeuGluAspGlyArgThrLeuSerAspTyrAsn
IleGlnLysGluSerThrLeuHisLeuValLeuArgLeuArgGlyGly

可以先去掉换行符,然而再每39个字符后面加换行符，每再每3个字符加一个空格，最后将小写字母转化为大写,注意末尾是需要一个换行符的，并保存到3.fas文件中:

#bash
cat 1to3.seq|tr -d "\n"|sed 's/.\{39\}/&\n/g'|sed 's/.\{3\}/& /g'|sed -e '$a\'|tr a-z A-Z >3.fas3

然后生成SEQRES为首的信息：

#bash
seqlen=76
n=1;while read line;do printf "SEQRES %3d A %4d  $line\n" $n $seqlen;let n=$n+1;done<3.fas

最后得到跟以上pdb中一样的信息

#result
SEQRES   1 A   76  MET GLN ILE PHE VAL LYS THR LEU THR GLY LYS THR ILE
SEQRES   2 A   76  THR LEU GLU VAL GLU PRO SER ASP THR ILE GLU ASN VAL
SEQRES   3 A   76  LYS ALA LYS ILE GLN ASP LYS GLU GLY ILE PRO PRO ASP
SEQRES   4 A   76  GLN GLN ARG LEU ILE PHE ALA GLY LYS GLN LEU GLU ASP
SEQRES   5 A   76  GLY ARG THR LEU SER ASP TYR ASN ILE GLN LYS GLU SER
SEQRES   6 A   76  THR LEU HIS LEU VAL LEU ARG LEU ARG GLY GLY

建站伊始

作者: Biocheming
时间: 2021-02-28
分类: 默认分类
评论

本站刚刚建立，希望内容越来越丰富！