2021年5月

​ 从学术免费版开放以来,ledock已被越来越多的学术用户重视,而学术专业版ledock_go对其准确性和速度进行了更大的调整,并增加了sdf格式的支持,新冠疫情期间,为提升其对有核酸参与的靶点的对接,进行了进一步调整,使得其研究对象进行了拓宽。ledock本身采用的是模拟退火和遗传算法进行构象搜索,ledock_go则采用了模拟退火和最陡下降的算法,提升了其速度,也适合在单cpu和单核使用。最近ledock进一步改进提出了ledock_omega版本,在具有显水信息的帮助下进一步提升其对接准确性,建议对结构和药物设计有一定经验的用户使用。

​ ledock_omega版本需要水分子的信息,因此第一步是预测水分子的位置,以及替代水分子的能量,氢键贡献等信息,这里采用的是lesite程序,受体文件的输入格式仍然为charmm27兼容的pdb文件,可以采用lepro生成,也可以采用其他程序生成,只要原子类型兼容该版本的力场即可。需要注意的是,无论是ledock和lesite,其氢键的计算对氢原子的构象比较敏感,建议在使用之前对H原子进行优化,甚至有些情况需要对His,Gln,Asn的侧链进行flip操作。这里介绍一般的操作流程,但并不代表以上的建议不需要。
compare.png

1.下载pdb

wget https://files.rcsb.org/download/1n2v.pdb

2.采用lepro生成charmm27兼容的pro.pdb文件,以及分子对接需要的参数文件dock.in文件

lepro 1n2v.pdb -metal

3.采用lesite预测pro.pdb中口袋(根据dock.in中的口袋定义)的水分子的位置和能量信息,生成waters.pdb文件

lesite dock.in

4.这里不介绍ledock的具体教程,小分子sdf/mol2文件自行准备,采用ledock_omega进行对接

ledock_omega dock.in -water

从上面的结果来看,如果不给出蛋白上结合水的信息,小分子的对接位置偏离晶体结构中的位置,这大概是众多分子对接软件都会有的问题,由于采用显水,并且参考其置换水的能量,可以看出ledock_omega给出的结果与晶体结构中的位置是一致的。水分子在分子识别中的作用在许多研究论文中都有阐述和介绍,然而这一信息并不是那么容易获得,即使是watermap也难免有不理想的情况,对于lesite以及ledock_omega的使用,也要适当地参考水分子,例如对于锚定位点的水分子(金属离子结合的水,关键位点氢键形成的点),这里并不建议保留,仍然需要研究者对于研究对象有较深的理解。但lesite和ledock_omega做到了易用性和准确性的平衡。水能载舟,亦能覆舟。分子对接这一基本的工具如何用好水,这里给出了一个典型的案例。Ledock对于分子对接方面的思想也一直在改进,帮助研究者更好地设计药物!

通常情况下RCSB PDB数据库中下载的pdb文件里都含有完整的序列信息
Chimera软件打开后也会发现缺失的信息用红色的框标出,大多数情况下缺失一些loop,这时候可以用Chimera补全(调用的Modeller)。然而我们也有时候仅仅有坐标信息,pdb中不带有全部序列信息,直接在tools sequence中加载外部的fasta序列,并进行序列和结构关联即可。这里介绍一个比较麻烦的事情是将序列信息写入pdb文件。根据规定,序列信息写在SEQRES起始的行中,其格式如下:

#from pdb database
Record Format
COLUMNS        DATA TYPE      FIELD        DEFINITION
------------------------------------------------------------------------------
1 -  6         Record name    "SEQRES"     起始行
8 - 10         Integer        serNum       每条链从1开始的数字,以下每行加1.
12             Character      chainID      属于哪条链
14 - 17        Integer        numRes       该条链有多少氨基酸.
20 - 22        Residue name   resName      残基名字.
24 - 26        Residue name   resName      残基名字.
28 - 30        Residue name   resName      残基名字.
32 - 34        Residue name   resName      残基名字.
36 - 38        Residue name   resName      残基名字.
40 - 42        Residue name   resName      残基名字.
44 - 46        Residue name   resName      残基名字.
48 - 50        Residue name   resName      残基名字.
52 - 54        Residue name   resName      残基名字.
56 - 58        Residue name   resName      残基名字.
60 - 62        Residue name   resName      残基名字.
64 - 66        Residue name   resName      残基名字.
68 - 70        Residue name   resName      残基名字,每行记录13个残基名字.

例如泛素1ubq.pdb文件中的序列信息:

#from 1ubq.pdb
SEQRES   1 A   76  MET GLN ILE PHE VAL LYS THR LEU THR GLY LYS THR ILE          
SEQRES   2 A   76  THR LEU GLU VAL GLU PRO SER ASP THR ILE GLU ASN VAL          
SEQRES   3 A   76  LYS ALA LYS ILE GLN ASP LYS GLU GLY ILE PRO PRO ASP          
SEQRES   4 A   76  GLN GLN ARG LEU ILE PHE ALA GLY LYS GLN LEU GLU ASP          
SEQRES   5 A   76  GLY ARG THR LEU SER ASP TYR ASN ILE GLN LYS GLU SER          
SEQRES   6 A   76  THR LEU HIS LEU VAL LEU ARG LEU ARG GLY GLY

泛素1-76的序列信息为:

#from Uniprot
>sp|P0CG48|1-76
MQIFVKTLTGKTITLEVEPSDTIENVKAKIQDKEGIPPDQQRLIFAGKQLEDGRTLSDYNIQKESTLHLVLRLRGG

为了实现以上pdb文件中的信息,首先将氨基酸的单字母缩写改为3字母缩写,可以自己写个字典对应,也可以利用网站来做:https://www.bioinformatics.org/sms2/one_to_three.html 保存为一个1to3.seq的文件.

#3 letter sequence
MetGlnIlePheValLysThrLeuThrGlyLysThrIleThrLeuGluValGluProSer
AspThrIleGluAsnValLysAlaLysIleGlnAspLysGluGlyIleProProAspGln
GlnArgLeuIlePheAlaGlyLysGlnLeuGluAspGlyArgThrLeuSerAspTyrAsn
IleGlnLysGluSerThrLeuHisLeuValLeuArgLeuArgGlyGly

可以先去掉换行符,然而再每39个字符后面加换行符,每再每3个字符加一个空格,最后将小写字母转化为大写,注意末尾是需要一个换行符的,并保存到3.fas文件中:

#bash
cat 1to3.seq|tr -d "\n"|sed 's/.\{39\}/&\n/g'|sed 's/.\{3\}/& /g'|sed -e '$a\'|tr a-z A-Z >3.fas3

然后生成SEQRES为首的信息:

#bash
seqlen=76
n=1;while read line;do printf "SEQRES %3d A %4d  $line\n" $n $seqlen;let n=$n+1;done<3.fas

最后得到跟以上pdb中一样的信息

#result
SEQRES   1 A   76  MET GLN ILE PHE VAL LYS THR LEU THR GLY LYS THR ILE
SEQRES   2 A   76  THR LEU GLU VAL GLU PRO SER ASP THR ILE GLU ASN VAL
SEQRES   3 A   76  LYS ALA LYS ILE GLN ASP LYS GLU GLY ILE PRO PRO ASP
SEQRES   4 A   76  GLN GLN ARG LEU ILE PHE ALA GLY LYS GLN LEU GLU ASP
SEQRES   5 A   76  GLY ARG THR LEU SER ASP TYR ASN ILE GLN LYS GLU SER
SEQRES   6 A   76  THR LEU HIS LEU VAL LEU ARG LEU ARG GLY GLY