在Jupyter-lab中使用RDKit画分子2D图
在做完分子对接后,想看看筛选后的分子的结构。因此想利用Jupyter-lab来画分子的2D图。
1. 安装Jupyter-lab与RDKit
- 系统:Win11
- 已安装conda
RDKit 是一个功能强大、灵活易用的化学信息学工具包,广泛应用于药物发现、化学生物学、材料科学等领域。RDKit 提供了丰富的化学信息可视化功能,用户可以通过RDKit 生成分子结构图、化学反应图、药物分子的三维结构等,方便进行结果展示和分析。
1.1 安装RDKit
#创建并安装RDKit的conda环境
conda create -c conda-forge -n my-rdkit-env rdkit
#激活RDKit的虚拟环境
conda activate my-rdkit-env
不知道为啥,这一步很慢,不知道是不是conda channel
的问题。但总归是等了一段时间就成功了。参考自官方教程。
1.2 安装Jupyter-lab
Jupyter Lab是Jupyter Notebook的升级版本,可以一个窗口中同时打开多个 Notebook、代码编辑器、终端、文件浏览器等,更方便地进行多任务处理和工作流程管理。Jupyter Lab集成了丰富的文档编辑器,包括 Markdown、LaTeX 等,用户可以方便地编写和编辑文档,同时可以通过插件支持更多的文档格式和扩展功能。最主要的是Jupyter Lab提供了丰富的可视化功能,用户可以通过插件支持各种图表库和数据可视化工具,实现更丰富和复杂的数据分析和可视化。
使用pip安装
pip install jupyterlab
参考自官方安装教程。
2. 小分子(SDF格式)作图
2.1 画单个SDF格式的分子图
以他莫昔芬(Tamoxifen)小分子为例,首先从PubChem网站下载该分子的三维结构的SDF结构文件。
如法炮制,再下载其余三个小分子:阿司匹林(Aspirin),莫洛昔康(Molnupiravir),瑞德西韦(Remdesivir)。将四个分子保存在sdf/
文件夹中。
在CMD中跳转至cd sdf/
文件夹路径下,打开Jupyter-lab
。
from rdkit import Chem
from rdkit.Chem import AllChem
from rdkit.Chem import Draw
#读取sdf文件
m1 = Chem.MolFromMolFile('sdf/Conformer3D_COMPOUND_CID_121304016.sdf')
#通过调用AllChem.Compute2DCoords(m1)计算出m1分子相应的二维坐标,并将其更新到分子对象中
AllChem.Compute2DCoords(m1)
#判断m1分子是否读取成功
m1 is None
#Draw.MolToImage()函数画出分子的2D图像
Draw.MolToImage(m1)
运行后结果如下:
- 读取单个的SDF文件可以用
Chem.MolFromMolFile()
,尽管这个主要用于读取MOL格式的分子文件。 - 读取一个存有多个分子集的SDF文件,主要用
Chem.SDMolSupplier()
。 Chem.MolFromMolFile()
无法读取PDB格式的分子文件,因此小分子文件读取主推SDF格式。
2.2 画多个SDF格式的分子图
读取sdf/
文件夹下的多个SDF分子,且将分子的2D图放在一张图中。
import os
import glob
# 指定小分子的存储路径
path = r'sdf/'
# 使用os.path.join构建路径,获取所有.sdf文件的路径列表
sdf_files = glob.glob(os.path.join(path, '*.sdf'))
# 将所有.sdf文件保存在一个列表ms中
ms = []
for sdf_file in sdf_files:
m = Chem.MolFromMolFile(sdf_file)
ms.append(m)
#计算出列表中分子的二维坐标,并将其更新到分子对象中
for m in ms: tmp=AllChem.Compute2DCoords(m)
# MolsToGridImage()函数可以将4个分子画在一张图上
# molsPerRow=4参数设置4个小分子并排成一列
# subImgSize=(500,500)设置每个小分子的图像尺寸为500x500大小
# legends=x.GetProp("_Name")获取小分子的名称作为图例
img=Draw.MolsToGridImage(ms[:4],molsPerRow=4,subImgSize=(500,500),legends=[x.GetProp("_Name") for x in ms[:4]], returnPNG=False)
# 保存分子图像为PNG格式文件在sdf/文件夹下
img.save('./Mol_4.png')
img
结果如下所示:
在Draw.MolsToGridImage
函数中设置returnPNG=False
参数,主要用于在保存画出的图片时img.save()
的报错:
AttributeError Traceback (most recent call last) Cell In[23], line 20
17 for m in ms: tmp=AllChem.Compute2DCoords(m)
19 img=Draw.MolsToGridImage(ms[:4],molsPerRow=4,subImgSize=(500,500),legends=[x.GetProp(“_Name”)
for x in ms[:4]])
—> 20 img.save(‘./Mol12_20.png’)
21 imgAttributeError: ‘Image’ object has no attribute ‘save’