一、前言
药物和疾病英文名
- 大黄英文名:Dahuang
- 食管癌英文名:esophageal cancer
网站地址
- TCMSP网站地址:https://old.tcmsp-e.com/tcmsp.php
- GeneCards网站首页:https://www.genecards.org/
- OMIM网站首页:https://www.omim.org/(没什么用,建议直接去到OMIM geneMap页面)
- OMIM geneMap页面:https://www.omim.org/search/advanced/geneMap
- SwissADME网站:http://www.swissadme.ch/index.php
- SwissTarget网站:http://swisstargetprediction.ch/
- PharmMapper网站:https://lilab-ecust.cn/pharmmapper/index.html
- Pubchem网站:https://pubchem.ncbi.nlm.nih.gov/
本文复现的论文步骤(重要)
本文复现的步骤是筛选疾病靶点
二、GeneCards数据库筛选疾病作用靶点
网站首页和搜索
进入GeneCards网站首页后,搜索食管癌英文esophageal cancer,随后点击搜索。
搜索结果下载
点击Export
后点击Export to Excel
(这个的下载会有点慢,可以先做下一步DisGeNET)
搜索结果初筛
Genecards下载的文件名也默认都是GeneCards-SearchResults.csv
,我们打开下载的文件,如下:
然后我们需要选中表头,然后点击“筛选”下的“筛选”。
之后就可以看到表头的每一个都出现了筛选图标。
随后我们需要将表格列宽调整到合适的列宽。选中表头后,按住Alt
键,然后依次按下H(表示“主页”选项卡)、O(表示“格式”菜单)、I(表示“自动调整列宽”)。
根据原文步骤相关性评分(Relevance score) ≥ 1.0
,我们点击Relevance score的筛选图标后选择“数字筛选”,而后出现如下面板,输入相关信息点击确认后可以看到表格的最下方显示我们从7548条中筛选出了7227条,之后将这些数据复制到新的excel文件中。
三、OMIM数据库筛选疾病作用靶点
网站搜索
直接来到OMIM geneMap页面,搜索食管癌英文esophageal cancer,随后点击搜索。
或者你可以通过首页来到gene Map页面
下载搜索结果
如下下载搜索结果
搜索结果处理
在OMIM下载的数据的文件名称都是OMIM-Entry-Retrieval.xlsx
我们点开来看,如下,我们只需要关注或者说,提取Gene/Locus
这一列即可。
excel
相关快捷键:按住键盘的SHIFT
+CTRL
不放开,然后按下下箭头
即可选中当前列的所有数据,再按ctrl + C
复制。
最终数据的格式是:将逗号和前后空格都删除,并去重,一个基因名就占一行。
你可以选择如下两种方法之一:
excel处理
选中所有数据后,选择【分列】。然后选中【分隔符号】【逗号+空格】【常规】【完成】,可以看到数据变成类似如下格式:
分别选中每列数据,选择【删除重复值】,在这里我们是为了删除空格。
当一列数据的右边存在数据时,可能冒出弹窗如下:
选择【以当前选定区域排序】即可。
然后将所有列全部移到一列下,则得到我们想要的格式的表格文件了。
注意最后还是要遍历一遍整个表格,有什么小问题手动操作一下。
代码处理
我写了一个python脚本,代码如下:
ps:这只是一个片段代码,如果直接跑是跑不出来结果的(
def get_gene_from_OMIM(OMIM_file_name):
# 读取Excel文件
df = pd.read_excel(OMIM_file_name, skiprows=4) # 跳过前4行非数据行
# 提取"Gene/Locus"列
gene_locus_column = df['Gene/Locus'].dropna()
# 创建一个空列表来存储处理后的基因名
cleaned_genes = []
# 遍历"Gene/Locus"列
for item in gene_locus_column:
# 检查是否为字符串类型
if isinstance(item, str):
# 去除双引号并去除两端空格
item = item.replace('"', '').strip()
# 分割基因名并去除每个基因名两端的空格
genes = [gene.strip() for gene in item.split(',')]
# 添加到列表中
cleaned_genes.extend(genes)
gene_df = pd.DataFrame(cleaned_genes, columns=['Gene/Locus'])
print("omim_df 's row is: ", len(gene_df))
return gene_df
四、TTD数据库筛选疾病作用靶点
网站首页如下:
在Search for Targets
中输入疾病名称后点击搜索。
这个数据库数据量较少,搜出来一般只有几条到几十条,如下:
而且需要自己复制靶点基因名,即方框中的内容。