P450Rdb: A manually curated database of reactions catalyzed by cytochrome P450 enzymes
P450Rdb: 一个人工整理的细胞色素P450酶催化反应数据库
http://www.cellknowledge.com.cn/p450rdb/
还有一篇类似CYP450综述-20年-地表最强系列-文献精读-4
要点:
-
P450Rdb 汇编了一个包含超过1600种由P450酶催化的反应的综合目录。
-
P450Rdb 收集了来自200多个物种的590多种P450酶。
-
P450Rdb 根据化学反应类型和反应位点系统地组织了所有反应。
-
P450Rdb 提供了一个关于P450酶及其相关反应的用户友好界面。
-
P450Rdb 有助于合成生物学、药理学和化学工业的研究。
摘要
引言
细胞色素P450酶(P450s)被公认为世界上最具多样性的催化剂,在所有生物界的众多生物代谢和生物合成过程中发挥着至关重要的作用。尽管数据库中有大量的P450基因(超过300,000个),但只有少部分(不到0.2%)经过功能表征。
目标
为了提供一个包含丰富P450酶及其对应反应信息的便捷平台,我们介绍了P450Rdb数据库,这是一个人工整理的资源,汇编了文献支持的由P450酶催化的反应。
方法
所有P450酶和反应均通过文献和已知数据库人工整理。随后,将P450反应根据其化学反应类型和位点进行组织和分类。网站使用HTML和PHP语言开发,数据存储使用MySQL服务器。
结果
当前版本的P450Rdb目录包含超过1600种反应,涉及200多种物种的590多种P450酶。此外,它提供了一个用户友好界面,包含全面的信息,使用户能够轻松查询、浏览和分析P450酶及其对应的反应。P450Rdb可免费访问,网址为:Home。
结论
我们相信,这个数据库将显著促进P450酶的结构和功能研究,从而推动天然产物合成、药物工程、生物技术应用、农业和作物改良以及化学工业领域的进步。
关键词
细胞色素P450酶 反应 底物 产物 数据库
引言
细胞色素P450(CYP,P450s)是一类使用血红素作为辅因子以催化单加氧酶反应的超家族酶。它们存在于所有生物界,包括植物、动物、真菌、原生生物、细菌、古菌,甚至病毒中[1],[2]。在这些酶中,植物P450s相比于动物和微生物已发生了显著的多样化[3],[4]。它们在植物界内表现出广泛的丰度和功能多样性,在天然产物的生物合成途径中起着关键作用,为植物的可塑性提供了分子基础[3],[5]。
累积的研究表明,P450s具有显著的催化能力,能够促进超过20种氧化还原反应类型,包括羟基化、亚砜化、氧化、环氧化、脱羧和环化[6]。这些反应涉及各种底物和产物,包括萜类、生物碱、脂肪酸、类固醇、抗生素和外来物质,使P450s成为自然界最具多样性的生物催化剂[7],[8],[9]。在体内,P450s在细胞代谢、天然产物的生物合成与降解、药物和环境污染物的代谢以及植物的化学防御中发挥着重要作用[3],[10],[11],[12],[13]。由于其多样的催化能力,P450s在合成生物学、生物技术和农业应用、药物、环境修复和环境监测以及化学工业中引起了极大的兴趣[14],[15],[16],[17],[18],[19],[20],[21]。
近年来,“组学”技术和合成生物学的进步对P450s的识别和功能解释作出了重大贡献[22],[23],[24]。然而,某些挑战仍然存在,如晶体结构的识别、异源活性的增强和酶工程[25],[26],[27],[28]。此外,虽然已经开发了许多数据库来记录、管理和分析大量的P450s数据(表S1),如细胞色素P450主页[29]、人类细胞色素P450(CYP)等位基因命名委员会主页[30]、P450含有系统目录[31]、拟南芥P450数据库[32]、SuperCYP数据库[33]、昆虫P450网站(http://p450.antibes.inra.fr/)、PROMISE中的P450(http://metallo.scripps.edu/PROMISE/P450.html)、真菌细胞色素P450数据库[34]、细胞色素P450工程数据库[35]、PCPD数据库[36]和植物细胞色素P450数据库[3],一些综述文章也总结了与P450相关的知识,包括其蛋白质结构、功能、相关催化反应以及与药物的相互作用(表S2)[37],[38],[39],[40]。这些资源已经识别并收集了超过30万个P450基因,但其中功能表征的不到0.2%[41],[42],[43]。
最近,专注于植物P450s催化功能的数据库已经出现,例如PCPD数据库[36]收集了181个植物P450s及其序列、结构和反应信息,来源于文献和其他数据库。植物细胞色素P450数据库根据文献来源提供了一个已知能代谢一种或多种底物的CYPs的广泛汇编[3]。这些资源为植物P450s的功能解释和合成生物学提供了重要的参考数据。然而,据我们所知,仍然缺乏一个专门的资源来存储和整合所有生物体的P450s的催化功能和反应。在此,我们介绍了P450Rdb数据库,这是一个人工整理的资源,重点关注文献支持的由P450酶催化的反应。当前版本的P450Rdb记录了超过590个P450s,超过1600种反应(图1a)。我们希望通过这个数据库提供一个包含丰富信息的便捷界面,以加速天然产物合成和药理学研究(图1b)。
图1. P450Rdb的数据和网站。 a. 数据库中597个P450酶的系统发育树。 b. P450Rdb网站的主页。
材料和方法
数据收集
所有P450酶和反应都通过文献(截至2023年4月之前)和两个已知数据库(包括PCPD数据库和TriForC数据库)人工整理(图2)。最初,通过使用“P450”、“CYPs”、“细胞色素P450”、“单加氧酶”、“反应”和“P450酶”等关键词在PubMed、bioRxiv和Google Scholar上进行综合搜索。检索到的文献随后由专家整理人员进行初步检查,以消除误报文献。只有实验支持的由P450酶催化的反应才被包括在P450反应数据库中。收集的条目经过至少两位独立专家整理人员的严格评估和双重检查。任何出现的差异都通过与第三位专家整理人员讨论来解决,以确保达成共识。此外,P450反应数据库还整合了来自PCPD数据库的181个反应[36]和来自TriForC数据库的228个反应[45]。
图2. P450Rdb的数据收集、组织和注释。
组织
首先,我们根据化学反应类型将所有反应分为六类:氧化反应、还原反应、氧化还原反应、结合反应、分解反应和取代反应(图2)。氧化反应是指分子、原子或离子在化学反应中失去电子。相反,还原反应是指反应物获得电子。在氧化还原反应中,反应的一部分通过获得电子降低其氧化数,而另一部分则通过失去电子发生氧化。结合反应是指两个底物结合形成一个单一产物的过程。另一方面,分解反应是指一个单一反应物分解成两个或更多产物的过程。最后,取代反应是指分子中的一个原子、离子或原子团被另一个原子、离子或原子团替换的过程。此外,除了考虑化学反应类型外,我们还根据涉及的具体反应位点对反应进行了区分(图2)。这些位点包括功能基团如单键CH3、单键CH、单键NH和化学键如单键CH-CH、单键CH-OH、单键CH-Br。总共,我们识别了41个不同的反应位点,以全面分类所有反应。
注释
为了在各种文献来源中提到的P450酶和化合物(底物/产物)之间建立一致性,我们使用了权威参考数据库进行映射(图2)。所有的P450酶都映射到UniProt数据库(Uniprot ID)[46]和NCBI基因数据库(Entrez ID)[47],底物/产物则映射到PubChem数据库(PubChem CID和SID)[48]。关于P450酶的详细信息,我们从UniProt数据库获取蛋白质名称、物种信息和序列。考虑到许多P450酶缺乏实验验证的晶体结构,我们还提供了访问AlphaFold数据库中预测蛋白质结构的超链接。关于底物/产物的详细信息,我们从PubChem数据库收集了相应的分子式、Smiles表示法和结构。这些全面的映射和从权威资源获取的数据确保了数据库中信息的标准化和可靠性。
架构
首先,我们采用HTML + CSS + JavaScript框架进行前端网页开发(图3)。这三种编程语言相互协作,为用户提供清晰的内容、简洁的界面和丰富的交互应用。网站采用的自响应布局也兼容PC和移动设备的不同场景。同时,我们采用PHP + MySQL架构进行后端开发,可以根据不同的前端访问请求运行不同的脚本,并动态生成相应的返回数据。这个过程具有高数据安全性和快速查询速度。此外,我们采用Smarty模板引擎来分离前端和后端,将逻辑程序与外部内容分离,方便后期管理和维护。平台的网络服务由EngineX(Nginx)提供。
图3. P450Rdb的架构。
结果
数据统计
当前版本的P450Rdb记录了1692个由同行评审文献支持、人工整理的反应,涉及890种化合物(底物/产物),来自200多种物种的597个P450s(图4a)。这些反应涉及1225种作为底物或产物的化合物,并由超过200种物种的P450s催化(图4a)。反应类型的分布如图4b所示,包括1507个氧化反应,82个还原反应,61个分解反应,29个结合反应和1个取代反应。图4c显示了反应位点的分布,突出显示大多数反应发生在CH3(519个条目)和CH2(486个条目)功能基团上。此外,超过100个反应发生在CH-CH键和芳香环的CH基团上。图4d显示了P450s的生物体分布,植物占P450s的半数以上(342/597),其次是微生物(137个P450s)和动物(118个P450s)。图4e展示了参与P450s催化反应的化合物分布,表明有836种产物和570种底物。值得注意的是,181种化合物既作为产物又作为底物。图4f展示了P450s的序列长度分布,超过80%的P450s的序列长度在450到550个氨基酸之间。
图4. P450Rdb的数据统计。a P450Rdb数据库的总体统计。b 反应类型的分布。c 反应位点的分布。d P450s的生物体分布。e 化合物的分布。f P450s的序列长度分布。
数据查询和结果展示
P450Rdb提供了一个用户友好的网页界面,允许用户轻松查询P450s及其催化的反应。导航栏提供了快速访问各个页面的选项,包括“搜索”、“Blast”、“浏览”、“下载”和“统计”。P450Rdb的“搜索”页面提供了两种搜索选项:“蛋白质搜索”,用户可以输入P450符号/Entrez ID/UniProt ID;以及“化合物搜索”,用户可以输入底物或产物名称/PubChem CID/分子式。“结果”页面的搜索结果总结在一个表格中(图5)。通过点击“更多”,用户可以在“详细信息”页面访问特定蛋白质条目的详细信息。“详细信息”页面提供了与反应和P450s相关的全面信息,包括参与反应的P450蛋白质的详细信息(如“P450符号”、“P450名称”、“基因ID”、“UniProt IDs”、“物种”、“Txid”、“P450蛋白质结构”和“蛋白质序列”)、反应信息(包括“反应类型”、“反应位点”和方程式)、底物/产物信息(如“底物/产物名称”、“底物/产物化学式”、“底物/产物PubChem CID”、“底物/产物PubChem SID”、“底物/产物Smiles”和“底物/产物结构”)以及与条目相关的参考文献(包括“PMIDs”、“标题”、“期刊”和发表年份)。此外,P450Rdb还提供了一个Blast网络服务器用于序列相似性搜索。用户可以在查询窗口输入查询的P450蛋白质(Blastp)或核苷酸(Blastx)序列。“结果”表格显示了Blast软件的三个指标(相似性、E值、比对得分)以帮助用户评估序列的相似性。总之,P450Rdb提供了一个全面且用户友好的平台,用于查询P450s及其反应,方便用户高效获取相关信息。
图5. P450Rdb的搜索页面、结果页面和详细信息页面。
Blast安装及使用-Blast+2.14.0(bioinfomatics tools-001)
“浏览”、“下载”、“统计”、“帮助”和“提交”页面
P450Rdb提供了“浏览”页面,通过选择特定的物种、反应类型和反应位点,帮助快速浏览某一类别的反应和P450s。然后,用户可以通过点击“结果”表中的每个条目来查询详细信息。“下载”页面使用户能够轻松下载P450s、反应、化合物列表和序列数据(fasta文件),用于非营利目的。“统计”页面使用各种统计图形展示最新版本P450Rdb中的详细数据。“帮助”页面为用户提供逐步教程,指导用户操作、查询和浏览P450Rdb数据库。此外,P450Rdb的收集不可避免地未能涵盖所有由P450s催化的反应。因此,我们提供了一个“提交”界面,以确保研究人员可以提交未记录在数据库中的新的P450s催化反应。
讨论
P450Rdb提供了一个宝贵的平台,用于存储、整合和分析P450s及其对应的反应,以加速P450s的识别和应用研究。然而,它仍然存在一些局限性。首先,由于大多数记录的P450s缺乏明确的酶动力学实验,P450Rdb不包括酶的动力学常数,如Km、Ks和Kcat。其次,数据库不提供与P450s催化反应相关的具体条件的信息。这是因为大多数研究主要集中在P450s的识别和生物功能表征上,而没有深入探讨催化反应的详细信息。
尽管如此,我们致力于通过不断积累P450s及其反应的新功能证据和成果来解决这些局限性。我们将定期更新P450Rdb,通过收集文献中的P450s及其对应的反应。此外,我们将努力收集关于动力学常数和相关反应条件的信息,以扩展数据库的覆盖范围。此外,我们还计划通过收集和整合涉及P450s的生物合成途径,扩大P450Rdb的范围,从而促进与P450s相关的功能解释和合成生物学研究。
结论
总而言之,P450Rdb目前记录了超过1600个反应,涉及来自200多种物种(包括植物、动物、真菌、细菌和古菌)的约600个P450s。同时,它提供了一个便捷的界面,包含大量信息,帮助查询、浏览和分析P450s及其对应的反应。我们相信,这个数据库可以大大促进P450s的结构和功能研究,并有助于合成生物学、生物制药、环境科学和酶工程的发展。