分子AI预测赛Task2笔记

下面所述比较官方的内容都来自官方文档

‍‌⁠‌‍​​​‌​​⁠​​​​​​​​‍‬​​‍⁠‍‍​​‬​‌​​​‌‍‬​​​​​​‍‌Task2:赛题深入解析 - 飞书云文档 (feishu.cn)

赛题背景

  • 强调了人工智能在科研领域,特别是在化学和药物研发中的重要性。

  • 指出了PROTACs技术在靶向降解目标蛋白质方面的潜力。

赛题任务

  • 要求选手使用提供的demo数据集,这个数据集包含了多个与PROTACs降解能力相关的字段。

  • 允许选手通过数据增强或自行搜集数据来扩充数据集,并自行划分数据集用于训练和验证模型。

赛题提供的数据比较有限,仅有几百条,如果能搜索出合适的数据扩充数据集将会是很大的提升,当然数据的搜索也是非常困难的。

数据字段理解

赛题介绍部分并没有给出关于数据字段的具体介绍,所以这里对每个数据字段进行解释:

  • 数据集包含了多个字段,uuid(唯一标识符)、Label(降解能力的标签,0表示降解能力较差,1表示降解能力好)UniprotTargetE3 ligasePDB等,这些都是与PROTACs分子相关的信息。

  • 还包括了降解能力相关的数值指标,如DC50(半数降解浓度)、Dmax(最大降解效率)、IC50(半抑制浓度)、EC50(半有效浓度)等。

  • 还包括了与分子物理化学性质相关的字段,如Molecular Weight(分子量)、Exact Mass(精确质量)、XLogP3(预测的脂水分配系数)等。

具体说明如下:

  • UUID: 一个唯一的标识符,用于识别数据记录。

  • Label: 可能指的是化合物或数据集的标签或名称。

  • Uniprot: 一个蛋白质数据库,提供关于蛋白质序列、结构和功能的信息。

  • Target: 目标蛋白,即PROTACs设计来降解的特定蛋白质。

  • E3 ligase: E3连接酶,一种在泛素化过程中扮演角色的酶,帮助标记蛋白质以供降解。

  • PDB: 蛋白质数据银行,一个包含蛋白质和核酸结构的数据库。

  • Name: 化合物的名称。

  • Smiles: 一种表示分子结构的字符串格式。

  • DC50 (nM): 半最大降解浓度,即达到最大降解效果一半时的化合物浓度。

  • Dmax (%): 最大降解效率,表示化合物能实现的最大降解效果的百分比。

  • Assay: 实验方法,这里可能指的是用于测定DC50、Dmax等的实验。

  • Percent degradation: 分子降解的百分比。

  • IC50 (nM, Protac to Target): 半最大抑制浓度,针对PROTACs与其目标蛋白的复合物。

  • EC50 (nM, Protac to Target): 半最大有效浓度,即达到一半最大生物效应的浓度。

  • Kd (nM, Protac to Target): 解离常数,表示PROTACs与其目标蛋白复合物的结合强度。

  • Ki (nM, Protac to Target): 抑制常数,用于描述抑制剂与酶的结合强度。

  • delta G, delta H, -T*delta S: 分别表示结合反应的吉布斯自由能变化、焓变和熵变,这些热力学参数用于描述分子间相互作用的能量状态。

  • kon, koff: 分别表示分子结合和解离的速率常数。

  • t1/2 (s, Protac to Target): 半衰期,即分子浓度减少到初始浓度一半所需的时间。

  • Assay (Protac to Target, kon/koff/t1/2): 可能是指测定结合和解离速率常数以及半衰期的实验方法。

接下来的部分讨论了与E3连接酶的相互作用,以及形成的三元复合物(目标蛋白、PROTACs、E3连接酶)的类似参数。

  • IC50, EC50, Kd, Ki: 与三元复合物相关的参数,与前面提到的类似,但这里特指三元复合物。

  • delta G, delta H, -T*delta S: 描述三元复合物的热力学参数。

  • kon, koff, t1/2: 描述三元复合物的动力学参数。

最后,描述了与细胞活性相关的参数,包括:

  • IC50, EC50, GI50, ED50, GR50: 这些参数描述了化合物在细胞水平上的活性,如半最大抑制浓度、半最大效应浓度等。

  • PAMPA Papp: 一种评估药物分子在仿生膜上的通透性的方法。

  • Caco-2 A2B/B2A Papp: 使用Caco-2细胞系评估药物分子的肠道吸收能力。

  • Article DOI: 文章的数字对象标识符,用于唯一标识科学文献。

  • Molecular Weight, Exact Mass: 分子量和精确质量。

  • XLogP3: 预测的辛醇/水分配系数,用于预测脂溶性。

  • Heavy Atom Count, Ring Count: 重原子数和环的数量。

  • Hydrogen Bond Acceptor/Donor Count: 氢键受体/供体计数。

  • Rotatable Bond Count: 可旋转键的数量。

  • Topological Polar Surface Area: 拓扑极性表面积。

  • Molecular Formula, InChI, InChI Key: 分子式、国际化学标识符及其密钥。

其中将对Smiles、Assay (DC50/Dmax)、Assay (Protac to Target, IC50)、Assay (Cellular activities, IC5、Article DOI、InChI展开介绍。

Smiles结构如下:

NC1=NC=NC2=C1C(C1=CC=C(OC3=CC=CC=C3)C=C1)=NN2[C@@H]1CCCN(C(=O)C2=CN(CCOCCOCCOCCCC3=CC=CC4=C3CN(C3CCC(=O)NC3=O)C4=O)N=N2)C1

Smiles是一种用于描述化学结构的文本字符串,它能够被用于输入化学信息学软件。

这个特定的Smiles字符串代表了一个含有多个环和官能团的有机分子。下面是这个分子结构的一些特征:

  • NC1=NC=NC2:表示一个含氮的六元环结构,可能是一个吡啶环。

  • C1C(C1=CC=C(OC3=CC=CC=C3)C=C1):表示一个苯环(OC3=CC=CC=C3),该苯环通过一个碳原子连接到另一个苯环。

  • =NN2:表示一个氮氮双键。

  • [C@@H]1CCCN:表示一个手性中心,碳原子1连接到一个氮原子,并且有一个手性标记@@H

  • (C(=O)C2=CN(CCOCCOCCOCCCC3=CC=CC4=C3CN(C3CCC(=O)NC3=O)C4=O)N=N2):这是一个复杂的部分,包含一个羰基(C(=O)),一个烯醇胺结构,以及多个碳链和连接的氮原子。

这个Smiles字符串代表的分子可能是一种生物活性分子,例如一种药物或生物分子。由于其复杂性,通常需要专业的化学信息学软件来解析和可视化这种结构。

Assay (DC50/Dmax)结构如下:

'Degradation of IRAK4 in HEK293T cells after 24 h treatment' 'Degradation of HDAC3 in MDA-MB-468 cells after 14 h treatment'

在生物测定和药物发现领域,"Degradation of IRAK4 in HEK293T cells after 24 h treatment" 和 "Degradation of HDAC3 in MDA-MB-468 cells after 14 h treatment" 描述了两种不同的实验情境。下面是对这些信息的解释:

  1. Degradation of IRAK4 in HEK293T cells after 24 h treatment:

    1. 这指的是在实验中,IRAK4(白细胞介素-1受体相关激酶4)在HEK293T细胞系中的降解情况。HEK293T是一种常用的人类胚胎肾细胞系,经常用于分子生物学和细胞生物学实验。

    2. "24 h treatment" 表示这些细胞在实验中被处理(可能是某种药物或化合物)持续了24小时。

  2. Degradation of HDAC3 in MDA-MB-468 cells after 14 h treatment:

    1. 这描述了HDAC3(组蛋白去乙酰化酶3)在MDA-MB-468细胞系中的降解情况。MDA-MB-468是一种人类乳腺癌细胞系。

    2. "14 h treatment" 表示这些细胞在实验中被处理持续了14小时。

  3. Assay (DC50/Dmax):

    1. 这可能指的是一种实验测定方法,用于评估化合物对蛋白质降解的影响。

    2. "DC50" 可能是指半最大降解浓度(Degradation Concentration 50),即导致蛋白质降解达到最大值一半的化合物浓度。

    3. "Dmax" 可能是指在实验条件下可观察到的最大降解效果。

    4. "Assay (DC50/Dmax)" 可能是一个比率或关系,用来量化化合物诱导的蛋白质降解效率。

在药物筛选和细胞生物学实验中,这类信息对于评估化合物的潜在药效和毒性至关重要。通过测量特定蛋白质的降解情况,研究人员可以了解化合物对细胞功能的影响,并进一步研究其作用机制。

InChI结构如下:

InChI=1S/C47H61N7O6S/c1-7-26-49-53-44(58)36-20-16-33(17-21-36)34-22-24-37(25-23-34)51-40(56)12-10-8-9-11-13-41(57)52-43(47(4,5)6)46(60)54-28-38(55)27-39(54)45(59)50-30(2)32-14-18-35(19-15-32)42-31(3)48-29-61-42/h14-25,29-30,38-39,43,49,55H,7-13,26-28H2,1-6H3,(H,50,59)(H,51,56)(H,52,57)(H,53,58)/t30-,38+,39-,43+/m0/s1

InChI(国际化学标识符)是一种用于唯一标识化学化合物的标准化字符串。它由一系列部分组成,提供了关于分子结构的详细信息。下面是对提供的InChI字符串的详细解释:

  1. 开头标识

    1. InChI=1S/ 开头的 1S 表示这是一个标准InChI字符串。

  2. 分子式

    1. C47H61N7O6S 表示该化合物的分子式,包含47个碳原子(C)、61个氢原子(H)、7个氮原子(N)、6个氧原子(O)和1个硫原子(S)。

  3. 连接表

    1. /c1-7-26-49-53-44(58)36-20-16-33(17-21-36)34-22-24-37(25-23-34)51-40(56)12-10-8-9-11-13-41(57)52-43(47(4,5)6)46(60)54-28-38(55)27-39(54)45(59)50-30(2)32-14-18-35(19-15-32)42-31(3)48-29-61-42/ 这部分是连接表,描述了原子在分子中的连接顺序和方式。

  4. 氢原子计数

    1. h14-25,29-30,38-39,43,49,55H 表示在这些碳原子上附加的氢原子数量。

  5. 多可旋转键计数

    1. 7-13,26-28H2 表示在这些碳原子之间有两个氢原子,可能形成可旋转键。

  6. 立体化学信息

    1. (H,50,59)(H,51,56)(H,52,57)(H,53,58) 表示分子中存在多个手性中心,每个手性中心由一对氢原子标记。

  7. 同分异构体信息

    1. /t30-,38+,39-,43+ 表示分子中某些碳原子的立体化学构型,如 30- 表示一个向下的楔形表示的碳原子,38+ 表示一个向上的楔形表示的碳原子。

  8. 混合物或互变异构体信息

    1. /m0 表示这是一个单一的化合物,没有互变异构体。

  9. 电荷和自旋多重度信息

    1. /s1 表示分子的电荷和自旋多重度信息,这里 s1 表示单线态。

  10. 结束标识

    1. InChI字符串以 / 结尾。

InChI提供了一种非常详细的化学结构表示方法,使得不同的化学信息学软件能够准确无歧义地解析和理解分子结构。通过InChI,研究人员可以确保在不同的数据库和软件平台之间准确交换化学结构信息。

预测目标

  • 选手需要预测PROTACs的降解能力,具体来说,就是预测Label字段的值。

  • 根据DC50Dmax的值来判断降解能力的好坏:如果DC50大于100nM且Dmax小于80%,则Label为0;如果DC50小于等于100nM或Dmax大于等于80%,则Label为1。

参考资料

  1. 药物化学与PROTACs相关文献

    1. "Targeted Protein Degradation by Small Molecules" (综述PROTACs的原理和应用)

    2. "The Role of E3 Ligases in Targeted Protein Degradation" (关于E3连接酶在蛋白质降解中的作用)

  2. 生物信息学与化学信息学资源

    1. RDKit官方文档:一个开源化学信息学软件库,用于处理化学分子和相关数据。http://rdkit.chenzhaoqiang.com/index.html

    2. Biopython官方文档:用于生物计算的Python库。https://biopython-cn.readthedocs.io/zh-cn/latest/

其中RDKit库可以帮助处理SMILES字符串,如下代码可以将SMILES转换为分子对象,然后进行分子结构绘制

from rdkit import Chem  # 导入Chem模块,它包含了处理分子表示的功能。
from rdkit.Chem import AllChem, Draw # 从Chem模块中导入AllChem和Draw子模块。AllChem提供了额外的化学功能,如2D和3D坐标生成、分子性质计算等。Draw模块则用于绘制分子结构图。

# SMILES字符串
smiles = "NC1=NC=NC2=C1C(C1=CC=C(OC3=CC=CC=C3)C=C1)=NN2[C@@H]1CCCN(C(=O)C2=CN(CCOCCOCCOCCCC3=CC=CC4=C3CN(C3CCC(=O)NC3=O)C4=O)N=N2)C1" # SMILES(Simplified Molecular Input Line Entry System)是一种用于描述化学物质结构的简化线性文本表示法。

# 3 将SMILES转换为分子对象
mol = Chem.MolFromSmiles(smiles) # 将SMILES字符串转换成RDKit中的Mol对象,这是RDKit中表示分子的核心数据结构。
# 4检查分子是否有效
if mol is None: 
    print("The SMILES string is invalid.")# 如果转换失败,mol将会是None。这种情况下,代码会打印出"The SMILES string is invalid."(SMILES字符串无效)
else:
    print("The molecule was parsed successfully.") #如果转换成功,代码将打印出"The molecule was parsed successfully."(分子已成功解析)。

    # 绘制分子结构
    molDrawer = Draw.MolToMPL(mol) # 使用Draw模块中的MolToMPL函数来将分子对象转换为matplotlib图形对象。
    molDrawer.show() # 显示生成的分子结构图。

 

个人感悟 

  • 上面内容从头看到尾,字都认识,但是由于术语太专业,合起来就看不懂了
  • 大致了解了所有子段的意思,明白了上次的运行结果文件里的字段label里面的0和1的意思
  • 应该是基于其他字段的信息构建模型,从而预测PROTACs的降解目标蛋白质方面的潜力
  • 感觉还是需要化学生物学方面的知识

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/765440.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

探囊取物之多形式注册页面(基于BootStrap4)

基于BootStrap4的注册页面,支持手机验证码注册、账号密码注册 低配置云服务器,首次加载速度较慢,请耐心等候;演练页面可点击查看源码 预览页面:http://www.daelui.com/#/tigerlair/saas/preview/ly4gax38ub9j 演练页…

晚上睡觉要不要关路由器?一语中的

前言 前几天小白去了一个朋友家,有朋友说:路由器不关机的话会影响睡眠吗? 这个影响睡眠嘛,确实是会的。毕竟一时冲浪一时爽,一直冲浪一直爽……刷剧刷抖音刷到根本停不下来,肯定影响睡眠。 所以晚上睡觉要…

MQTT协议详述

MQTT 概述 消息队列遥测传输(英语:Message Queuing Telemetry Transport,缩写:MQTT),是基于发布(Publish)/订阅(Subscribe)范式的消息协议,位于…

BurpSuite抓IOS设备HTTPS流量

一、简述: Burp 这个工具做过 web 安全的人都应该用过,是个非常强大的抓包工具。在 PC 的浏览器上直接配置代理就行了,本篇文章就来介绍一下如何用 Burp 抓 IOS 设备上的流量,很多文章都介绍过怎么抓包,但是很多坑都没…

Linux驱动开发实战宝典:设备模型、模块编程、I2C/SPI/USB外设精讲

摘要: 本文将带你走进 Linux 驱动开发的世界,从设备驱动模型、内核模块开发基础开始,逐步深入 I2C、SPI、USB 等常用外设的驱动编写,结合实际案例,助你掌握 Linux 驱动开发技能。 关键词: Linux 驱动,设备驱动模型,内核模块,I2C,SPI,USB 一、Linux 设备驱动模型 Li…

java反射和注解

反射 获取class对象的三种方法 ①:Class.forName("全类名"); ②:类名.class ③:对象.getclass(); 代码样例 package com.ithema;public class Main {public static void main(String[] args) throws ClassNotFoundException {//第…

【JavaEE精炼宝库】多线程进阶(2)synchronized原理、JUC类——深度理解多线程编程

一、synchronized 原理 1.1 基本特点: 结合上面的锁策略,我们就可以总结出,synchronized 具有以下特性(只考虑 JDK 1.8): 开始时是乐观锁,如果锁冲突频繁,就转换为悲观锁。 开始是轻量级锁实现&#xff…

QT+winodow 代码适配调试总结(二)

已经好多年了, linux环境下不同版本的QT程序开发和部署,突然需要适配window环境程序调试,一堆大坑,还真是一个艰巨的任务,可是kpi下的任务计划,开始吧!! 1、首先我们自定义的动态库…

【STM32HAL库学习】通信方式:USART、IIC、SPI

通信的目的:将一个设备的数据传送到另一个设备,扩展硬件系统 通信接口区别 名称引脚双工时钟电平设备USARTTX、RX全双工异步单端点对点I2CSCL、SDA半双工同步单端多设备SPISCLK、MOSI、MISO、CS全双工同步单端多设备CANCAN_H、CAN_L半双工异步差分多设…

【数值计算库-超长笔记】Python-Mpmath库:高精度数值计算

原文链接:https://www.cnblogs.com/aksoam/p/18279394 更多精彩,关注博客园主页,不断学习!不断进步! 我的主页 csdn很少看私信,有事请b站私信 博客园主页-发文字笔记-常用 有限元鹰的主页 内容&#xf…

类与对象完结

1.匿名类 先看一个例子 class A { public:A(int a 0):_a(a){cout << "A(int a)" << endl;}~A(){cout << "~A()" << endl;}void Print(){cout << _a << endl;} private:int _a; };int main() {A aa1(10);aa1.Print(…

【Redis7】零基础篇

1 课程概述 2 Redis入门概述 2.1 是什么 Redis是基于内存的KV键值对内存数据库 Redis&#xff1a;Remote Dictionary Server(远程字典服务)是完全开源的&#xff0c;使用ANSIC语言编写遵守BSD协议&#xff0c;是一个高性能的Key-Value数据库提供了丰富的数据结构&#xff0c…

Halcon机器视觉定位--模板匹配

一 Halcon模板匹配归纳 二 形状匹配算子介绍 find_shape_model( Image ,//待搜索图像 ModelID, //模版图像 AngleStart, //起始角度 AngleExtent, //角度范围 MinScore, //最小匹配分数 NumMatches, //匹配数目 MaxOverlap, //重叠度 SubPixel, //搜索精度 Greediness ,//自信度…

【FFmpeg】av_read_frame函数

目录 1.av_read_frame1.2 从pkt buffer中读取帧&#xff08;avpriv_packet_list_get&#xff09;1.3 从流当中读取帧&#xff08;read_frame_internal&#xff09;1.3.1 读取帧&#xff08;ff_read_packet&#xff09;1.3.2 解析packet&#xff08;parse_packet&#xff09;1.3…

和小红书一起参会! 了解大模型与大数据融合的技术趋势

在过去的两年中&#xff0c;“大模型”无疑成为互联网行业的焦点话题&#xff0c;曾经炙手可热的大数据架构似乎淡出公众视野。然而&#xff0c;大数据领域并未停滞不前&#xff0c;反而快速演进&#xff0c;传统依赖众多开源组件的大数据平台正逐步过渡到以融合与简化为核心特…

C++ ariac2 Windows库编译

cd "F:\\aria2" gmp-6.1.2.tar.lz expat-2.2.0.tar.bz2 sqlite-autoconf-3160200.tar.gz zlib-1.2.11.tar.gz c-ares-1.12.0.tar.gz libssh2-1.8.0.tar.gz --enable-libaria2 --enable-static libgnutls-dev&#xff08;对于HTTPS&#xff0c;BitTorrent&#xff0…

Verilog开源项目——百兆以太网交换机(五)TCAM单元设计

Verilog开源项目——百兆以太网交换机&#xff08;五&#xff09;TCAM单元设计 &#x1f508;声明&#xff1a;未经作者允许&#xff0c;禁止转载 &#x1f603;博主主页&#xff1a;王_嘻嘻的CSDN主页 &#x1f511;全新原创以太网交换机项目&#xff0c;Blog内容将聚焦整体架…

LLM-Transformer:经典与前沿方法详解

LLM-Transformer&#xff1a;经典与前沿方法详解 前言 大规模语言模型&#xff08;LLM&#xff09;是当前自然语言处理&#xff08;NLP&#xff09;领域的核心技术&#xff0c;而Transformer架构作为LLM的基础&#xff0c;极大地推动了这一领域的发展。本文将详细介绍LLM-Tra…

DP:子序列问题

文章目录 什么是子序列子序列的特点举例说明常见问题 关于子序列问题的几个例题1.最长递增子序列2.摆动序列3.最长递增子序列的个数4.最长数对链5.最长定差子序列 总结 什么是子序列 在计算机科学和数学中&#xff0c;子序列&#xff08;Subsequence&#xff09;是指从一个序列…

【2024德国签证】去德国读博士需要申请什么签证?

德国留学签证面签的经过及注意事项 ✨&#xff01;希望我的经验可以帮助大家顺利通过签证&#xff0c;顺利开启德国留学之旅 。记得带上足够的现金和材料哦 &#xff01; 一、选择适合自己的签证类型 在选择签证类型时&#xff0c;一定要根据自己的实际情况来选择合适的签证种…