交响曲-24-3-单细胞CNV分析及聚类

CNV概述

小于1kb是常见的插入、移位、缺失等的变异

人体内包含<10% 的正常CNV，我们的染色体数是两倍体，正常情况下，只有一条染色体表达，另一条沉默，当表达的那条染色体发生CNV之后，表达数量就会成倍增加，如果是人体内正常的CNV，人体会自动调节使其恢复至正常水平，但是体细胞CNV变异会导致肿瘤的发生，这就是单细胞分析的基础，CNV表达数量的增多，导致基因表达数量成倍增加或成倍缺失。

CNV变异种类

CNV的临床应用

1. 产前诊断

2. 靶向用药

3. 肿瘤早筛

单细胞检测CNV

对1的解释：🥑低质量和双细胞对CNV的影响非常大，因为CNV是基于基因表达水平的变化，一旦存在双细胞或者低质量的细胞，就会对CNV的判断产生非常大的干扰。

🍑发生肿瘤细胞一般是上皮细胞，免疫细胞几乎不发生癌变，但是也有B淋巴细胞发生癌变的现象，成纤维细胞一般也不会发生癌变

🍐对2的解释：reference就是基线的参考，单细胞判断是否发生CNV是源于其基因的表达量多少，在跑inferCNV的时候，如果不指定参考，就把样本的表达值平均做参考🚦这样做误差会非常大，正常的做法是：上皮细胞发生癌变，我们选择正常的上皮细胞做reference，以此判断癌变的上皮细胞发生了哪些CNV事件。但困难是我们判断不出正常的及癌变的上皮细胞，因为单细胞已经失去了空间信息。备选项：选用免疫细胞/成纤维作为reference,如果只选择免疫细胞作为参考来判断上皮细胞是否发生癌变，但是不准确，因为两类细胞本身就不一样，会产生假阳性。最好的方法：采用多种细胞（上皮、内皮、成纤维）求平均值的原则。

☕第三：并不是说ref表达100，数据表达120就是高了，CNV是大片段的缺失，而不是单个基因，若窗口大小=50，那么一个基因的位置表达情况是由它上游50个基因，下游50个基因以及其自身的共同平均表达情况决定，这个数据再与ref进行比较。

Reference的选择

文献应用

🌺上面图片讲解：图片上半部分颜色很浅，是对应的ref(E8)红框圈出来的部分。如果指定的好的话，是不会有CNV事件的出现，如果指定不合适，就会和下面一样有CNV事件的出现。下面的图，黄框的部分，证明是正常的细胞类型，绿框部分是说明这种细胞类型可能含有CNV，但也有一部分不含有CNV，绿框分上下两部分，上面明显的CNV，下面没有，这是因为，某些上皮细胞在癌变的过程中会有过渡态，通过CNV判断过渡态的时候，就会出现这种情况，在单细胞中说明这类细胞是过渡态，在空间中，这类细胞一部分在肿瘤内，一部分在正常区域，这就是值得关注的细胞类型💃

算法原理

上述的7，8条是在矫正噪音

三种CNV信号识别原则

1. 硬阈值策略（公司常用）

2.动态阈值推荐使用

3.软阈值，文章中不常用

HMMs预测模型

有i3和i6两种模型，i6是公司常用的模型，这种比i3好一些，划分更细

文献运用

cnv事件是逐步积累的事件，一开始是小的CNV，慢慢积累之后，CNV事件越来越严重，就会产生轨迹上的推动，拥有CNV事件越多，说明这个CNV发生的越早，先有了这个CNV事件，后面才有其他的CNV事件，先有的这个细胞数量会最多，后面的细胞数量会减少，但是细胞恶性程度会变高。在进行CNV识别聚类之后，为了识别CNV的进化方向，可以使用UPhyloplot2，这个软件的上限是只能识别8个分支