整理笔记翻出来的,以下所有程序的测试时间都是2019年11月,不保证现在是否能用。基本都来自论文。
此外,这些程序都属于能用,但是对长序列(>3000)或者复杂序列不够友好的。
(后来我自己写了绘制方法,但是受商业保护,不能释放)
RNA基础知识
RNA功能
遗传信息的蛋白质表达;控制蛋白质合成;作用于RNA转录后加工与修饰;基因表达与细胞功能的调节;生物催化与其他细胞持家功能;遗传信息的加工与进化。
结构特点
- 单链分子。部分区域也能形成双螺旋结构。不能形成双螺旋的部分,形成单链突环,此为发夹结构。
- RNA双螺旋中配对不严格,G可与C和U配对,但是G-U的氢键较弱。
- tRNA中除了常见的碱基外,还有一些稀有碱基,大部分位于突环部分。
RNA一级结构
为什么DNA会有T?
因为DNA的C和水反应会脱掉氨基(NH3)变成U,而修复酶能识别这些突变,把它再变回C。T和U相比就是多了一个甲基(CH3),更稳定。所以DNA选择T取代C突变出来的U。
为什么DNA C2’- 脱氧,RNA不是?
因为RNA临近的-OH使其更活泼(需要时合成,不需要时迅速降解),DNA则会更稳定。
RNA的二级结构
主要取决于碱基组成。多数RNA是由一条链组成的,链内互补的碱基可以相互作用形成链内A型双螺旋,非互补的碱基游离在双螺旋之外,形成各种二级结构。
在RNA双螺旋内常常有GU碱基对。
RNA三级结构
构成RNA三级结构的主要原件有假节结构,"吻式"发夹结构和发夹环突触结构。
tRNA则可以形成倒L型三级结构。
tRNA的二级结构
Ψ [psaɪ]
tRNA形成三级结构是由于D环和TΨC环上的碱基之间有氢键作用,才折叠的,L型三级结构更稳定。参与折叠的很多不是AU和GC对。
rRNA
所有的核糖体都有大小两个亚基。rRNA约占核糖体的2/3,是核糖体蛋白的支架,核糖体蛋白质一般正好位于RNA螺旋之间。高度的链内互补序列导致大量碱基配对。
mRNA形成过程
真核生物的mRNA是单顺反子形式,即一条mRNA模板只含有一个翻译起始点和一个终止点。
原核生物的mRNA是多顺反子,即一条mRNA有多个开放阅读框,可以翻译出多种蛋白质。原核生物mRNA半衰期短(很快降解);5’端无帽子结构,3’端没有或只有较短的多聚A尾。原核生物常以AUG(有时GUG或UUG)作为起始密码子,但真核几乎都是AUG。
5’cap的功能
有助于mRNA穿过核膜进入细胞质;保护5’不被核酶降解;翻译时提供IF III(起始因子)和核糖体识别
多聚A尾功能
长度40-200,由多聚(A)聚合酶催化,被特异性的蛋白质PABP结合。
mRNA刚从细胞核进入细胞质时,较长;接着逐渐变短消失,mRNA进入降解过程。
现有的几个绘制程序
RNAfold
原始方法:
关键是前2步,转换png步骤可略去。
rnafold -p ht.fa > ht.out (预测rna折叠情况)
perl c:\install\ViennaRNA\Utils\relplot.pl HT_ss.ps HT_dp.ps > ht.ps (绘图生成 ps文件)
manually move the color legend to a convenient position by edit the postscript file:
"0.1 0.1 colorbar"
Or delete the line to remove the legend
C:\Install\gs9.27\bin\gswin64c.exe -sDEVICE=png16m -r300 -dTextAlphaBits=4 -dGraphicsAlphaBits=4 -sPAPERSIZE=a3 -o ht.png ht.ps
参数说明:
- -sDevice=选设备
- -r300 300dpi
- -dTextAlphaBits和-dGraphicsAlphaBits控制下采样的反走样。4最佳,小一些的值(1/2/4)渲染更快。有时设为1能避免错误。
- -sPAPERSIZE=是选纸张大小
- -o是输出文件名称
RNAfold -p test.fa > test.out
除了test.out之外还有两个文件
perl /home/pxy/Desktop/ViennaRNA-2.4.14/src/Utils/relplot.pl /home/pxy/Desktop/seq0_ss.ps /home/pxy/Desktop/seq0_dp.ps > /home/pxy/Desktop/test.ps
SPOT-RNA
Data availability The data used by SPOT-RNA for initial training (bpRNA)34 and transfer learning (PDB)5 along with their annotated secondary structure are publicly available at http://sparks-lab. org/jaswinder/server/SPOT-RNA/ and https://github.com/jaswindersingh2/SPOT-RNA.
Code availability SPOT-RNA predictor is available as a server at http://sparks-lab.org/jaswinder/server/ SPOT-RNA/ and stand-alone software at https://github.com/jaswindersingh2/SPOTRNA to run on a local computer. The web server provides an arc diagram and a 2D diagram of predicted RNA secondary structure through Visualization Applet for RNA (VARNA)69 tool along with a dot plot of SPOT-RNA-predicted base-pair probabilities
python SPOT-RNA.py --inputs single_seq.fasta --outputs 'outputs/'
5sRNA
RNA二级结构 数据集 序列 ct文件
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5737859/
来自
https://github.com/maxhwardg/advanced_multiloops
与论文有一些出入,暂时先用着
代码来自
https://github.com/zhangch994/CDPfold
执行
5sRNA
cd-hit
安装cd-hit
下载https://github.com/weizhongli/cdhit解压,make
先获取去掉重复序列的,得到>文件名 fasta序列,然后cd-hit-est
sudo ./cd-hit-est -i ../RNA/a.fasta -o ../RNA/result.txt -c 1 -n 11 -T 0
剩下的执行脚本data_pre_treatment.py去分组