学习笔记Day17:转录组上游分析-1

转录组上游分析-1

作业:
  • 取出fastq文件中的所有序列ID(第一行)

    less SRR1039510_1.fastq.gz | awk '{if(NR%4==1){print $0}}'
    
    less SRR1039510_1.fastq.gz | paste - - - - | cut -f 1 
    
  • 取出fastq文件中的所有序列(第二行)同上

  • 对序列出现次数进行统计

     less SRR1039510_1.fastq.gz | paste - - - - | cut -f 2 | sort | uniq -c | sort -nk 1
    

    如果某一序列出现次数非常高,考虑可能是核糖体RNA?或实验过程中的异常情况,可以比对序列来查看该序列来源

数据质控

数据质量评估
  • FastQC软件:可以对fastq格式的原始数据进行质量统计。

    • 官方网站—帮助文档

    • 常用参数:

      在这里插入图片描述

    • 任务运行

      1. 在当前窗口直接运行
      2. 将命令后台运行nohup ... &
      3. 将命令写入sh脚本,使用nohup ... &运行脚本
    • 绝对路径运行脚本

      multiqc=/home/t_rna/miniconda3/envs/rna/bin/multiqc
      fastqc=/home/t_rna/miniconda3/envs/rna/bin/fastqc
      fq_dir=$HOME/project/Human-16-Asthma-Trans/data/rawdata
      outdir=$HOME/project/Human-16-Asthma-Trans/data/rawdata
      
      # 使用绝对路径运行
      $fastqc -t 6 -o $outdir ${fq_dir}/SRR*.fastq.gz >${fq_dir}/qc.log
      
    • 确定后台任务结束

      1. 看结果目录有无正常结果生成
      2. htop中是否有命令正在运行
      3. ps fx看本人的进程
      4. 读输出的运行日志
    • 质控后生成的html文件即质控报告

      在这里插入图片描述
      在这里插入图片描述

      数据量统计方式:生物学中碱基数量VS计算机中的存储字节(需要加以区分)

      • per base sequence quality

        按位置展示碱基质量的箱线图

      • per sequence quality scores

        横坐标:一条序列碱基的平均Q值(一条序列中N越多,质量值越低)

        纵坐标:每个质量值对应的read数

        较好结果:

        在这里插入图片描述

      • per base sequence content

        每个碱基位置上:ATGC含量的分布图

        理论上G/C、A/T的含量在测序循环上应分别相等,且稳定呈水平线。

        差数据:出现分离。

      • per sequence GC content

        GC含量分布图,蓝色和红色线分别为理论值和实际值,越接近越好;一般呈单峰分布。

      • Atapt

        公司提供数据

    • 整合FastQC结果

      multiQC *zip

数据过滤

原始序列质量控制标准:

  1. 去除含接头的reads;
  2. 过滤去除低质量值数据,确保数据质量;
  3. 去除含有N(无法确定碱基信息)的比例大于5%(可以自定义)的reads。
过滤接头
  • trim_galore

    在这里插入图片描述

    • 单个样本的运行

      trim_galore -q 20 --length 20 --max_n 3 --stringency 3 --fastqc --paired -o ./ ../../rawdata/SRR1039510_1.fastq.gz ../../rawdata/SRR1039510_2.fastq.gz
      
    • 多个样本的运行

      • 先获得样本名组成的文件ID

      • while循环

        # 多个样本 vim trim_galore.sh,以下为sh的内容
        rawdata=$HOME/project/Human-16-Asthma-Trans/data/rawdata
        cleandata=$HOME/project/Human-16-Asthma-Trans/data/cleandata/trim_galore
        cat ID | while read id
        do
          trim_galore -q 20 --length 20 --max_n 3 --stringency 3 --fastqc --paired -o ${cleandata} ${rawdata}/${id}_1.fastq.gz ${rawdata}/${id}_2.fastq.gz
        done
        
  • Tips:

    后台任务转前台:jobs列出任务;fg %1(任务序号)

    前台任务转后台:Ctrl+Z暂停,jobs列出任务,bg %1(任务序号)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/490437.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

鸿蒙OS应用示例:【数字滚动计时】

实现效果: 代码示例: RollingText.ets 组件封装 RollingText.ets 组件封装 /*** 滚动文字特效*/ Component export default struct RollingText {private num:numberprivate timerId: number -1State counter: number 0aboutToAppear() {this.timerId…

【蓝桥杯】填空题技巧|巧用编译器|用Python处理大数和字符|心算手数|思维题

目录 一、填空题 1.巧用编译器 2.巧用Excel 3. 用Python处理大数 4.用Python处理字符 5.心算手数 二、思维题 推荐 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。【点击跳转到网站】 一、填空题 …

做功能测试多年,想进阶自动化技术 ,该如何学习自动化测试呢 ?

1.什么是自动化测试 ? 即三个自动化 : 代码修改自动触发自动化运行 、自动执行测试用例 、自动生成测试结果并发送团队 。 对技术的要求就是:自动化测试框架 持续集成工具 2. 企业为什么要做自动化 ? 从企业的需求来看 &…

速看!2024广州国际服务机器人产业博览会

2024广州国际服务机器人产业博览会 时间:2024年12月19-21日 地点:中国进出口商品交易会琶洲展馆 近年来我国服务机器人智能化、个性化水平快速提升,使其需求领域不断扩展,销售额不断增长。尤其是疫情带动服务机器人需求增长&am…

MCGS学习——弹框报警

弹框报警的制作流程 先绘制一个弹框窗口,在弹框窗口里绘制弹框标志,记得绘制完成之后点击合成单元,此外,打开报警信息按钮中是打开报警界面 绘制好之后,如果我们想让弹窗出现在我们想让他出现的位置,那我…

Stata 15 for Mac:数据统计分析新标杆,让研究更高效!

Stata 是一种统计分析软件,适用于数据管理、数据分析和绘图。Stata 15 for Mac 具有以下功能: 数据管理:Stata 提供强大的数据管理功能,用户可以轻松导入、清洗、整理和管理数据集。 统计分析:Stata 提供了广泛的统计…

常见端口及对应服务

6379 redis未授权 7001、7002 weblogic默认弱口令、反序列化 9200、9300 elasticsearch 参考乌云:多玩某服务器ElasticSearch命令执行漏洞 11211 memcache未授权访问 50000 SAP命令执行 50070、50030 hadoop默认端口未授权访问

C/C++ 语言中的 ​if...else if...else 语句

C/C 语言中的 ​if...else if...else 语句 1. if statement2. if...else statement3. if...else if...else statementReferences 1. if statement The syntax of the if statement is: if (condition) {// body of if statement }The code inside { } is the body of the if …

【LLM】大模型推理加速 KV-Cache

目录 模型推理过程KV Cache原理KV Cache的存储 模型推理过程 在了解KVCache之前,我们需要知道Transformer类大模型的推理过程。 对于LLM进行一次前向传播也就是生成一个token的过程可以被分解成以下步骤: 文本 T i n p u t T_{input} Tinput​经过Toke…

C++中的string容器容量操作

以string容器为例,有多个容量操作 string容器文档:string - C Reference (cplusplus.com) 1.求大小:size() 求容器大小使用 size(),string容器还可以使用 length() (推荐使用siez(),因为string产生比ST…

国家中英文名称、国家代码(地区代码)、国家域名、经纬度

因为要做世界地图对世界国家的标点,搜索使用到了世界各个国家的地理位置信息,此处做备份与学习。资源地址(免费) export default {"阿尔巴尼亚": {"m_longitude": "19.809","m_latitude&quo…

MyBatis是纸老虎吗?(七)

在上篇文章中,我们对照手动编写jdbc的开发流程,对MyBatis进行了梳理。通过这次梳理我们发现了一些之前文章中从未见过的新知识,譬如BoundSql等。本节我想继续MyBatis这个主题,并探索一下MyBatis中的缓存机制。在正式开始梳理前&am…

应急响应实战笔记04Windows实战篇(2)

第2篇:蠕虫病毒 0x00 前言 ​ 蠕虫病毒是一种十分古老的计算机病毒,它是一种自包含的程序(或是一套程序),通常通过网络途径传播,每入侵到一台新的计算机,它就在这台计算机上复制自己&#xff…

MATLAB 自定义生成平面点云(可指定方向,添加噪声)(48)

MATLAB 自定义生成平面点云(可指定方向,添加噪声)(48) 一、算法介绍二、算法步骤三、算法实现1.代码2.效果一、算法介绍 通过这里的平面生成方法,可以生成模拟平面的点云数据,并可以人为设置平面方向,平面大小,并添加噪声来探索不同类型的平面数据。这种方法可以用于…

【Web世界探险家】HTML5 探索与实践

📚博客主页:爱敲代码的小杨. ✨专栏:《Java SE语法》 | 《数据结构与算法》 | 《C生万物》 |《MySQL探索之旅》 ❤️感谢大家点赞👍🏻收藏⭐评论✍🏻,您的三连就是我持续更新的动力❤️ &…

C语言(结构体,联合体,枚举的讲解)

这期我们来讲解结构体,联合体,以及枚举的讲解,首先我们从概念开始一步一步的了解。 1,结构体 1.1概念 C 语言中的结构体是一种用户自定义的数据类型,它允许你将不同类型的变量组合在一起,从而形成一个新…

《剑指 Offer》专项突破版 - 面试题 93 : 最长斐波那契数列(C++ 实现)

题目链接:最长斐波那契数列 题目: 输入一个没有重复数字的单调递增的数组,数组中至少有 3 个数字,请问数组中最长的斐波那契数列的长度是多少?例如,如果输入的数组是 [1, 2, 3, 4, 5, 6, 7, 8]&#xff0…

【数据结构与算法】用染色法判定二分图

问题描述 给定一个 n 个点 m 条边的无向图,图中可能存在重边和自环。 请你判断这个图是否是二分图。 输入格式 第一行包含两个整数 n 和 m。 接下来 m 行,每行包含两个整数 u 和 v,表示点 u 和点 v 之间存在一条边。 输出格式 如果给定图…

QML | JavaScript作用域和命名解析2

QML | JavaScript作用域和命名解析3.绑定的作用域对象 属性绑定是QML中最常见的JavaScript应用。属性绑定关联了一个JavaScript表达式的结果和对象的一个属性,该属性所归属的对象被称为绑定的作用域对象。在下面的代码中,Item对象就是一个绑定的作用域对象: ​ 绑定可以…

泰山派人工智能

这里我们先演示一下人工智能能干些什么吧, 请看下面演示资料 https://www.bilibili.com/v/jump-middle-edge/?spm_id_from=888.80997.embed_other.whitelist&mode=play&bvid=BV1Kh411N7b1 图像的人工智能常见的任务有如下几种情况: 分类, 目标检测,目标分割, 轨迹跟…