UseGalaxy.cn生信云平台文本文件操作手册

文本文件是生物信息学中应用非常广泛的文本格式,甚至可以说是最重要的文件格式,比如常见的测序下机数据Fastq、参考基因组保存格式Fasta、比对文件SAM,以及突变列表VCF,它们都是文本文件。熟练地进行文本文件的处理,对于生信数据分析来说非常重要。比如为特定程序准备相应的输入文件,或者从结果文件中提取需要的信息。

文本文件的操作贯穿生信数据处理的始终,甚至有人开玩笑说,搞生信分析,就是进行各种文件格式的转换。有时候确实可以这么说,因为现在有许多软件/包都写得非常完善了,只需要准备好相应的输入文件,一行代码即可完成分析。

可以说,善于文本文件的处理,生信数据分析就站在了一个非常高的起点。UseGalaxy.cn平台有非常强大的文本数据处理功能,本文就来系统地介绍这些文本处理工具的用法。

测试数据

  • Libraries > Table data: heatmap_test.tsv,一个模拟的 RNA-seq 表达量矩阵数据。

1. 文本操纵(Text Manipulation)

选择开始的多少行

工具:Text Manipulation > Select first lines from a dataset

目标:选择前10行

操作:

  • Select first: 11 (因为文件有表头,所以这里设置为前11行)

  • from: heatmap_test.tsv

结果:

a3f1c396a72817afbc9ba9fb2986543c.png

选择结尾的多少行

工具: Text Manipulation > Select last lines from a dataset

目标: 选择结尾的10行

操作:

  • Select last: 10

  • from: heatmap_test.tsv

  • Dataset has a header: Yes

结果:

9ca90261f5d060c9ebebea4f42f6b12b.png

随机选择多少行

工具: Text Manipulation > Select random lines from a file

目标: 随机选择5行

操作:

  • Randomly select: 5

  • from: heatmap_test.tsv

结果:

8b05872f942b88ae6b594769aeadf3c5.png

删除开始的多少行

工具: Text Manipulation > Remove beginning of a file

目标: 删除表头

操作:

  • Remove first: 1

  • from: heatmap_test.tsv

结果:

f8d39b5594a2e164288190363586c7cb.png

选择列

工具: Text Manipulation > Cut columns from a table

目标: 选择第1,2,5列

操作:

  • Cut columns: c1,c2,c5

  • from: heatmap_test.tsv

结果:

d2c2e8de424e05952f3e0bdb5de55d97.png

增加列到一个数据表

工具: Text Manipulation > Add column to an existing dataset

目标: 在最后一列增加一个+号

操作:

  • Add this value:+

  • to Dataset: Remove beginning on data 1

  • Iterate?: NO

结果:

ba0b7b508f6fca0de3f467d901b41f8f.png

目标: 在最后一列增加从1开始不断迭代的编号

操作:

  • Add this value:1

  • to Dataset: Remove beginning on data 1

  • Iterate?: YES

结果:

fc2e8dfae95fbbf3bc2563426300b8fd.png

纵向合并多个文件

工具: Text Manipulation > Concatenate datasets tail-to-head

目标: 合并两个文件

操作:

  • Concatenate Dataset: Select first on data 1

  • Dataset: Select last on data 1

结果:

b866e0adc60682e685d78383ae566630.png

横向合并两个文件

工具: Text Manipulation > Paste two files side by side

目标: 并排粘贴两个文件

操作:

  • Paste: Cut on data 1

  • and: Cut on data 1

  • Delimit by: TAB

结果:

d6a2aa76a8744a186787028fcda3dfc9.png

2. 过滤和排序(Filter and Sort)

根据正则表达式匹配行

工具: Filter and Sort > Select lines that match an expression

目标: 筛选出前面纵向合并的文件中的表头

操作:

  • Select lines from: Concatenate datasets on data 4 and data 2

  • that: Matching

  • the pattern: Test1

结果:

0fd774ad70a2152b8439666e73c9efbb.png

目标: 筛选出前面纵向合并的文件中不是表头的行

操作:

  • Select lines from: Concatenate datasets on data 4 and data 2

  • that: NOT Matching

  • the pattern: Test1

结果:

f2c39ea6422dd285fa4680a3e40f8477.png

依据某一列过滤数据

工具: Filter and Sort > Filter data on any column using simple expressions

目标: 筛选第2列(即样本Test1所在列)值大于1的行

操作:

  • Filter:heatmap_test.tsv

  • With following condition: c2 > 1

  • Number of header lines to skip: 1

结果:

f4430b2027b07c803973dd9acacd9362.png

排序数据

工具: Filter and Sort > Sort data in ascending or descending order

目标: 根据表达矩阵的第2列,降序排列行

操作:

  • Sort Dataset: heatmap_test.tsv

  • on column: Column 2

  • with flavor: Numerical sort

  • everything in: Descending order

  • Number of header lines to skip: 1

结果:

ecaca7187fc16cea8626211ae016181e.png

3. 连接、提取和分组(Join, Subtract and Group)

依据特定列连接两个数据表

工具: Text Manipulation > Cut columns

目标: 选择文件前3列

操作:

  • Cut columns: c1,c2, c3

  • From: Select first on data 1

工具: Join, Subtract and Group > Join two Datasets side by side on a specified field

目标: 连接两个数据表

操作:

  • Join: Cut on data 2

  • using column: Column: 1

  • with: heatmap_test.tsv

  • and column: Column: 1

结果:

d963368c515af0c79ab4edb313592301.png

比较两个数据表找出相同或不同的行

工具: Join, Subtract and Group > Compare two Datasets to find common or distinct rows

目标: 查找表1中,某一列的值出现在表2中某一列的行

操作:

  • Compare:Select random lines on data 1

  • Using column: Column: 1

  • against:heatmap_test.tsv

  • and column:Column: 1

  • To find: Matching rows of 1st dataset

结果:

b9b71e8f6a396863fc06058e87def281.png

目标: 查找表1中,某一列的值没有出现在表2中某一列的行

操作:

  • Compare:Select random lines on data 1

  • Using column: Column: 1

  • against:heatmap_test.tsv

  • and column:Column: 1

  • To find: Non Matching rows of 1st dataset

结果:

因为表1所有的行,都在表2中,因此结果为空。

友情提示

使用问题请加入Galaxy中国交流群: 925694514(QQ群,免费加入),或者关注公众号:简说基因。

00be329530bb972f974f27960db5bfab.jpeg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:/a/120829.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

upload-labs-1

文章目录 Pass-01 Pass-01 先上传一个正常的图片&#xff0c;查看返回结果&#xff0c;结果中带有文件上传路径&#xff0c;可以进行利用&#xff1a; 上传一个恶意的webshell&#xff0c;里面写入一句话木马&#xff1a; <?php eval($_POST[cmd]); echo "hello&quo…

【单片机】初次实验:Keil51的使用

哔哩哔哩/CSDN/博客园&#xff1a;萌狼蓝天 延时器 delay(int count){int i,j;for(i0;i<count;i){for(j0;j<1000;j);} } 瞧一瞧 题目要求&#xff1a;P0口接八个发光二极管&#xff0c;先让后面四个灯亮&#xff0c;再让前面四个灯亮&#xff0c;循坏 # include <REGX…

京东数据分析(京东销量):2023年9月京东投影机行业品牌销售排行榜

鲸参谋监测的京东平台9月份投影机市场销售数据已出炉&#xff01; 根据鲸参谋电商数据分析平台的相关数据数据显示&#xff0c;9月份&#xff0c;京东平台投影机的销量为13万&#xff0c;环比下滑约17%&#xff0c;同比下滑约25%&#xff1b;销售额将近2.6亿&#xff0c;环比下…

eNsp下如何使用wireshark抓包

文章目录 拓扑图抓包操作 拓扑图 抓包操作 可以通过下图上的指示 来设置 Time列的显示样式。 这里有个缺点就是就是抓取ensp上的虚拟设备上的数据包时的&#xff0c;年月日时间显示的不对。暂时无解决办法。 一般选择 日期和时间&#xff08;日期和时间与当前标准时间对应上时…

程序员找副业有哪几个方向(纯干货)

前序 关于副业对于我自己的看法一般会先从自身的职业去拓展&#xff0c;毕竟自己所在的行业自己会更清楚有哪些资源去获取&#xff0c;那么首先我们可以先问万能的gpt我们程序员做副业有哪些实用的推荐&#xff0c;看看它怎么说的 外包网站接单&#xff1f; 每次大家提到程序…

python循环队列

导语&#xff1a; 队列是一种先进先出&#xff08;first in first out,FIFO&#xff09;的线性表&#xff0c;是一种常用的数据结构。 它只允许在表的前端&#xff08;front&#xff09;进行删除操作&#xff0c;而在表的后端&#xff08;rear&#xff09;进行插入操作&#…

C语言——计算1!+2!+3!+......+10!

#define _CRT_SECURE_NO_WARNINGS 1#include<stdio.h> int main() {int n;int ret 1;int sum 0;for(n 1; n < 10; n){ret * n;sum sum ret;}printf("sum %d\n",sum);return 0; }

C++基础——类与对象

1 概述 C是面向对象的语言&#xff0c;面向对象语言三大特性&#xff1a;封装、继承、多态。 C将万事万物抽象为对象&#xff0c;对象上有其属性和行为。 2 封装 2.1 封装的意义 封装是面向对象的三大特性之一&#xff0c;封装将属性和行为作为一个整体&#xff0c;对属性和…

接口自动化面试题

1.http请求都包含哪些内容&#xff0c;请求头和请求体有哪些内容 请求行/请求头/请求体/空行 请求行&#xff1a;请求方法字段、URL字段、http协议版本 例如&#xff1a;GET /index.html HTTP/1.1 请求方法&#xff1a;GET、POST、PUT、DELETE、OPTIONS、TRACE、CO…

2007-2022年全国各地级市金融机构网点数据

2007-2022年地级市金融机构网点数据 1、时间&#xff1a;2007-2022年 2、指标&#xff1a;行政区划代码、年份、城市名称、所属省份、银行网点数量、其中-政策性银行及国家开发银行营业网点占比、其中-商业银行营业网点数量占比、其中-农村金融机构营业网点数量占比 3、范围…

20.8 OpenSSL 套接字SSL传输文件

有了上面的基础那么传输文件的实现就变得简单了&#xff0c;在传输时通常我们需要打开文件&#xff0c;并每次读入1024个字节的数据包&#xff0c;通过SSL加密传输即可&#xff0c;此处的文件传输功能在原生套接字章节中也进行过详细讲解&#xff0c;此处我们还是使用原来的密钥…

Excel 转 Json 、Node.js实现(应用场景:i18n国际化)

创作灵感来源于在线转换是按照换行符去转换excel内容换行符后很难处理 本文是按单元格转换 const xlsx require(node-xlsx) const fs require(fs) const xlsxData xlsx.parse(./demo.xlsx) // 需要转换的excel文件// 数据处理 方便粘贴复制 const data xlsxData[2].data …

Hello Vue!

目录 前言 hello vue 为什么要new Vue(),而不能直接调用Vue()? Vue构造函数中的形参options template配置项 $mount()方法 前言 从此篇博客开始&#xff0c;将开启vue的学习&#xff0c;查缺补漏。 只要学计算机语言&#xff0c;那么hello xxx那一定是入门第一行代码了…

CSS 链接、列表、表格、盒子模型

一、CSS链接: 不同的链接可以由不同的样式。链接的样式可以用任何CSS属性&#xff08;比如颜色、字体、背景等&#xff09;。 链接的四种状态&#xff1a; a.link&#xff1a;正常&#xff0c;未访问过的链接&#xff1b; a.visited&#xff1a;用户已访问过的链接&#xf…

什么是CE认证?蓝牙耳机出口欧盟CE认证如何办理?CE-RED认证办理

蓝牙耳机是一种基于蓝牙技术的一种小型设备&#xff0c;只需要把这种轻巧的设备藏在耳机边而不需要直接使用通讯设备&#xff08;手机、电脑等&#xff09;就可以实现自由通话。蓝牙耳机就是将蓝牙技术应用在免持耳机上&#xff0c;让使用者可以免除恼人电线的牵绊&#xff0c;…

C++:类和对象(下)

1.再谈构造函数&#xff1a; 构造函数体赋值&#xff1a; 回顾&#xff1a;在创建对象时&#xff0c;编译器通过调用构造函数&#xff0c;给对象中各个成员变量一个合适的初始值。 class Date { public:Date(int year, int month, int day){_year year;_month month;_day d…

如何避免JavaScript中的内存泄漏?

前言 过去&#xff0c;我们浏览静态网站时无须过多关注内存管理&#xff0c;因为加载新页面时&#xff0c;之前的页面信息会从内存中删除。 然而&#xff0c;随着单页Web应用&#xff08;SPA&#xff09;的兴起&#xff0c;应用程序消耗的内存越来越多&#xff0c;这不仅会降低…

iOS加固原理与常见措施:保护移动应用程序安全的利器

目录 iOS加固原理与常见措施&#xff1a;保护移动应用程序安全的利器 前言 一、iOS加固的原理 1. 代码混淆 2. 加密算法 3. 防调试技术 4. 签名校验 二、iOS加固的常见措施 1. 代码混淆 2. 加密算法 3. 防调试技术 4. 签名校验 三、iOS加固的效果和注意事项 参考…

网络原理---拿捏传输层:TCP/UDP协议

文章目录 UDP协议源端口、目的端口UDP长度校验和 TCP协议源端口、目的端口4位首部长度、选项保留位&#xff1a;6位6个特殊标志位32位序号、32位确认序号&#xff1a;在确认应答机制中使用16位窗口大小&#xff1a;在流量控制机制中使用16位校验和 TCP协议 VS UDP协议 在本篇中…

Web时代下,软件系统的持续进步,是否能完全替代人力节省成本?

Web时代下&#xff0c;软件系统的持续进步&#xff0c;是否能完全替代人力节省成本&#xff1f; 随着全球经济的蓬勃发展&#xff0c;众多经济学家纷纷提出了新的管理理念&#xff0c;例如在20世纪50年代&#xff0c;西蒙提出管理依赖信息和决策的思想&#xff0c;但在同时期的…