转录组总结(热门10篇)
- 总结
- 2024-03-11 10:43:17
- 169
转录组总结 第1篇
下载后得到一个文件。里面有该实验的每个样本的SRR号。
将文件上传到服务器上。放到/project/home/lyang/sra/GSE130398/
下。
PS: 这样的把每个样本的命令存放在 脚本里面并不是我教的!
该过程比较耗费时间。无法设置线程数来加速转换。下次可以考虑同时并行多个xshell窗口来同时处理文件。
首先需要找到文库是双端还是单端测序:显示为双端测序
PS: 做软连接挺好的,这里如果要多个样本并行,并不需要开多个xshell窗口。可以使用控制脚本,控制代码大概如下:
假设我们有100个样本,就可以使用下面的脚本控制成为6批运行,相当于每次批量处理6个样本!
这里其实是提交了6个脚本!
不过,一般来说,大家的服务器是有任务调度系统的,很有可能是用不上这个脚本,我这里给学徒的是小型服务器,并没有安装复杂的任务调度系统。
转录组总结 第2篇
很多不了解RNA-Seq的小伙伴,在点开结题报告的一瞬间,满脑子的问号。这篇文章可以让您快速了解转录组测序结果的三大部分,着重关注重点分析内容。
看懂结果是解读数据的第一步,如何把结果和最终的课题相关联,这篇文章教您如何挖掘关键基因。
您找到关键基因后,怎么把它们对应的表达量,差异结果和注释信息放在一张表里呢?
这篇文章为您介绍了EXCEL的VLOOKUP函数,轻轻松松帮您把所有的信息整理在一起。
针对有参考基因组项目,当您最终确定了目标基因,准备设计引物进行qPCR验证或者后续的基因功能实验时,这两篇文章就为您介绍了如何在NCBI和Ensembl数据库里查找目标基因的序列。
做完转录组项目后
做完测序工作,数据分析和文章撰写,但是在文章发表前往往都需要上传数据。那么数据上传到哪里?怎么进行数据的上传?这篇软文就帮大家梳理了这些问题,从此数据上传So easy~
转录组结果出来后往往都会做qPCR验证,但有的时候结果验证不上很让人苦恼,这篇文章就为大家详细的分析了出现验证不上的几种原因。
那么除了qPCR,对于转录组测序后的其他验证方法,这篇文章也有详细的介绍。
以上就是我们在去年发表的一些技术类文章的总结,接下来我们也会接着发表更多的干货类软文,助您科研成功是我们的职责,让更多客户满意是我们的追求!如您有任何想要了解的转录组知识,也欢迎您在下方的评论区留言,我们会结合大家的建议,发表更贴近大家需求的干货文章。
转录组总结 第3篇
在mapping过程中,使用的参考基因组都是同一个文件,如,如果要比对到基因组和比对到转录组,只是选择使用的软件不同,不同的软件可以对参考序列有不同的处理。对于比对到转录组的软件,它可以自己分析并去除内含子之类的序列,然后再进行比对。
方法二:自行构建索引:自行下载文件,使用hisat2-build命令构建基因组索引
我自己下载了进行索引的构建。
目前mapping的工具有很多,比如bwa, hisat, star等。hisat2 是其中速度最快的。同时支持DNA和RNA数据的比对。
hisat2输出的比对好的sam文件,可以通过管道无缝连接转为bam格式,以及排序,也可以分开进行。
IGV安装时Windows电脑最好直接安装在默认目录下,我修改了目录到其他盘中后,连续尝试了2次安装,安装后均无法打开IGV的主页面。后来将IGV和Java都安装到了C盘后成功启动IGV主页面。
转录组总结 第4篇
polyA positive 建库方法人的成熟的mRNA含有polyA尾巴,用Oligo dT(带有一段T序列的磁珠)标签去拉polyA尾巴,就会把mRNA从众多种类的RNA中拉出来,这种富集mRNA的方法就是polyA positive 建库方法。
rRNA minus 建库方法我们知道细胞中rRNA的含量最多(占到 80%-90%),那我们就想办法去除掉建库中最大的干扰因素rRNA,这种富集mRNA的方法就是 rRNA minus 建库方法。
接下来我们分别对这两种建库方法做详细介绍:
成熟的mRNA都有polyA尾巴,我们先用Oligo dT(带有一段T序列的磁珠)标签去识别polyA尾巴从而将mRNA富集出来,然后用 random 的 primer 对它进行扩增,此时我们就拿到了第一条链 是一条RNA、DNA杂合体,我们再用 random 的 primer 对第二条链进行扩增这时我们得到一个DNA和DNA的结构,这时我们再用末端修复酶把它补平为平末端然后在它 3' 末端加一个A,加完A后相当于把平末端变成一个黏性末端,之后加上adapter,就可以上机进行测序了。
第一步还是提出 total 的 RNA,我们有18S、28S、等这些不同种类的 rRNA 的标签,它特异性的结合 rRNA 的序列,这些标签上都有抗体方便我们特异性的识别并把它们取出,此时我们就xxx细胞中含量最多的RNA种类 — rRNA,一般为了保险起见,需要进行两次rRNA minus的去除,然后对剩下的RNA进行打断和建库。
第一种方法 — polyA positive 只拿成熟的mRNA进行建库,第二种方法 — rRNA minus 除了有不成熟的 mRNA 还有一些 tRNA、microRNA 等等
如果你只想研究成熟的mRNA那肯定选第一种建库策略,如果想研究一些其他种类的RNA或者RNA降解的一些问题,那必须选择第二种建库策略。
从两种建库策略我们可以看出,第二种建库策略涵盖的信息多,那为什么我们不都选择第二种呢?因为:第一,第二种策略需要更多的测序量;第二,第二种建库策略更贵,贵大概两倍左右。
这篇paper对比了两种建库方法的基因表达量差异,发现了 rRNA minus 建库方法其原始数据更高一些,这也好理解,因为rRNA minus 建库时除了成熟的mRNA之外还有不成熟的mRNA(mRNA前体)和少量其他种类的RNA,所以最后测出的基因表达量整体比例会相对高一些。
比对到参考基因组上,这两种比对策略会有什么不同呢?看这篇文章里面的图:
第一列和第三列是来自不同数据集,但用同一种建库策略(polyA positive)的结果,差别不大;第二列和第四列使用的是 rRNA minus 建库策略。浅蓝色:Coding+UTR 表示能翻译成蛋白的 region浅黄色:Intronic 内含子区浅粉色:Intergenic 基因间 region浅紫色:Unaligned 不确定的 region
第一种建库策略 (polyA positive) 即第一列和第三列中大部分的reads( )落在了Coding region,即能翻译成蛋白的区域;第二种建库策略 (rRNA minus)即第二列和第四列中占比较多的是 Intergenic region以及 Intronic region,而在第一种建库策略中落在这两个区域的reads占比都很少,这是为什么呢?因为rRNA minus建库方法可以获得比较多的没有被剪切掉的Introne(内含子)的信息,用它来非常好的衡量 alternative splicing (可变剪切)。
整个基因组中能翻译成蛋白或有特定功能的序列我们叫做基因,基因在整个基因组中占比不超过5%,但是有一点我们必须清楚的知道,基因组绝大部分是可以被转录的只是除了那5%以外大部分序列并不行使功能,这就是为什么在使用rRNA minus建库的时候会有大部分的reads回帖到了 Intergenic region 即基因间区。
转录组总结 第5篇
测序的时候是选择单端测序还是双端测序?
答:能选择双端测序的时候一定选双端测序。
SE or PE思考这样一个问题:人的基因组大概有3G,如果用 4^n
来覆盖大概有多长的序列能够unique map到基因组上呢?
大概是28-29bp,所有说那些短于28/29bp的序列,比对到参考基因组时会有好几个结果,也就是说这些短序列在基因组上找位置的时候能找到好多个。mapping到这么多位置上以至于我们不知道到底应该是哪个,这时候就应该延长测序长度。
illumina二代测序已经可以测到150bp,但是150bp map到一端还是不够的,所以我们在建库的时候打断成的片段尽量长一些,打断到500bp进行双端测序,上游也就是5' 端可以测到150bp,下游也就是reads2也可以测150bp,这样的话中间还空了200bp(500-150*2=200),在回帖到参考基因组上时,我们的reads1回帖到一个位置,reads2也回帖到一个位置,当这两个位置离的特别近大概在100/200bp的时候,我们就可以确定这是一个合理的回帖。这样我们就用了500bp的信息确定了这对reads 回帖到参考基因组的具体位置,也就是说用500bp的信息基本上实现了unique map。
所以说建议用双端测序(PE),这样可以使序列能够更好更准确的回帖到参考基因组上,基本上能够保证80%都是unique map。
但在测小RNA时是例外,比如microRNA,成熟的microRNA只有21-22bp,双端测150bp纯属浪费,单端测50bp就可以实现unique map。再比如最长的snoRNA也就300-400bp左右;成熟的tRNA 只有70bp; 成熟的snRNA也就70-80bp,所以说测这些小RNA(miRNA)的时候都不用双端150bp。
总结一下,针对mRNA建库无论是 polyA positive 还是 rRNA minus 也不管分不分链,一定要使用双端测序,小RNA建库的话要根据分析的内容确定是双端测序还是单端测序。
转录组总结 第6篇
临床相关性
对病变组织和健康组织进行比较分析的空间转录组学研究已经开始阐明预后、最佳治疗和潜在的治疗靶点。然而,这样的研究在样本量上是有限的,到目前为止还处于探索阶段。为了加快数据生成的速度,分析可以集中在描述数量较少的驱动疾病相关表型的感兴趣区域。除了描述患者预后的趋势外,研究现有药物,尤其是重新利用的药物,如何影响疾病驱动细胞类型的时空基因表达模式,可能有助于深入了解潜在的治疗药物。在这方面,通过NASC-seq等方法监测mRNA转录对刺激的反应可能有助于更好地理解药物干扰如何影响病变细胞的空间转录组。一旦这些患者组织数据被整合,深度学习模型可以帮助识别与生存结果或治疗反应最相关的空间表达模式,潜在地突出有利的靶标,以便在治疗期间重现或补充干预节点。
随着更多空间转录组学分析的进行,解开确定的、与疾病相关的细胞类型及其基因模块将变得越来越具有挑战性。越来越多的细胞类型在组织中被识别和定位,Seurat Integration、Harmony 和 LIGER 等工具可能会升级以整合不同实验测定的数据,来确定是否在每个组织中始终观察到特定的细胞类型。此外,整合每个器官系统和疾病的空间转录组学数据将是有价值的,例如SpatialDB数据库、Allen Brain Atlas等。最终,更明确的疾病驱动细胞类型的空间转录组,特别是对于细胞功能特别依赖于原位环境和邻近细胞群的情况,可能产生更有效的生物学机制以用于治疗靶向。
检测空间转录组的技术正在迅速发展,因此没有单一的空间转录组学技术适合所有应用。根据所提出的生物学问题,实验方法可以将任何空间转录组学方法与scRNA-seq结合起来。除了开发增强的方法外,选择整合这些数据的算法是至关重要的,因为空间转录组学方法还不存在以单细胞分辨率、scRNA-seq深度和整个转录组覆盖率对组织进行空间解析的方法。这种整合的方法可以在空间上绘制发育和疾病中的特定细胞亚群,并阐明这些细胞亚群协同形成组织表型的机制。
参考文献
图片均来源于参考文献,如有侵权请联系删除。
转录组总结 第7篇
常用的基于比对的基因定量软件:Htseq-count,bedtools mutilcov,featureCount。
featureCount是subread套件的一个模块,最大的优点就是速度非常快,使用全部overlap的reads计数,灵活考虑多比对的reads的计数。
所以在安装时应:
关于使用:
文件的表达矩阵:
Gene id:基因的ensemble基因号;从左到右依次:
Chr:多个外显子所在的染色体编号;
Start:多个外显子起始位点,与前面一一对应
End:多个外显子终止位点,与前面一一对应
Strand:正负链
Length:基因长度
sampleID:一列代表一个样本,数值表示比对到该基因上的read数目
Salmon可以快速从fastq快速得到基因表达 ,需要下载cDNA参考基因组。
构建cDNA序列的索引:下载 这个文件
具体代码:
结果文件:
name中的T表示转录本
Name:target transcript 名称,由输入的 transcript database (FASTA file)所提供。各列含义解析:
Length:target transcript 长度,即有多少个核苷酸。
EffectiveLength:target transcript 计算的有效长度。此项考虑了所有建模的因素,这将影响从这个转录本中
取样片段的概率,包括片段长度分布和序列特异性和gc片段偏好
TPM:估计转录本的表达量
NumReads:估计比对到每个转录本的reads数。
Salmon输出其他文件:
:JSON格式文件,记录salmon程序运行的命令和参数
:Observed library format counts。当运行salmon是 mapping-based mode时,则会生成改文件。JSON格式文件,记录有关文库格式和reads比对的情况。
:Equivalence class file。当Salmon运行时,应用参数--dumpEq,则会生成此文件。
aux_info:辅助文件夹,内含多个文件
:在辅助文件夹中,该文件记录的是观察到的片段长度分布的近似值
:Sequence-specific bias files
, :当Salmon运行时,应用fragment-GC bias correction,在辅助文件夹中则会生成这两个文件。记录Fragment-GC bias。
:JSON格式文件,记录salmon程序运行的统计信息
:tab分隔符的文本文件,含有两列。记录的是每个转录本对应的 the number of uniquelymapping reads 和 the total number of ambiguously-mapping reads
转录组总结 第8篇
差异基因的Log2Foldchange相关性分析 (参考文章转录组分析5——差异表达分析)
三种方法的差异基因的PCA+heatmap+Venn(参考3大差异分析r包:DESeq2、edgeR和limma)
有文章说edgeR分析速度快,但是从这次分析看,它反而是最慢的,另外edgeR的假阳性太高;
DESeq2在计算标准化因子时耗时太久,但它的标准化因子相对来说最合理;
三种方法得到的差异基因不是完全重叠的,但再提取它们所有的差异基因log2Foldchange值做相关性分析,发现相似度极高,也就是说明三种方法差异不是很大;
最后大家选择适合自己的方法做差异分析即可。
转录组总结 第9篇
泊松分布就一个参数叫 lambda,期望(E),和方差(Var)都是 lambda。用来衡量不太容易发生的事儿:比如,xxx学有一定概率会被雷劈,那么他这一生当中被雷劈的次数基本上是xxx松分布的。到我们的基因组上来说就是,有多少条 reads
能够 map 到Gene A
上,在最早的时候我们认为它是xxx松分布的,后来我们就认为它符合负二项分布。
什么是负二项分布?有两盒火柴分别有A根火柴和B根火柴,把A盒火柴放到左口袋里,把B盒火柴放到右口袋里,每次用火柴的时候随机从左口袋或者右口袋取一根,直到有第一盒火柴用完的时候,那用火柴的次数 x,一定满足:sum(A, B) >= x >= min(A, B)
再次举例说明:一袋小球里面有黑球和白球,黑球有a个,白球有b个,每次从袋子里随机抽一个小球,需要抽多少次才能把其中一种颜色的球抽完?这个问题就和我们基因组的问题很接近了,我们基因组可以分成两个部分:基因 和 非基因。对于任意一个基因 gene1
,基因上就是:gene1
,non-gene1
,测序比对后就会发现有一些reads
会map到gene1
的位置,那么能map到gene1
位置的事件就近似服从负二项分布。因为就相当于从整体里面进行抽样,我认为能map到gene1
就是从整体里面去抽样正好把gene1
抽出来了,抽完之后reads再回帖回来。
负二项分布和泊松分布其实差不太多,在次数比较大的时候这两个没啥区别,次数比较小的时候负二项分布的离散性更低一些。基本上我们现在做的基因组的统计检验都是用负二项分布。
使用DESeq2包进行差异表达分析首先需要计算 Raw reads Count
方法1. 使用知乎Live主—xxx的代码,或者根据代码修改自己的需求;优点:在R中完成操作,支持多线程;缺点:内存占用比较大;
方法2. 使用htseq-count程序优点:节省内存缺点:不够优雅,需要对读取进来的内容再做处理
方法1,2本质没有差别,我们以方法1为例子进行演示
将xxx写的计算 Raw reads Count
的R代码文件放到服务器上(R代码解释后面讲)
我们在服务器的命令行输入 Rscript
就会告诉我们命令格式:
单看不太容易看明白其实举个例子就很简单,比如,我们有两个分组 WT、KO,那么--input
--label
--type
--threads
--output
这些命令后面的文件格式按照上面给的要求写好就是这个样子:
注意,--input
和--label
后面的文件是一一对应的; --threads
是指定用多少个核,我们这里有6个文件,所以指定的是6个核,多了也没用少了浪费时间; --output
最后会保存成R语言能够读成的格式,自己起个名字后缀加上.RData
就行。
各个参数写好之后还要调整一下(中间可以有空格但不能换行):
这样我们就可以在服务器上运行计算gene
的Raw reads Count
的程序了,为什么不直接在RStudio上直接运行,还要这么费劲的将R代码整到服务器上,因为个人电脑带不起来呀!!!
我们把 文件(计算
gene
的Raw reads Count
的代码文件)里的R代码理解一下
打印刚刚的说明文档代码:
读参数,输入的参数是通过下面这样的方式读进来的:
检查是否有这些:--input
--label
--type
--threads
--output
指定的参数,如果没有就停止,然后打印说明文档(my_help())并报出错误提示:Input parameters error!
:
如果输入的都没有问题,就会把变量都定义好,告诉你INPUT_BAM
INPUT_LABEL
INPUT_TYPE
CPU_THREADS
OUTPUT_FILE
都是些啥:
然后检查BAM文件是否存在:
BAM文件是比对的结果文件,里面存放了哪些reads比对到了基因组的哪些位置,我们就是要用BAM文件来计算Raw reads Count
,所以必须检查是否存在BAMwe文件。如果BAM文件不存在会报:.......Not Exist!
,如果所有的文件都存在所有的设置没有问题,下面就开始正式的把这些包都载入:
这个包BiocParallel
是xxx面并行的一个包;这个包GenomicFeatures
是做GTF分析必须得用的用来真正数 reads count
的;这个包Rsamtools
是打开BAM文件用的;这个包是人的参考基因组转录组信息。
把input_bam
信息读进来:
读进来之后把 bam 文件标上 label 就是告诉你每个 bam 是什么:
这两部整合起来就是:
读入人的GTF文件:
一切准备就绪我们就开始counting了:
其中 mode
这个参数有三个选项,这里用的是mode=_Union_
默认情况下都是Union
模式,另外两个分别是:IntersectionStrict
和 IntersectionNotEmpty
此时,count
完成,保存有用的信息成为一个对象并按照指定的输出位置输出文件:
最后清空所有变量,操作完成~
计算完gene
的raw reads count
得到结果文件后我们就可以用DESeq2包进行差异表达分析了。
读入上一步计算raw reads count
的结果文件 —:
我们看下上面代码在xxx的运行结果:
colData()
运行结果告诉了我们文件里的保存信息。我们可以看到
case_type
那一列是样本信息分别是 WT 和 KO。
结果读进来后第一步就应该构建 DESeq 的 DataSet,因为我们这里只需要区分WT 和 KO,所以我们这里面的参数design
只需要按照case_type
去区分就可以了,即:design = ~case_type
做差异表达分析就是将上一步构建好的DESeq的DataSet — DES_set,扔到函数DESeq
中即可:
就是最终的结果文件了,我们打开看一下
我们使用的是mapIds
这个函数来准换的,其中各参数解释:
这行代码就是将转换好的gene_symbol
加到原来的结果文件中,形成新的带有基因symbol的结果文件 ——
加餐:
转录组总结 第10篇
关于MiltiQC报告:
整合了所以文件的Fastqc报告,查看起来非常方便。
可以看到部分序列的接头还存在。
对其中一个文件进行查看,得知其使用的是Illumina ,这对后续trim_galore操作有指导意义。
注意:用conda安装trim_galore时,名称写为trim-galore
,在使用时写为trim_galore
做完修剪后的文件:
修剪后的fastQC质控情况如下:
接头序列被完全清除干净。
本文由admin于2024-03-11发表在叁佰资料网,如有疑问,请联系我们。
本文链接:http://www.sanbaiyy.com/p/16601.html
上一篇
写知识总结(汇总19篇)
下一篇
古诗班总结(6篇)