单细胞RNA系列专题之一:单细胞RNA测序中质控之重要细节 (下篇)

kuaidi.ping-jia.net  作者:佚名   更新日期:2024-06-30

单细胞RNA测序是目前的一大热门。通过单细胞RNA测序,能够带给我们原来 bulk RNA 测序所得不到的信息,对于研究发育生物学,肿瘤生物学,免疫等有着极其重要的价值。

单细胞测序的核心就是t-SNE降维,以及聚类。那么在做这些工作之前的质控,关乎到整个分析的成败。这篇文章我就继续给大家讲讲单细胞质控的那些事儿。

整个单细胞分析的核心其实就是确定cell types/ lineages。而在此之前的一步就是数据质控(QC, quanlity control)。我们在得到表达矩阵之后,会做Data normalization , 基因集筛选,批次效应的去除等工作;之后用PCA, t-SNE进行降维。如果在这一过程中发现了一些问题,我们会移除掉一些细胞,然后重新质控,降维分析。

一般而言,检查点有如下一些:

比对率比较低或者reads数较少有可能是建库原因。reads数较少可能与形成较多的primer dimer有关,而比对率低通常是建库的原因。

如果spike-in RNA序列很少,那么就可以直接说明是建库失败。如果spike-in 正常,但细胞RNA序列较少,可能是因为这个细胞本身就非常小,或者细胞在建库前出现了破损。

检测出基因的数量与细胞大小直接相关。如果检测出的基因(UMI)过多,很有可能是这个droplet里面有多个细胞,但是也不能排除是这个细胞就是非常的大。如下图,基因数目过多或者过少,都是不正常的情况。

通常而言,细胞大小、spike-in RNA比例与检测出的基因数往往是正相关的,如下图。

如果线粒体RNA过高,也同样预示着细胞有破损。因为当细胞破损时,细胞质RNA会跑出来,但是线粒体RNA由于有线粒体膜的包裹,不会溢出。因此,当细胞膜有破损时,线粒体RNA所占比例会很高。注意:当细胞出现apoptosis, necrosis的时候,也会有这种现象。

核糖体RNA占比较高时,可能是因为细胞内出现了较多的RNA降解。在全长单细胞转录组中,3’ 偏好性可用于检测细胞内是否存在大量RNA降解。

在上图中,我们对细胞中基因的数量、唯一比对率、基因body比对率、spike_detection等绘制分布图,然后剔除不合格细胞,将能够通过上述所有质控标准的细胞保留下来、用于后续分析。

基于PCA这一算法也可以进行质控,找到明显没有与其他细胞聚到一起的细胞。这些细胞被认为是质控不达标的细胞,如下图所示。

我们已经有了这么多方法和指标去过滤细胞,那么我们需要注意一些什么呢?

接下来就是要讨论如何过滤基因,对于绝大多数情况,我们不会用所有的基因去进行降维分析,所以需要进行基因集合的选取。

基因集的设定是基于:

(1)表达量高于一定阈值的基因
(2)在整个细胞样本中存在差异变化的基因
(3)用先验的知识去挑选基因
(4)bulk RNA测序中已经鉴定出来的差异基因。
(5)t-SNE降维时只选取前几个PC

有些时候,有些基因的表达异常高,这对后续数据的Normalization带来影响,有时也会考虑过滤掉。比如nulcear lncRNA ,、actin,、hemoglobin,、线粒体RNA和核糖体RNA。

有一些基因要根据情况需要进行移除,以下三点要根据课题情况来决定是否保留或者去除。

单细胞RNA测序最棘手的就是批次效应(batch effect)。 batch effects 可以发生在:

不同批次的样品或许采用的质控标准也应该不一样,通过PCA的结果,可以查看结果中是否有明显的批次效应。



  • 生命科学单细胞测序(10×genomics技术)的原理是什么?
    答:蓝海大脑生命科学冷冻电镜工作站研究人员表示:单细胞 RNA 测序(Single cell RNA sequencing,scRNA-seq)是一种在单细胞水平上利用 RNA 测序对特定细胞群体进行基因表达谱定量的高通量实验技术。待测组织经过单细胞分离、RNA 提取、逆转录、文库构建和测序,便可利用数据分析获得多个细胞的基因表达谱。1....
  • 2.单细胞 RNA-seq:计数矩阵的生成
    答:根据所使用的文库制备方法,RNA序列(也称为读序列或标签)将从转录本的3端(或5端)(10X Genomics, cell -seq2, Drop-seq, inDrops)或全长转录本(Smart-seq)中获得。针对感兴趣的生物学问题选择不同的方法。下面列出了这些方法的优点:3 '端测序与全长测序需要进行许多相同的分析步骤,但 3' 端...
  • 标准化单细胞RNA测序数据—陷阱和建议
    答:单细胞RNA测序(scRNA-seq)的目的通常是亚群鉴定和差异基因表达分析。 为避免“维度灾难”(curse of dimensionality),将高可变基因 (HVG) 用于聚类分析。 多项研究表明,HVG对原始计数矩阵标准化方法的选择很敏感。 原始read计数不能直接用于比较细胞之间的基因表达,因为它们会被实验技术和“无趣”的生物变异所混淆(干扰...
  • 9.单细胞 RNA-seq:聚类分析
    答:现在我们已经整合了高质量的细胞,我们想知道我们的细胞群中存在的不同细胞类型。目标:挑战:建议:在开始本课程之前,让我们命名为 clustering.R .首先加载我们需要的所有库。为了克服 scRNA-seq 数据的任何单个基因表达中的广泛技术噪音, Seurat 根据来自整合的最可变基因的表达的 PCA 分数将细胞分配到...
  • 深入理解R包AUcell对于分析单细胞的作用
    答:AUCell可以识别单细胞RNA序列数据中具有活跃基因集(例如signatures,基因模块...)的细胞。 AUCell使用“曲线下面积”(AUC)来计算输入基因集的关键子集是否在每个细胞的表达基因中富集。 AUC分数在所有细胞中的分布允许探索特征的相对表达。 由于计分方法是基于排名的,因此AUCell不受基因表达单位和标准化程序的影响。 此外...
  • 单细胞组学入门简述
    答:单细胞测序技术是指 在单个细胞水平上 ,对基因组、转录组、表观组等进行高通量测序分析的一项新技术。它能够揭示 单个细胞的基因结构和基因表达状态 ,反映 细胞间的异质性 ,在肿瘤学、发育生物学、免疫学、神经科学等领域发挥着重要作用。单细胞RNA-seq顾名思义就是单个细胞进行转录组测序,那么什么...
  • 【单细胞测序数据分析-1】认识Seurat对象数据结构/数据格式及操作_百 ...
    答:一文了解单细胞对象数据结构/数据格式,单细胞数据操作不迷茫。本文内容包括 单细胞seurat对象数据结构, 内容构成,对象的调用、操作,常见函数的应用等。默认情况下,我们是对Seurat中的RNA的Assay进行操作。可以通过 @active.assay 查看当前默认的assay,通过 DefaultAssay() 更改当前的默认assay。 结构 ...
  • 单细胞分析方法
    答:每种方法都有各自的优缺点,但一般说来,迄今为止发展起来的所有scrna-seq技术都共享一个共同的工作流程:样品制备、单细胞捕获、反转录和扩增、文库制备、测序和分析[3]。 1、样本制备(分离细胞) 单细胞RNA测序的一般实验工作流程始于将感兴趣的器官或组织解离。充分的样本准备是产生良好的单细胞转录组数据的先决...
  • 文献速递||R包DropletUtils-基于droplet的单细胞转录组数据cell calling...
    答:欢迎关注同名公主号: BBio 10X也是基于此文献的,考古一下,学习区分空载和真实细胞大体思路。当时已经存在的一些方法会假设含有细胞的GEMs会有更高的UMI总数,并以UMI数目指标筛选细胞,但是这种方法难以区分本就存在的小细胞和空载。文章开发了一种新方法,首先评估ambiant RNA的表达特征,然后检验每个...
  • 有关单细胞提取RNA,看大多都说直接裂解细胞后反转录,然后PCR。这样PCR时...
    答:这要看你引物设计如何了,跨内含子与否。。?如果引物设计的好,DNA污染对反转录是没有任何影响的。。不过还是建议你用DNA酶消化一下。。北京华越洋的RNA提取试剂盒,在RNA提取过程中清楚了DNA污染,所以得到的RNA没有任何DNA污染,可满足苛刻的荧光定量PCR对DNA无残留的要求。。北京华越洋生物。。外源RNA...