单细胞RNA系列专题之一:单细胞RNA测序中质控之重要细节 (上篇)

kuaidi.ping-jia.net  作者:佚名   更新日期:2024-06-30

单细胞RNA测序是目前的一大热门。通过单细胞RNA测序,能够带给我们原来 bulk RNA (群体RNA)测序所得不到的信息,对于研究发育生物学、肿瘤生物学、免疫等有着极其重要的价值。单细胞测序的核心就是T-sne降维,以及聚类。那么在做这些工作之前的质控,会影响到整个分析的成败。这篇文章我就来给大家讲讲单细胞质控的那些事儿。

首先,我们介绍转录表达中的一个现象:transcriptional bursting。什么叫做trancriptional bursting? 如下图:

我们都知道,基因的转录和表达是有周期性的。当基因的转录被激活时,mRNA的水平会突然上升,然后慢慢下降,而相应的蛋白水平的变化会有一定的滞后。

这种周期的频率,以及每次波动的大小,在RNA分析中都会影响最终的表达量(可以是FPKM值、RPKM值)。这种周期性的转录现象,就是同transcriptional bursting有关。

我们在分析RNA表达量的时候,会发现这样一个现象,很多重要转录调控因子的FPKM值往往比较低。推测可能他们只在某一特定的时间段在特定的细胞中表达。

最终,我们拿到的结果可能就与实际情况出入很大,如下图所示。

我们来看看单细胞实验的整体流程如下图,分析一下哪些环节会带来偏好性,以及如何发现和质控 。

我们在做单细胞测序的时候,首先要做细胞分离。细胞分离必须要在短时间内完成,否则会影响到细胞的状态,甚至可能导致RNA从细胞中漏出。

从组织中分离出细胞往往很困难,具体方法可以参考《Tissue Handling and Dissociation for Single-Cell RNA-Seq》这本书。这里总结一下从组织中分离出单细胞可能遇到的问题:

在a图和b图中,一些高表达的基因被证明是由细胞分离的操作引起的。(van den Brink et al. Nature methods 2017)。

在细胞分离的过程中可能存在着污染。如图所示,在day3的样本中都存在着Neutrophil细胞的marker基因的表达。这有可能就是样本中存在着RNA的污染。

解决的方法就是利用空的droplets 来估计背景信号,利用软件SoupX来移除背景噪音(Young MD, BiorXiv 2018)。

我们在做细胞分选的过程中还会遇到如下的问题:

对于不同的单细胞测序的策略总结如下。因此,对于自己研究的组织应该采用什么样的单细胞策略,需要十分慎重。

另外,细胞质量比较差、亦或有很多死细胞或者细胞碎片的话,也会造成有很多droplet中存在多个细胞。如下图所示:有三个冻存样本有很高比列的droplet存在多个细胞。

在实际进行数据分析的过程中,这些droplet有可能会被单独聚为一类,也有可能会富集在两个细胞群的中间区域。

我们通过如下情况来判断是否存在douplet(含有多个细胞的液滴):

目前,有一系列的软件可以帮助我们筛选到doublet,例如:

检测doublet的软件算法都非常类似,基本的原理非常简单,有下面几个步骤:

在做单细胞测序的之前,需要对细胞进行裂解。不同的细胞组织,裂解条件也会不一样。如果裂解条件过于严格,就会影响文库制备。

构建文库同时加入浓度已知的spike-in,其中包括:

Spike-ins 的用途
1.去除技术噪音
2.检测捕获效率
3.计算RNA的起始量
4.数据的normalization

Spike-ins的问题
1.Spike-ins与内源基因还是有区别的,如在扩增偏好性方面
2.一般不用于drop-seq

sample Multiplexing(请参考以下网址) 很多时候并不好用。每个细胞的total reads依旧会有很大的区别。
https://emea.illumina.com/science/technology/next-generation-sequencing/plan-experiments/multiplex-sequencing.html

测序过程也有可能受到很多因素的影响:
1.文库复杂性太低,容易形成primer dimer
2.污染问题,请参考:
https://www.illumina.com/science/education/minimizing-index-hopping.html )

本次的分享就到这里,相信大家对整体的实验有了一定了解。下一篇我们继续讲解质控方面的细节。



  • 生命科学单细胞测序(10×genomics技术)的原理是什么?
    答:蓝海大脑生命科学冷冻电镜工作站研究人员表示:单细胞 RNA 测序(Single cell RNA sequencing,scRNA-seq)是一种在单细胞水平上利用 RNA 测序对特定细胞群体进行基因表达谱定量的高通量实验技术。待测组织经过单细胞分离、RNA 提取、逆转录、文库构建和测序,便可利用数据分析获得多个细胞的基因表达谱。1....
  • 2.单细胞 RNA-seq:计数矩阵的生成
    答:根据所使用的文库制备方法,RNA序列(也称为读序列或标签)将从转录本的3端(或5端)(10X Genomics, cell -seq2, Drop-seq, inDrops)或全长转录本(Smart-seq)中获得。针对感兴趣的生物学问题选择不同的方法。下面列出了这些方法的优点:3 '端测序与全长测序需要进行许多相同的分析步骤,但 3' 端...
  • 标准化单细胞RNA测序数据—陷阱和建议
    答:单细胞RNA测序(scRNA-seq)的目的通常是亚群鉴定和差异基因表达分析。 为避免“维度灾难”(curse of dimensionality),将高可变基因 (HVG) 用于聚类分析。 多项研究表明,HVG对原始计数矩阵标准化方法的选择很敏感。 原始read计数不能直接用于比较细胞之间的基因表达,因为它们会被实验技术和“无趣”的生物变异所混淆(干扰...
  • 9.单细胞 RNA-seq:聚类分析
    答:现在我们已经整合了高质量的细胞,我们想知道我们的细胞群中存在的不同细胞类型。目标:挑战:建议:在开始本课程之前,让我们命名为 clustering.R .首先加载我们需要的所有库。为了克服 scRNA-seq 数据的任何单个基因表达中的广泛技术噪音, Seurat 根据来自整合的最可变基因的表达的 PCA 分数将细胞分配到...
  • 深入理解R包AUcell对于分析单细胞的作用
    答:AUCell可以识别单细胞RNA序列数据中具有活跃基因集(例如signatures,基因模块...)的细胞。 AUCell使用“曲线下面积”(AUC)来计算输入基因集的关键子集是否在每个细胞的表达基因中富集。 AUC分数在所有细胞中的分布允许探索特征的相对表达。 由于计分方法是基于排名的,因此AUCell不受基因表达单位和标准化程序的影响。 此外...
  • 单细胞组学入门简述
    答:单细胞测序技术是指 在单个细胞水平上 ,对基因组、转录组、表观组等进行高通量测序分析的一项新技术。它能够揭示 单个细胞的基因结构和基因表达状态 ,反映 细胞间的异质性 ,在肿瘤学、发育生物学、免疫学、神经科学等领域发挥着重要作用。单细胞RNA-seq顾名思义就是单个细胞进行转录组测序,那么什么...
  • 【单细胞测序数据分析-1】认识Seurat对象数据结构/数据格式及操作_百 ...
    答:一文了解单细胞对象数据结构/数据格式,单细胞数据操作不迷茫。本文内容包括 单细胞seurat对象数据结构, 内容构成,对象的调用、操作,常见函数的应用等。默认情况下,我们是对Seurat中的RNA的Assay进行操作。可以通过 @active.assay 查看当前默认的assay,通过 DefaultAssay() 更改当前的默认assay。 结构 ...
  • 单细胞分析方法
    答:每种方法都有各自的优缺点,但一般说来,迄今为止发展起来的所有scrna-seq技术都共享一个共同的工作流程:样品制备、单细胞捕获、反转录和扩增、文库制备、测序和分析[3]。 1、样本制备(分离细胞) 单细胞RNA测序的一般实验工作流程始于将感兴趣的器官或组织解离。充分的样本准备是产生良好的单细胞转录组数据的先决...
  • 文献速递||R包DropletUtils-基于droplet的单细胞转录组数据cell calling...
    答:欢迎关注同名公主号: BBio 10X也是基于此文献的,考古一下,学习区分空载和真实细胞大体思路。当时已经存在的一些方法会假设含有细胞的GEMs会有更高的UMI总数,并以UMI数目指标筛选细胞,但是这种方法难以区分本就存在的小细胞和空载。文章开发了一种新方法,首先评估ambiant RNA的表达特征,然后检验每个...
  • 有关单细胞提取RNA,看大多都说直接裂解细胞后反转录,然后PCR。这样PCR时...
    答:这要看你引物设计如何了,跨内含子与否。。?如果引物设计的好,DNA污染对反转录是没有任何影响的。。不过还是建议你用DNA酶消化一下。。北京华越洋的RNA提取试剂盒,在RNA提取过程中清楚了DNA污染,所以得到的RNA没有任何DNA污染,可满足苛刻的荧光定量PCR对DNA无残留的要求。。北京华越洋生物。。外源RNA...