单细胞分析方法

kuaidi.ping-jia.net  作者:佚名   更新日期:2024-07-02
在过去的10年里,发展了多种单细胞方法,不同的方法影响了细胞的捕获和扩增,以及每个细胞的read深度等[2]。每种方法都有各自的优缺点,但一般说来,迄今为止发展起来的所有scrna-seq技术都共享一个共同的工作流程:样品制备、单细胞捕获、反转录和扩增、文库制备、测序和分析[3]。

1、样本制备(分离细胞)

单细胞RNA测序的一般实验工作流程始于将感兴趣的器官或组织解离。充分的样本准备是产生良好的单细胞转录组数据的先决条件。样品制备过程中的一个关键步骤,特别是对于致密组织,是单细胞解离,这通常是在温和的机械搅拌(在某些情况下通过组织灌注)下通过酶促实现的,以限制过多的细胞溶解和背景噪音[4]。蛋白水解酶(如胰蛋白酶、胶原酶或解放酶)的选择和消化时间也应仔细优化,以最大限度地提高单细胞产量,同时将细胞死亡降至最低。

2、分离单个细胞

早期的单细胞捕获方法包括显微移液法、显微操作法和激光捕获显微切割法[26-27]。与目前常用的几种方法相比,这些方法通量低,技术上具有挑战性,需要费时费力,但在需要分析的细胞数量较少(如稀有细胞)时仍可使用。

荧光激活细胞分选(FACS)是一种特殊类型的流式细胞术,它提供了一种方法,根据细胞大小和荧光,一次一个细胞地分选不同种类的细胞,与早期的方法相比,它具有更高的通量和更快的速度[29]。流式细胞仪的潜在限制包括需要特定的抗体,以及这些抗体可能干扰下游分析,但也包括所需的大量输入材料(微升甚至毫升),这阻碍了从极少量样本中分离细胞或分离稀有细胞[29]。

微流控设备的出现使其作为分离细胞的首选技术,因为它们相对于FACS和其他以前使用的方法需要较小体积的试剂。在微流控器件中,流体动力通量允许在几十微米到几百微米的通道中隔离和处理单胞,因此可以与单胞的大小相媲美。此外,微流控设备还可以使一些下游RNA处理反应自动进行测序,并允许测量和控制细胞外试剂浓度[30]。还有另外几种分离技术和平台,具体可看综述[31]。

2、mRNAs捕获

当细胞完全分离时,必须捕获成熟的mRNAs,将其反转录成cDNA并进行扩增。细胞捕获的方法通常由感兴趣样本的属性(如细胞大小)决定。目前的scRNA-seq技术可以根据单细胞分离和捕获的方法进行分类,不同的方法决定了不同的产量、规模、测序深度。细胞捕获的效率取决于所使用的protocol。许多设备使用特定的barcode,它允许同时捕获多个细胞和mRNA,这一过程被称为“‘multiplexing”。例如inDrop和Drop-Seq方法都在液滴中包括了barcode的cDNA制备。

3、逆转录和PCR扩增

通常,使用寡聚脱氧核糖核酸引物进行mRNA的RT。这样做是为了避免捕获其他结构RNA,如核糖体RNA和转运RNA,它们占细胞RNA的大部分。然而寡聚脱氧核糖核酸引物的使用存在捕获效率低的问题,据报道,对于目前的protocols,捕获效率约为10-15% [28]。

4、文库制备

当单细胞被成功捕获后,它们被裂解和加工,通过反转录产生第一链cDNA,然后进行第二链合成和PCR扩增。一些scRNA-seq方法(如Fluidigm C1 system)所需的PCR扩增反应与分析的细胞数量一样多,但是其它技术(诸如基于液滴的方法)允许使用细胞barcoding技术(如10xGenomics Chromium)的混合PCR,降低了成本并提高了产量[5]。

4、测序

5、mapping

执行下一代测序以产生原始数据,当单细胞捕获、文库准备和测序完成后,可以将原始数据进行read比对。最初为bulk RNA-seq开发的mapping工具也适用于scRNA-SEQ数据。有多重mapping工具可以用来比对RNA-seq数据,目前流行的比对工具如TopHat2、STAR和HISat在速度和准确性方面表现良好,它们可以有效地将数十亿read比对到参考基因组或转录组上。其中STAR是一种基于后缀数组(suffix-array based)的方法,比TopHat2更快,但它所需内存较大[22]。 HISAT是基于BWT和Ferragina-Manzini (FM)方法发展起来的。Kim等人的研究表明,HISat是目前最快的工具,并可以达到与其他可用的校准器( aligners)相等或更高的精度[23]。

可以使用通用的RNA-seq read比对软件STAR生成具有公共可用平台(如10x基因组公司的Cell Ranger)的特征条形码( feature-barcode)矩阵。也可以使用Cell Ranger来过滤和计数barcode以及UMI。cellranger、dropEst、Dr.seq2 、scPipe都可以用于生成表达矩阵。

6、转录本定量

不同处理步骤带来的高技术可变性阻碍了准确量化转录本丰度的能力。目前,这些问题的可能解决方案是增加定量标准,如添加Spike-in或唯一分子标识符(UMIS)。

Spike-ins 是一段已知序列和数量的RNA转录本,在细胞裂解液中按一定的量加入,用于校准rna杂交分析的测量在细胞分离后经过所有的实验步骤。使用这些分子的目的是提供关于分子的输入数量和观察到的测序读数数量之间的关系的信息。最受欢迎的一组插入是ERCC的92个单一异构体合成RNA[32]。使用Spike-ins 的一个复杂之处在于,它们通常以较高的相对浓度添加到单细胞样本中,因此,它们占据了相对较大的reads比例。因此,并不是所有的protocols都能适应它们的使用,例如基于液滴的技术 。

在scRNA-seq中使用的另一种类型的定量标准是UMI。它们是长度为4到12个核苷酸的核苷酸序列,它们在逆转录之前被合并到引物中,以唯一地对每个转录本的每个单独mRNA拷贝的5‘或3’端进行barcode。同一种mRNA连上同样的UMI概率几乎为0,则我们可以忽略由于PCR造成的误差,对于一种mRNA,测到的UMI数量可以近似看成mRNA的表达个数。其基本思想是能够根据不同UMI的数量对每个转录本进行量化,从而避免由于PCR扩增而产生的偏差。为了避免低估高表达基因的原始转录本数量,必须选择UMIS的长度n,以便唯一barcode的数量高于在最高水平表达的转录本的数量[28]。基于UMI的协议消除了与扩增和测序深度相关的偏差,因为与同一UMI相关联的、来自同一转录拷贝的多个读数被折叠成唯一的计数。然而,只有当所有的文库都以足够的深度进行测序,以便每个唯一标记的分子至少被观察到一次时,这才是正确的。如果不是,一些UMI标记的cDNA分子可能会丢失[33]。

由于固有的协议差异,Spike-ins和UMIS并不适用于所有的scRNA-seq技术。Spike-ins用于Smart-seq2和Super-seq等方法,但与基于液滴的方法不兼容,而UMIS通常应用于3'端测序技术(如Drop-Seq、InDrop和Mars-Seq)。因此,用户可以根据技术特性和优点、要测序的细胞数量和成本考虑来选择合适的scRNA-seq方法。

对于基因/转录本表达的定量,需要根据scRNA-seq捕获的转录本序列的范围,采用不同的方法。

对于全转录scRNA-seq方法(如Smart-seq2和MATQ-seq)生成的数据可以用为bulk RNA-seq开发的软件进行分析,以定量基因/转录本的表达。

①目前比较流行的基因组组装工具,包括Cufflinks、RSEM、Stringtie等已被广泛用于许多scRNA-seq研究,以获得相对基因/转录本的表达估计。其中Pertea等人[24]指出,StringTie在基因/转录本重建和表达定量方面优于其他工具。

对于3'端scRNA-seq协议(例如CELseq2、MARS-seq、Drop-Seq和InDrop),需要特定的算法来基于UMIS计算基因/转录本的表达。

①SAVER是一种基于UMI的有效工具,用于精确估计单细胞的基因表达[25]。

为了确保高质量的scRNA-seq数据,在细胞捕获之前适当地将组织解聚成单个细胞是至关重要的。单细胞制备的主要挑战包括起始样品的脆性、物理应力、缓冲液的选择、细胞解离的持续时间和单细胞的产量[18]。对于基于微滴的scRNA-seq,在单细胞捕获之前需要制备活的单细胞群体,并且必须清除细胞聚集体或成团、死亡细胞碎片和自由漂浮的mRNA。传统的细胞分离方法对于单细胞制备就足够了,但是必须优化将原生组织(primary tissue)酶解为单个活细胞的效率,以避免失去比较脆弱或容易死亡的细胞群体。细胞外基质的组成和组织的类型可能会影响消化酶的选择以及消化的温度和持续时间,还应根据原始组织来选择和优化酶解方法[15]。

建议解离后立即用钙黄绿素乙氧甲基等染料标记活细胞,然后用流式细胞仪(FACS)对活细胞进行阳性选择,而一些核酸结合染料,如碘化丙啶等,能与自由漂浮的双链核酸结合,通过流式细胞仪负选择来分离活细胞[4]。在单细胞制备过程中使用商用细胞碎片清除解决方案有助于提高样品清洁度和目标细胞计数的准确性,特别是对于存活率低于70%的细胞制剂[4]。

1、基于液滴(droplet)的方法: 基于液滴的方法使用了DNA条形码技术对包裹在油滴中的单个细胞进行分析,大大减少了每次分析所需的时间和成本。大规模分析使得每个样本可分析多达约10,000个细胞[11]。使得其具有高通量,捕获效率高的特点。并可以提供更大的细胞通量和更低的细胞测序成本。因此,基于液滴的方案适用于产生大量细胞来识别复杂组织或肿瘤样本的细胞亚群。

其中10x Genomics能够实现单细胞的3‘端或5’端测序,与平板或微流控方法相比,具有更高的规模和产量。每个细胞的read深度在10000到100000之间[13]。基于液滴的方法通过3‘端或5’端测序来量化转录本,与现有的其他方法(10-20%)相比,转录本回收率(3-10%)降低了[12]。

细胞检测率和mRNA的捕获效率偏低。在灵敏度和read深度方面表现也有所欠佳,但其灵敏度仍然足以用于复杂异质样品的大规模分析,并有望随着方法的不断优化和成本的降低而提高。

2、plate-based或microwell-based的方法: 如果实验中细胞量不大,可以考虑plate-based的方法,将细胞分选到含有建库PCR引物的多孔板中,捕获细胞的性价比比较低,但检出率较高[1],另外这些方法既支持3'/5'端测序,也支持全长转录本测序。基于平板或基于微孔板的方案使用自动微吸管或荧光激活细胞分选(FACS)将单个细胞分离到包含裂解缓冲液和其他处理试剂的96孔板或384孔板中。这种方法的一个主要优点是可以在分析前长期保存细胞样本,这为实验计划和协调提供了灵活性。plate-based或microwell-based的方法通常具有很高的灵敏度,并且可以可靠地量化每个细胞多达10,000个基因。然而,这种方法的一个缺点是必须在单独的well中进行逆转录,这可能会减慢工作流程,限制产出,并增加下游分析中的噪音[4]。

3、Microfluidic-based的方法: 基于微流控的自动化平台,在微流控器件中,流体动力通量(hydrodynamic flux)允许在几十微米到几百微米的通道中隔离和处理单个细胞,其通道大小可以与单个细胞的大小相媲美。这种方法的一个关键特点是可以在反转录和扩增之前在显微镜下查看捕获的细胞,此外,该技术所需的小体积细胞悬浮液(<150nL/孔)有助于降低外部污染的风险[6],并允许测量和控制细胞外试剂浓度。该方法具有较高的灵敏性,使用全长转录本测序可以检测单核苷酸变体和转录起始点的特征以及单等位基因和印记基因等[6]。但是由于每个微流控阵列的单细胞捕获位点数量有限,其在规模和产量方面受到限制(每次仅分析100到1,000个细胞)。

此外,这种方法还需要细胞大小的均匀性,而且比其他技术成本更高,限制了其在高通量实验中的使用。

CEL-SEQ方法[9],结合了通过体外转录的线性扩增和标记了barcode样本的汇集,以便于并行分析多个样本。

CEL-seq2方法[8],实现了单一文库的构建,并提高了转录本和基因检测的灵敏度。与可以捕获全长转录本的Smart-seq方法相比,CEL-seq2仅限于3‘端阅读,因此不能检测到替代剪接形式、microRNA或其他非多聚腺苷酸转录本[10]。

1、与基于液滴的方法不同,基于平板或基于微流控的方法可以容纳各种大小和形状的细胞,但受到繁琐和昂贵的单细胞选择和分离的限制[16]。

2、每种scRNA-seq协议都有其优缺点,考虑到研究目的和测序成本之间的平衡,可能需要采用特定的scRNA-seq技术[17]。

3、先前的一项研究表明,通过比较CEL-seq2、MARS-seq、Smart-seq、Drop-seq 在内的scRNA-seq技术,Smart-seq2可以检测到更多的表达基因。

4、盛等人表明[18],一种全长转录本测序方法MATQ-seq在检测低丰度基因方面可能优于Smart-seq2。

5、不同的scRNA-seq protocols具有不同的优点和缺点,一些发表的评论已经详细比较了其中的一部分[17,19]。

6、几种scRNA-seq技术可以捕获polyA+ 和 polyA− RNAs,例如SUPeR-seq [20]和MATQ-seq [21]。这些protocols对于对长非编码RNA(LncRNAs)和环装RNA(CircRNAs)进行测序非常有用。大量研究表明,lncRNAs和CircRNAs在细胞的多种生物学过程中发挥着重要作用,可能成为癌症的重要生物标志物。因此,这种scRNA-seq方法可以在单细胞水平上全面探索蛋白质编码和非编码RNA的表达动态。

  • 单细胞分析方法
    答:在单细胞制备过程中使用商用细胞碎片清除解决方案有助于提高样品清洁度和目标细胞计数的准确性,特别是对于存活率低于70%的细胞制剂[4]。 1、基于液滴(droplet)的方法: 基于液滴的方法使用了DNA条形码技术对包裹在油滴中的单个细胞进行分析,大大减少了每次分析所需的时间和成本。大规模分析使得每个样本可分析多达约10...
  • 玩转单细胞高级分析|单细胞inferCNV分析篇
    答:一、单细胞CNV分析方法 1.inferCNV inferCNV[1]是由Broad机构开发的比较权威的单细胞CNV分析工具,其分析思路为:在整个基因组范围内,将每个肿瘤细胞基因表达与平均表达或“正常”参考细胞基因表达对比,通过热图的形式展示每条染色体上的基因相对表达量。可以直观看出,相对于正常细胞来讲,肿瘤细胞基因组会...
  • 10X单细胞空间联合分析方法汇总及算法总结
    答:STdeconvolve 作为唯一的无参考方法,具有识别组织结构和细胞混合物的能力,但必须仔细处理细胞类型映射。彻底评估了各种情况,包括不同的组织、不同的技术和数据分辨率、不同数量的单细胞和斑点,以及用于分析的基因的数量和类型。因此, 建议调查人员首先确定我们评估的一些与他们自己的数据最匹配的情景,并...
  • 完整的单细胞分析流程——数据标化(normalization)
    答:由于问题是由于计数大小的差异而引起的,因此最直接的解决方案是降低取样高覆盖率细胞的以匹配低覆盖率细胞。 这使用大小因子来确定达到大小因子的第1个百分位数所需的每个细胞的减采样。 (只有少数几个具有较小尺寸因子的细胞被简单地按比例放大。我们不会尝试将采样缩减为最小尺寸因子,因为这将导致一个尺寸因子非常...
  • 6.单细胞 RNA-seq:归一化和 PCA 分析
    答:在 scRNA-seq 分析中,我们将比较细胞内不同基因的表达以对细胞进行聚类。 如果使用基于 3' 或 5' 液滴的方法,基因的长度不会影响分析,因为仅对转录物的 5' 或 3' 末端进行测序。 但是,如果使用全长测序,则应考虑转录本长度。主成分分析(PCA)是一种既强调相似性又强调变异的技术,用来在...
  • Cibersort(单细胞类型分析方法)
    答:2015年斯坦福大学医学院的一个研究团队,提出了一种分析单细胞类型的新方法。这种方法类似于分析一杯奶昔,以找到什么水果加入其中。本研究描述的方法称为Cibersort,在线发表于三月三十日的《自然方法》(Nature Methods)根据表面蛋白分析并分选单个细胞,是干细胞科学和癌症研究的一个重要组成部分。通过分析...
  • 单细胞分析实录(16): 非负矩阵分解(NMF)检测细胞异质性
    答:相信做过肿瘤单细胞的小伙伴对这个分析并不陌生,如果多读几篇文献,就能在CNS以及大子刊上面看到这个分析。放在我们单细胞转录组的场景下,就是需要将一个 基因×细胞 的表达矩阵(V),分解成 基因×表达程序 (W),与 表达程序×细胞 (H)两个矩阵的乘积。如下图:在 基因×表达程序 矩阵中,存放...
  • 单细胞分析
    答:单细胞分析的方法包括显微镜观察、流式细胞术、单细胞测序等。其中,单细胞测序技术是最常用的方法之一,通过对单个细胞的基因表达和变异情况进行检测和分析,可以获得细胞的基因组学和转录组学信息。单细胞分析在医学领域具有广泛的应用价值。例如,通过对肿瘤细胞的基因表达和变异情况进行检测和分析,可以揭示...
  • 单细胞分析--指定细胞群的筛选
    答:<- subset(object, subset = nFeature_RNA > 500 & percent.mt  >0)3 查看 head(object@meta.data)另外:对指定细胞群的筛选可以采用subset的方法进行。subset(object,idents=c(1,2,3),invert = TRUE)  ###invert 表示反选,若为TRUE,则表示选择除了该列表细胞群外的细胞群。
  • 单细胞之轨迹分析-5:slingshot
    答:轨迹分析系列:slingshot 包可以对单细胞RNA-seq数据进行细胞分化谱系构建和伪时间推断。它利用细胞聚类簇和空间降维信息,以无监督或半监督的方式学习细胞聚类群之间的关系,揭示细胞聚类簇之间的全局结构,并将该结构转换为由一维变量表示的平滑谱系,称之为“伪时间”。参考: Seurat对象、SingleCell...