完整的单细胞分析通用流程——从数据到可视化

kuaidi.ping-jia.net  作者:佚名   更新日期:2024-07-22
本章概述了典型的scRNA-seq分析工作流程的框架(图1)。 随后将更详细地描述每个分析步骤。

在开始分析本身之前,对实验设计进行一些讨论可能会有所帮助。最明显的问题是技术的选择,大致可以分为:

1.基于液滴的:10XGenomics,inDrop, Dropseq
2.基于板的独特分子识别符(UMI):CEL-seq,MARS-seq
3.基于板的读取:Smart-seq2
4.其他:sci-RNA-seq,Seq-Well
这些方法中的每一种都有其优点和缺点,其他地方对此进行了广泛讨论(Mereu等人( http://bioconductor.org/books/release/OSCA/overview.html#ref-mereu2019benchmarking ); Ziegenhain等人2017( http://bioconductor.org/books/release/OSCA/overview.html#ref-ziegenhain2017comparative ))。实际上,基于液滴的技术由于其吞吐量和每个细胞的低成本而成为当前的事实上的标准。基于板的方法可以捕获其他表型信息(例如形态),并且更适合定制。基于reads的方法提供了完整的转录本覆盖范围,这在某些应用(例如剪接,外显子组突变)中很有用; 基于UMI的方法将减轻PCR扩增噪声的影响,因此更为流行。方法的选择取决于具体情况——但是以下我们分析流程中的大多数方面都与技术无关。

下一个问题是应该捕获多少个细胞,以及应该对它们进行测序的深度。简短的答案是“尽可能多地花钱”。长答案是,这取决于分析的目的。如果我们旨在发现稀有的细胞亚群,那么我们需要更多的细胞。如果我们旨在刻画细微的差异,那么我们需要更多的测序深度。目前,对文献的非正式调查表明,典型的基于液滴的实验将捕获10,000至100,000个细胞,每个细胞以1,000至10,000个UMI进行测序(通常与细胞数量成反比)。基于液滴的方法还需要在通量和双峰速率之间进行权衡,从而影响测序的真正效率。

对于涉及多个样品或条件的研究,设计注意事项与批量RNA-seq实验的考虑相同。每个条件应有多个生物学重复,并且条件不应与批次混淆。请注意,单个细胞不是重复单元。相反,我们指的是来自重复供体或培养物的样品。

来自scRNA-seq实验的测序数据必须转换成可用于统计分析的表达矩阵。考虑到测序数据的离散性,通常是一个计数矩阵,其中包含映射到每个细胞中每个基因的UMI或读数的数量。量化表达的过程往往取决于技术:

1.对于10X Genomics数据,CellRanger软件包提供了一个自定义管道来获取计数矩阵。这使用 STAR 将reads与参考基因组比对,然后计算映射到每个基因的独特UMI的数量。
2.伪比对方法(例如 alevin )可更高效地获取计数矩阵。这避免了精准对齐的需要,从而减少了计算时间和内存使用量。
3.对于其他高度复用的协议, scPipe 软件包提供了更通用的管道来处理scRNA-seq数据。这使用Rsubread比对reads,然后对每个基因的UMI进行计数。
4.对于CEL-seq或CEL-seq2数据,scruff软件包提供了专用的量化管道。
5.对于基于reads的方法,我们通常可以重复使用处理大量RNA-seq数据相同的管道。
6.对于涉及spike-in转录本的任何数据,在比对和定量过程中应将spike-in序列作为参考基因组的一部分。
量化后,我们将计数矩阵导入R并创建 SingleCellExperiment 对象。这可以通过基本方法(例如 read.table() )来完成,然后再应用 SingleCellExperiment() 函数构造。另外,对于特定的文件格式,我们可以使用 DropletUtils (用于10X数据)或 tximport / tximeta 包(用于伪对齐方法)等专用方法。根据数据的来源,需要注意以下几点:

1.某些feature计数工具会在计数矩阵中报告映射统计信息(例如,未对齐或未分配的reads数)。尽管这些值可用于质量控制,但如果将其视为基因表达值,则会产生误导。因此,在进行进一步分析之前,应将其删除(或至少移至 colData )。
2.小心使用 ^ ERCC 正则表达式来检测人类数据中的spike-in行,其中计数矩阵的行名称是基因符号。 ERCC基因家族实际上存在于人类注释中,因此这将导致错误地将基因识别为spike-in转录本。通过使用带有标准标识符(例如Ensembl,Entrez)的计数矩阵,可以避免此问题。

在最简单的情况下,工作流程具有以下形式:
1.我们计算质量控制指标,以去除会干扰下游分析的低质量细胞。这些细胞在处理过程中可能已经损坏,或者可能没有被测序方案完全捕获。常用指标包括每个细胞的总计数,spike-in或线粒体reads的比例以及检测到的feature的数量。
2.我们将计数转换为标准化的表达值,以消除特定于细胞的偏倚(例如捕获效率)。这使我们能够在下游诸如聚类等步骤中在细胞间执行准确的比较。我们还应用了一个转换(通常是对数)来调整均值-方差关系。
3.我们执行feature选择以选择有兴趣的特征子集进行下游分析。这是通过对每个基因的细胞间差异建模并保留高度可变的基因来完成的。目的是减少不必要的基因的计算和噪声。
4.我们应用降维来压缩数据并进一步降低噪声。通常使用主成分分析来获得初始的低阶表示,以进行更多的计算工作,然后再采用更具激进的方法,例如t-随机邻居嵌入可视化。
5.我们根据其(标准化)表达谱的相似性将细胞分组。这旨在获得用作不同生物学状态的经验代表分组。我们通常通过识别细胞群之间差异表达的标记基因来解释这些分组。
诸如数据整合和细胞注释之类的其他步骤以后再进行讨论。

在这里,我们使用Macosko等人的基于液滴的视网膜数据集。( http://bioconductor.org/books/release/OSCA/overview.html#ref-macosko2015highly ),在 scRNAseq 包中有提供。 这个例子从计数矩阵开始,并以聚类结束,为生物学解释做准备。

  • 单细胞RNA测序
    答:数据的解读关键在于理解那些关键指标。细胞数、reads(测序读长)和基因表达等参数,是评估测序质量的基础。有效序列的数量和测序的饱和度,是衡量数据完整性和深度的两个重要标准,它们确保了我们能从海量数据中提取出有价值的信息。UMI(独特分子标识符)和Barcode技术的运用,使得单细胞分析更为精准。UMI ...
  • 单细胞交响乐1-理解scRNA常用的数据结构SingleCellExperiment
    答:我们首先要对单细胞分析的流程有一个大概的认识:上半场分析:这个差不多属于固定的流程了 下半场分析:这个就可以分出很多分支,例如 这是单细胞分析中的非常常用的S4对象,里面包罗万象,但依然有据可循。那么它是如何组织的?存储了什么内容?这就是我们这次要探索的任务。内容来自: https://osca....
  • 单细胞专题 | 带你“走近”单细胞转录组测序
    答:早期的技术,如SMART-Seq2和流式分选,尽管具有开创性,但成本高昂且技术局限性明显。然而,随着微流控技术的崛起,如10X Genomics Chromium,它显著降低了成本并提高了效率,使得大规模单细胞测序成为了可能。这一技术流程包括捕获、标记、反转录、构建文库、测序,以及后续的详尽数据分析,每一个步骤都...
  • 单细胞转录组之Scanpy - 轨迹推断/拟时序分析
    答:monocle是 进行拟时序分析常用的包,这是基于R完成的。但是之前也说了,monocle对于内存消耗很大,很容易出现内存不足的问题,scanpy则不会出现这个问题,而且scanpy内嵌轨迹推断函数,可以无缝衔接之前的单细胞分析。scanpy作者使用了小鼠造血髓样数据进行了轨迹分析,我们这儿为了方便,我们直接使用pbmc3k数据...
  • 【文献解读】综述-单细胞数据做跨物种比较
    答:这些技术以牺牲测序深度为代价增加了细胞宽度,被认为与较少细胞的高深度测序相比可以更可靠的鉴定细胞异质性。随着这些单细胞实验出现在分析这些数据集的高维性时,需要复杂的方法来应对统计学上的挑战。这两简单的描述单细胞分析数据流程seurat工具箱,其他可供选咋的方法在其他地方可以查阅。许多类似的包...
  • 2.单细胞 RNA-seq:计数矩阵的生成
    答:工作流程的步骤是:无论进行何种分析,基于每个条件的单个样本得出的关于总体的结论都是不可信的。 仍然需要生物学重复! 也就是说,如果您想得出与总体相对应的结论,而不单是做单个样本。我们首先讨论工作流程的第一部分,即从原始测序数据生成计数矩阵。我们将重点介绍基于液滴的方法使用的 3' 端测序...
  • 单细胞系列课程-10 Trajectory inference analysis of scRNA-seq data...
    答:在进行标准的单细胞分析流程得到聚类结果后,可以进行轨迹分析,并进一步进行基因表达分析。 但并不是只有聚类结果才可进行轨迹分析,标准分析中的很多步骤都可以follow with轨迹分析。 在整个生命生长发育过程中,细胞都在不断从一种功能“状态”过渡到另一种功能“状态”(如下图)。处于不同状态的细胞表达不同的基因,产...
  • 生信综述?带你解锁高分单细胞发文骚操作!
    答:我先讲的第一篇是2021年发表在J Am Soc Nephrol(IF:10.12)的篇名为“How to Get Started with Single Cell RNA Sequencing Data Analysis”的文章。好吧,看了一下日历,今年已经2022年了,就不吐槽这个文章时效性的问题了。但全文真的很简单,就是介绍了一下单细胞测序数据分析的基本流程。来...
  • 单细胞测序基本概念01
    答:单细胞测序数据即将迎来大爆发,内心有这种感觉很久了,但是总觉得有很多事要做,一直拖延到现在,前段时间又在忙着写标书,完善一些分析流程。 下定决心,开始做一些积累,为后期单细胞测序数据挖掘做铺垫。 首先要回答的一个问题是: 为什么要做单细胞测序? 此前的全基因组测序都基于Bulk...
  • 读《微流控芯片细胞分析》||单细胞背后的硬核技术
    答:对内,单细胞分析是对细胞内转录翻译调控等内部信号在单个细胞条件下分子水平的测量,其目标是从单个细胞层面上理解细胞群落。对外,单细胞分析可以研究细胞的迁移,趋化,交流,培养,以理解细胞的发育与病变。一般的基于NGS的单细胞流程是,组织解离,细胞消化,上微流控反映,建库测序,下游分析。其实我们...