# GenoTyping unzip apt-1.18.1-src.zip cd apt-1.18.1/sdk ./configure make [toc] ## Reference * [Single-cell technologies: From research to application](https://www.sciencedirect.com/science/article/pii/S2666675822001382) * [Single-cell RNA sequencing technologies and applications: A brief overview](https://onlinelibrary.wiley.com/doi/full/10.1002/ctm2.694) * [Comparative analysis of common alignment tools for single-cell RNA sequencing](https://academic.oup.com/gigascience/article/doi/10.1093/gigascience/giac001/6515741) Exponential scaling of single-cell RNA-seq in the past decade [Alevin-fry unlocks rapid, accurate, and memory-frugal quantification of single-cell RNA-seq data](https://www.biorxiv.org/content/10.1101/2021.06.29.450377v2.full) ) ## Fundamental knowledge points ![](https://i.imgur.com/YnPqAkP.png) ::: :::info single-cell technologies單細胞技術 --- - Single-cell sequencing 單細胞定序是取得DNA或RNA分子序列的技術。 - Single-cell surface functionalization 單細胞表面功能化就是一種將分子或生物學實驗物質添加到單個細胞表面,影響 單細胞改變性質的技術。 - Dynamic shell technology on a single-cell surface 單細胞表面動態殼技術是一種將可被控的動態分子添加到單細胞表面,由調控動態分子影響單細胞改變性質的技術。 - Intracellular electrophysiology 細胞內電生理學是一種用於測量單個細胞膜電位、細胞膜電流和細胞內電位等電生理信號的技術。 - High-throughput single-cell isolation 高通量單細胞分離是一種快速高通量地從複雜樣本中分離單個細胞的技術。 ::: :::info 單細胞組學測序研究始於 2009 年,當時 Tang 等人描述了單細胞 RNA 測序 (scRNA-seq) 分析 單細胞可被定序的内容: - Single-cell DNA genome sequencing - Single-cell DNA methylome sequencing - scRNA-seq (single-cell RNA sequencing) - scATAC-seq (single-cell sequencing assay of transposase accessible chromatin) 測定單個細胞的染色質可及性和基因組的開放性。該技術通過利用轉座酶將開放染色質區域的 DNA 片段特異性地標記並擴增,進行測序,從而揭示細胞內各種類型的調控元件和功能區域,例如啟動子、增強子、轉錄因子結合位點等。 - scWGS (Single-cell Whole Genome Sequencing) 一種單細胞基因體放大技術,可以將單個細胞的基因體進行放大,從而進行全基因體分析。 - SMOOTH-seq (single-molecule real-time sequencing of long fragments amplified through transposon insertion) - SCAN-seq ::: :::info - 細胞差異的時間變化: - 基因組 (Genomics): 通過定序分析研究單個細胞中的基因組。 - 表觀基因組(epigenetic genome or epigenome) 是基因組的一個子集,是對基因組信息的補充和擴展,更能反映生物體基因表達的調控情況和表型特徵。 - single-cell HiC 研究染色體的三維結構和基因組的相互作用。通過將交聯的染色體斷裂後,進行連接和定向的端修飾,再進行DNA片段化和測序,最終得到染色體間相互作用的信息和染色體內的空間結構信息。 - single-cell DNA methylome sequencing 使用化學方法或酶法對 DNA 進行親甲基化的修飾,使得甲基化和未甲基化的 DNA 片段具有不同的特性,進而進行分離、富集和測序。 - 轉錄組 (Transcriptomics): 通過檢測和分析細胞中表達的RNA來了解細胞轉錄情況。 - 蛋白質組 (Proteomics): 通過檢測和鑒定單個細胞中的蛋白質來了解蛋白質組成。 - 代謝組 (Metabolomics): 通過檢測和鑒定單個細胞中的代謝物質,如糖、脂質、胺基酸等,來了解細胞的代謝情況。 - 單細胞多組學(Single-cell multi-omics) 同時測定多種不同的組學,綜合系統性分析。 - 細胞差異的空間變化:細胞的組織及其相互作用 - 空間組學(Spatial omics) :技術通常分為基於成像和基於測序 - imaging based - FISH(Fluorescence in situ hybridization) 通過使用標記了特定核酸序列的螢光探針,使其與細胞核酸中的目標序列進行高度專一的結合,從而實現對目標序列的檢測和成像。缺點是吞吐量,因為雜交和圖像捕獲都非常耗時。 - sequencing based 通過將條形碼探針預加載到載玻片表面的指定位置來原位捕獲和量化 RNA 轉錄本。受表面探針密度限制的分辨率。 - 空間蛋白質組學 (spatial proteomics) - 細胞差異的比較應用: - 細胞差異的分類: - Human Cell Atlas(HCA) - Mouse Cell Atlas(MCA) - Mouse RNA Atlas - Mouse ATAC Atlas - Plant Cell Atlas - 病變的細胞差異: - 疾病发生 - oncology腫瘤學 - immunology免疫學 - 發育的細胞差異: - assisted reproduction輔助生殖 - 胚胎發育 - 植物育種 ::: :::info epigenetics表觀遺傳學:在「非DNA序列變化」情況下,遺傳信息通過某些機制或途徑,發生可保存並傳遞給子代的基因表達或細胞表型之改變 - 調控來自轉錄前 -- DNA甲基化 -- RNA甲基化 -- RNA干擾 -- 核小體定位 -- 染色質重構 染色質是DNA和組蛋白結合的複合體,DNA纏繞著組蛋白球體,若DNA纏繞組蛋白的方式發生改變,基因表達也將改變。 -- 組蛋白修飾 - 調控來自轉錄後 -- 非編碼RNA -- 微小RNA -- 反義RNA -- 內含子及核糖開關 ::: :::info Gene expression --- 特定基因的表達水平,也可以理解為該基因在細胞內的活躍程度或產生的蛋白質數量。 ![](https://i.imgur.com/GRWv88T.png) ::: ## Flow ![](https://i.imgur.com/aSn3XvP.png) ### Input - Single cell isolation method - Flow Cytometry 流式細胞儀:該方法使用激光和特殊檢測器,根據細胞的物理和/或熒光特徵對單個細胞進行分類。 - Laser capture microdissection (LCM) 激光捕獲微切:該方法使用激光從組織樣本中物理切割單個細胞。 - Microfluidics(Micro-fluidic) 微流體學(微流體):該方法使用微流體設備,根據細胞的大小、形狀和其他物理特徵對單個細胞進行分離。 - Density Gradient Centrifugation 密度梯度離心分選:通過對細胞懸浮液進行離心分選以獲得不同密度的細胞群。在這種技術中,細胞懸浮液放置在一個密度梯度管中,其中密度逐漸增加。隨著離心速度的增加,細胞將逐漸沿密度梯度分離。 - Magnetic Bead Sorting 磁性珠分選:這種方法通常是在細胞表面添加磁性珠子,然後在磁場中對其進行分離。 - Droplet-based Single Cell Isolation(Microdroplets or nano-droplet) 滴狀單細胞分離(微滴):該方法使用微小滴作為微反應器,以隔離單個細胞並執行各種下游應用,如PCR和測序。 - Fluorescence-Activated Cell Sorting(FACS)熒光激活細胞分選:細胞首先被標記為特定的熒光蛋白,然後在熒光檢測器的控制下通過離心分選進行分離。 - pico-well微型孔洞:將細胞分別分配到微型孔洞(pico-well)中進行分析,每個pico-well大小均勻,容易控制細胞數量,並且可以保證各個單元的獨立性和單細胞純度。 ### Library Creation - Identify - Barcode : Identify cell - unique multiplex index(UMI) : Identify reads - RNA capture methods - No poly(A) - minus RNA detection - poly(A) - DNA - RNA - cDNA(complementary DNA):以RNA(通常是mRNA)為模板利用反轉錄酶合成的複製品,經常用來將真核生物的基因(以mRNA形式)複製到原核生物細胞中。一個cDNA可含有一個或多個mRNA,許多來自不同基因的mRNA的cDNA稱為cDNA library。 - Polymerase Chain Reaction(PCR):通過不斷重複的加熱和冷卻循環,使DNA的聚合酶在模板DNA上進行擴增。目前PCR擴增策略有兩種: - 一種使用 SMART 技術 - In Vitro Transcription(IVT) :::info | company | platform | 做法與特色| | -------- | -------- | -------- | | 10X Genomics | Chromium | Microdroplets+PCR+Barcode+UMI | | Single Cell Discoveries | SORT-seq | FACS | | Single Cell Discoveries | VASA-seq | FACS | | Illumina | Smart-seq | FACS+PCR | |Clontech | iCell8 | | |BD Bioscience|BD Rhapsody 單細胞分析系統|PCR實現單細胞捕獲和成百上千個單細胞的條形碼分析,以分析基因組和蛋白質組信息| |Fluidigm | C1 | | ::: ### Sequence :::info | company | platform | 做法與特色| | -------- | -------- | -------- | | Illumina | | | | BG/MGI | | | | Ion Torrent | | | | Ocford Nanopore| | | | PacBio | | | ::: ### Data Analysis - Data preprocessing ![](https://i.imgur.com/SyjXjB1.png) - General analyses - Low quality Cell Filtration - Normalization :::info | 号 | 名称<div style="width:300px"> | 基本思想 | 优点 | 缺点 | | --- | --- | --- | --- | --- | | 1 | TPM (Transcripts Per Million) | 对每个基因在每个细胞中的表达量除以该细胞的总RNA分子数,再乘以1,000,000。 | 能够考虑到每个基因的长度,能够跨样本比较RNA表达。 | 不能够考虑到不同细胞之间RNA分子数的差异,因此不能用于去除批次效应或通过样本间归一化来比较样本 | | 2 | FPKM (Fragments Per Kilobase of transcript per Million mapped reads) | 考虑到了RNA的长度和测序深度。 | 能够跨样本比较RNA表达。 | 受到测序深度和不同样本RNA分子数的影响。 | | 3 | RPKM (Reads Per Kilobase of transcript per Million mapped reads) | 跟FPKM非常相似,只是用读数而不是片段数来计算RNA的表达。 | 能够跨样本比较RNA表达。 | 受到测序深度和不同样本RNA分子数的影响。 | | 4 | DESeq2 normalization | 通过DESeq2进行样本间差异分析并进行归一化,去除批次效应。 | 能够去除批次效应。 | 需要考虑到模型的假设前提,不适用于每个基因都有较高的表达水平的情况。 | | 5 | scran normalization | 对细胞进行分组,并对每个分组内的细胞进行归一化,然后将不同分组的细胞进行归一化。 | 适用于不同细胞类型、批次、条件之间的比较。 | 可能需要对分组进行手动优化,比较依赖于前期的质控和过滤。 | | 6 | size factor normalization | 通过求解每个细胞的大小因子(size factor)进行归一化,用于去除不同细胞之间RNA分子数的差异。 | 适用于不同细胞之间的比较。 | 不能用于去除批次效应或通过样本间归一化来比较样本。 | | 7 | SCnorm | 通过将分布相似的基因分到同一组中进行归一化,同时考虑到了不同细胞之间RNA分子数的差异。 | 适用于不同细胞之间的比较。 | 需要考虑到模型的假设前提。 | | 8 | Z-score | 标准化数据使其均值为0,标准差为1 | 简单易懂,易于实现 | 对离群值较为敏感 | | 9 | Quantile | 通过对样本的分位数进行归一化来使数据分布相似 | 适用于不同测序深度和批次之间的数据比较 | 对数据中的离群值敏感 | | 10 | Upper Quartile | 将样本中75%分位数以上的数据值相加并计算中位数,然后将每个样本中的值除以该中位数 | 适用于RNA-seq数据,不会受到基因长度和GC含量的影响 | 对偏态数据不适用 | | 11 | TMM | 基于全基因组的同位素标记技术,通过一个截断平均值的算法确定缩放因子 | 能够有效控制误差 | 对于变异基因表达的检测结果可能不够准确 | Quantile Normalization是最常見的一種 ![](https://i.imgur.com/wNtfBnA.png) ::: - HVG Selection - Dimension Reduction - Clustering - Cell Type Annotation - Differential Expresstion - visualization - Exploratory analyses - Gene Level - DEG Analysis - GO/KEGG Enichment - GSVA - TF Identification - Cell Level - Cell Trajectory - Cell-cell Interaction - Cell Cycle - Spatial Level - Spatial Transcriptom - Optional analyses :::info [Common File Format](https://genome.ucsc.edu/FAQ/FAQformat.html#format4) --- | 檔案格式 | 常見副檔名| 檔案格式全名<div style="width:300px"> | 用途 | | --- | --- | --------------------- | --- | | FASTA | .fasta, .fa, .fna | FASTA format | 存儲核酸或蛋白質序列 | | BCL | | Base call file | Illumina基因定序平台生成的一種原始數據格式| | FASTQ | .fastq, .fq | FASTQ format | 包含原始DNA或RNA序列的質量分數和其他元數據 | | BAM/SAM | .bam, .sam | Binary Alignment/Map (BAM) format<br> Sequence Alignment/Map (SAM) format | 存儲序列比對的結果 | | VCF | .vcf | Variant Call Format | 記錄單個核苷酸多態性,如SNP或小插入/缺失 | | GTF/GFF | .gtf, .gff | Gene Transfer Format<br> General Feature Format | 存儲基因結構注釋信息<br>[GTF2.2: A Gene Annotation Format (wustl.edu)](http://mblab.wustl.edu/GTF22.html) | | BED | .bed | Browser Extensible Data format | 存儲基因座、區間或其他類似數據的信息 | | 样本信息表 | .txt, .csv | Text file, Comma-separated values | 存儲樣本信息,如樣本ID、性別、疾病狀態等 | Common Softwate --- | No. | Software Name | Scope of Application | Category | Functions & Features | Language | Open Source | Author | | --- | --- | --- | --- | --- | --- | --- | --- | | *1 | Cell Ranger | Single-cell RNA analysis | Pipeline | Read alignment, gene expression quantification, cell clustering, gene expression visualization | C++ | No | 10x Genomics | | 2 | Seurat | Single-cell RNA analysis | Pipeline | Quality control, data normalization, clustering, gene expression visualization | R | Yes | Satija Lab | | 3 | STAR | RNA sequencing analysis | Pipeline | RNA-seq read alignment, transcript quantification | C++ | Yes | Alex Dobin | | 4 | HISAT2 | RNA sequencing analysis | Pipeline | RNA-seq read alignment, transcript quantification | C++ | Yes | Daehwan Kim | | 5 | Salmon | RNA sequencing analysis | Pipeline | Transcript quantification, gene expression estimation | C++ | Yes | Rob Patro | | 6 | Kallisto | Single-cell RNA analysis | Pipeline | Transcript quantification, gene expression estimation | C++ | Yes | Nikolaus Rajewsky | | 7 | RSEM | RNA sequencing analysis | Pipeline | Transcript quantification, gene expression estimation | C++ | Yes | Bo Li | | 8 | TopHat | RNA sequencing analysis | Pipeline | RNA-seq read alignment, splice junction detection | C++ | Yes | Cole Trapnell | | 9 | STAR-Fusion | RNA sequencing analysis | Pipeline | Fusion gene detection, transcript assembly | C++ | Yes | Jianxin Wang | | 10 | Trinity | RNA sequencing analysis | Pipeline | De novo transcriptome assembly | Perl | Yes | Brian Haas | | 11 | StringTie | RNA sequencing analysis | Pipeline | Transcript quantification, gene expression estimation, novel isoform discovery | C++ | Yes | Mihaela Pertea | | 12 | STARsolo | Single-cell RNA analysis | Pipeline | Read alignment, gene expression quantification, cell clustering, gene expression visualization | C++ | Yes | Alex Dobin | | 13 | GATK | DNA sequencing analysis | Pipeline | Variant calling, filtering, annotation | Java | Yes | Broad Institute | | 14 | BWA | DNA sequencing analysis | Pipeline | DNA read alignment, mapping | C | Yes | Heng Li | | 15 | Bowtie2 | DNA sequencing analysis | Pipeline | DNA read alignment, mapping | C++ | Yes | Ben Langmead | | 16 | SAMtools | DNA sequencing analysis | Pipeline | DNA read alignment, mapping, variant calling | C | Yes | Heng Li | | 17 | Picard | DNA sequencing analysis | Pipeline | Quality control, data manipulation, file format conversion | Java | Yes | Broad Institute | | 18 | GEMMA | Genome-wide association studies | Pipeline | SNP association analysis, genome-wide polygenic scoring | C++ | Yes | Christopher Chang | | 19 | PLINK | Genome-wide association studies | Pipeline | SNP association analysis, quality control, data manipulation | C++ | Yes | Shaun Purcell | | 20 | TASSEL | Genome-wide association studies | Pipeline | SNP association analysis, genome-wide polygenic scoring, data manipulation | Java | Yes | Edward Buckler | | 21 | Alevin | Single-cell RNA analysis | Pipeline | Read alignment, transcript quantification, gene expression estimation | C++ | Yes | Rob Patro | | *22 | Alevin-fry | Single-cell RNA analysis | Pipeline | Read alignment, transcript quantification, gene expression estimation, quality control | C++ | Yes | Rob | DNA、RNA和单细胞RNA软件分类如下: --- 1. DNA测序分析软件 - 用于读取比对、映射和变异检测的流程,如BWA、Bowtie2、SAMtools、GATK、Picard等。 2. RNA测序分析软件 - 用于读取比对、映射和转录本定量的流程,如STAR、HISAT2、Kallisto、Salmon、RSEM、TopHat、StringTie等。 3. 单细胞RNA测序分析软件 - 用于读取比对、映射和基因表达量定量,以及细胞聚类和基因表达可视化的流程,如Cell Ranger、Seurat、STARsolo、Alevin、Alevin-fry等。 4. 新基因组转录本组装软件 - 用于从RNA测序数据中组装转录本组,如Trinity、Trans-ABySS、Oases等。 5. 基因组范围关联研究软件 - 用于分析大规模人群中的遗传变异的流程,如GEMMA、PLINK、TASSEL等。 6. 系统发育分析软件 - 用于使用遗传数据分析生物之间的进化关系的工具,如MEGA、PAUP*、MrBayes等。 7. 宏基因组分析软件 - 用于使用DNA或RNA测序数据分析微生物群落的流程,如QIIME、MG-RAST、MetaPhlAn等。 8. 表观遗传分析软件 - 用于使用测序数据分析表观遗传修饰,如DNA甲基化和组蛋白修饰,如Bismark、methylKit、ChIP-seq tools等。 9. 结构变异检测软件 - 用于使用测序数据检测DNA中的结构变异,如删除、复制、倒位和易位,如Lumpy、Delly、Manta等。 [DNA-seq] GATK --- ![](https://i.imgur.com/UjA9Bx2.png) [RNA-seq] Tophat and Cufflinks --- Tophat和Cufflinks通常被一起使用,通过Tophat对RNA-Seq数据进行比对,再将比对结果输入到Cufflinks中进行定量分析,以识别差异表达基因、剪切事件等。这些分析结果可以用于后续的生物学解释和分子机制研究。 ![](https://i.imgur.com/sMufPnB.png) [RNA-seq] HISAT,StringTie and Ballgown --- ![](https://i.imgur.com/gD7teJo.png) [scRNA-seq] Alevin and Alevin-fry --- ![](https://i.imgur.com/eLd6OMQ.png) [scRNA-seq] Cell Ranger --- ![](https://i.imgur.com/PYk8ZMd.png) 以下是10x Genomics的cell ranger使用範例,假設有两个细胞: 1.輸入資料 原始测序数据(fastq.gz 格式) 参考基因组文件(fasta 格式) 参考注释文件(gtf 格式) 样本信息(csv 格式) barcodes文件 其中,raw\_data 文件夹中包含原始测序数据,reference 文件夹中包含参考基因组、参考注释文件和 barcodes 文件,sample\_info.csv 文件包含样本信息,output 文件夹用于存放分析结果。 ```python project_folder/ ├── raw_data/ │ ├── sample1_S1_L001_R1_001.fastq.gz │ ├── sample1_S1_L001_R2_001.fastq.gz │ ├── sample2_S2_L001_R1_001.fastq.gz │ └── sample2_S2_L001_R2_001.fastq.gz ├── reference/ │ ├── genome.fasta │ ├── annotation.gtf │ └── barcodes.txt ├── sample_info.csv └── output/ ``` 2.執行cellranger count指令 将进行数据质控、比对、单细胞分析等操作,并生成单细胞RNA测序的结果 ```css cellranger count \ --id=sample1 \ --fastqs=project_folder/raw_data/ \ --transcriptome=project_folder/reference/ \ --sample=project_folder/sample_info.csv \ --expect-cells=2 \ --localcores=8 \ --localmem=64 \ --nosecondary \ --jobmode=local \ --chemistry=threeprime \ --disable-ui ``` - id 参数指定分析结果的名称,这里为 sample1。 - fastqs 参数指定原始测序数据所在的文件夹。 - transcriptome 参数指定参考基因组所在的文件夹。 - sample 参数指定样本信息文件的路径。 - expect-cells 参数指定期望的细胞数量,这里为 2。 - localcores 参数指定本地 CPU 的核心数。 - localmem 参数指定本地内存大小,单位为 GB。 - nosecondary 参数禁用二级分析,可以节省时间和存储空间。 - jobmode 参数指定分析模式,这里为本地模式。 - chemistry 参数指定实验使用的化学品种,这里为 threeprime。 - disable-ui 参数禁用可视化界面,可以节省资源。 3.输出结果 ```python project_folder/ └── output/ ├── sample1/ │ ├── outs/ │ │ ├── filtered_feature_bc_matrix/ │ │ │ ├── barcodes.tsv.gz # 细胞条形码列表 │ │ │ ├── features.tsv.gz # 基因列表 │ │ │ └── matrix.mtx.gz # 基因表 │ │ ├── web_summary.html # 分析结果的可视化报告 │ │ └── metrics_summary.csv # 分析结果的指标汇总表 │ └── analysis/ │ ├── cloupe.cloupe # 可视化文件,用于在 Loupe 浏览器中查看分析结果 │ ├── filtered_feature_bc_matrix.h5 # 经过滤波的细胞-基因表达矩阵 │ ├── raw_feature_bc_matrix.h5 # 未经过滤波的细胞-基因表达矩阵 │ ├── barcodes.tsv # 细胞条形码列表 │ ├── genes.tsv # 基因列表 │ ├── web_summary.html # 分析结果的可视化报告 │ └── metrics_summary.csv # 分析结果的指标汇总表 ``` - `filtered_feature_bc_matrix/` 文件夹中包含经过滤波后的细胞-基因表达矩阵和基因、细胞条形码的列表。 - `web_summary.html` 是分析结果的可视化报告,包含各种统计信息、质量控制图和 PCA 分析等。 - `metrics_summary.csv` 是分析结果的指标汇总表,包含各种统计信息、质量控制和 mapping 相关指标。 - `cloupe.cloupe` 文件是可视化文件,用于在 Loupe 浏览器中查看分析结果。 - `filtered_feature_bc_matrix.h5` 是经过滤波后的细胞-基因表达矩阵。 - `raw_feature_bc_matrix.h5` 是未经过滤波的细胞-基因表达矩阵。 - `barcodes.tsv` 包含所有细胞的条形码。 - `genes.tsv` 包含参考基因组中的所有基因。 ::: 轉檔 比對:比對到參考基因組上,區分外顯子,内含子 建立參考基因組 表達矩陣 統計,Estimated Number of Cells 估計的細胞數 統計,Mean reads per Cell 每個細胞的平均reads數 統計,Median Genes per Cell 每個細胞的中位基因數 統計,Number of Reads 縂reads數 統計,Vaild Barcodes 有效的條形碼比例(讀到的條形碼是在設計已知的記錄内) 統計,Sequening Saturation: (Sequening Saturation = 1-(n_deduped_reads/n_reads)) 質控,Base Quailty 質控,Average GC 質控,綫粒體基因數:健康的细胞具有类似数量的线粒体基因,而不健康的细胞(如受损的细胞)可能会有更多或更少的线粒体基因。因此,通过检查每个细胞的线粒体基因数量,可以发现存在质量问题的细胞,比如潜在的死亡细胞、残留的细胞碎片、实验中的悬浮细胞等。 質控,barcodes的UMI數:每一個細胞(相同barcodes)要有一定量的reads數(UMI),要將同barcodes的UMI數低於這個cut off值(可設定的常數)的barcodes去掉,通常取前1%的barcode 把所有的barcode按UM|数排序,取前第1%的那个barcode所包含的UMI数,为m,再取这个m的1/10,作为cutoff.例,就是总共的barcode是200个K,那前1%,就是2K,也就是2000,这第2000个barcode对应的l.JMlü是5万,那m就是5万,取5万的1/10作为cutoff。也就是5000作为cutoff值· 質控,過濾:1.默认选取基因数大于等于200,2.线粒体基因IJMI序列数小于等于10%,3.红细胞标记基因的UJMI序列比例小于等于10%,4.去除双细胞 降維聚類,Principal(PCA)主成分分析圖:將上萬基因表達量,分群縮減成幾個主成分的表達量 降維聚類,t-distributed stochastic neighbor embedding(t-SNE)t分佈隨機鄰居嵌入圖: 降維聚類,Uniform Manifold Approximation and Projection for Dimension Reduction(UMAP)致多方面逼近和投影以進行降維圖: 多樣本合并降維聚類: 細胞分類,通过专业知识获得到细胞标记基因来鉴定细胞类型: 細胞分類,与已有的单细胞数据鉴定结果进行比较分析: 差異分析 可视化 箱线图(boxplot) 小提琴图(violin 抖动点图(jitter) 熱力圖 點圖 火山圖 基因集富集分析GSEA 相关性分析散点图 曼哈顿图 桑基图 连续变量森林图 二分类变量森林图 箱线图和小提琴图 富集分析气泡图 生存曲线 circos 图 瀑布图 维恩图和upset图 ROC曲线图 相互作用网络分析图 ## Application ## Future ## Execise ### Space cellranger