单细胞/pseudobulk差异分析

用途与运行方式

1. 单细胞水平差异分析(无生物学重复)

支持t-testwilcoxonMAST

  • 场景一:指定类别1与类别2差异分析

    SDAS DEG -i st.h5ad -o outdir --group_key leiden --de_method wilcoxon  \
    --ident1 1 --ident2 2 \
    --fdr 0.05 --log2fc 1
    
  • 场景二:每个类别与其余类别分别做差异分析

    SDAS DEG -i st.h5ad -o outdir --group_key leiden --de_method wilcoxon \
     --fdr 0.05 --log2fc 1
    
  • 场景三:对obs的某列做子集后再差异分析

    SDAS DEG -i st.h5ad -o outdir --group_key leiden --de_method wilcoxon \ 
    --ident1 1 --ident2 2 \
    --fdr 0.05 --log2fc 1 \
    --subset_key cell_type --subset_values B
    

2. pseudobulk差异分析(有生物学重复)

推荐DESeq2edgeR(pseudobulk分析),需指定--sample_key,且每组样本数需满足方法要求(DESeq2≥3,edgeR≥2)

  • 场景一:两组样本直接差异分析

    SDAS DEG -i st.h5ad -o outdir --group_key sampleID --de_method DESeq2 \ 
    --ident1 Tumor --ident2 Normal \
    --fdr 0.05 --log2fc 1 \
    --sample_key sampleID
    
  • 场景二:子集后做pseudobulk差异分析

    SDAS DEG -i st.h5ad -o outdir --group_key sampleID --de_method DESeq2 \ 
    --ident1 Tumor --ident2 Normal \
    --fdr 0.05 --log2fc 1 \
    --sample_key sampleID \
    --subset_key cell_type --subset_values B
    

输入参数说明

DEG参数 是否必须 默认值 描述
-i / --input Stereo-seq h5ad,要求原始矩阵
-o / --output 分析结果存放路径
--de_method 指定差异分析方法:{t-test,wilcoxon,MAST,DESeq2,edgeR}
--group_key 需要进行差异分析的对象所在的obs名称
--ident1 用于分析差异表达基因的对象,类似处理组,不写则按1-vs-rest方式逐个输出
--ident2 用于做对照的对象,类似对照组,不写则将剩余元素当作对照,类似1-vs-rest
--sample_key 存放样本信息的obs名称,使用DESeq2或edgeR时进行pseudobulk差异分析时必须指定且必须存在生物学重复样本,使用DESeq2时必须有>=3个生物学重复,使用edgeR时必须有>=2个生物学重复
--subset_key 需要提取的值所属的分组列名称
--subset_values 需要提取的值,存在多个时用','分隔
--layer 指定表达矩阵,不指定时用adata.raw.X或adata.X
--gene_symbol_key real_gene_name 指定genename所在列,默认用obs.real_gene_name
--fdr 0.05 Padj(FDR)的阈值,用于筛选显著差异基因
--log2fc 1 log2FC的绝对值阈值,用于筛选显著差异基因
--genelist 5 在图中标出感兴趣的基因,多个基因可用','分隔,默认用显著上调和下调各5个基因
--add_label 对h5ad的obs增加额外的标签
--min_gene 0 一个bin/cell允许的最少基因数
--max_gene 一个bin/cell允许的最多基因数
--min_cell 0 某个基因最少存在于多少个bin/cell中

输出结果展示

结果文件 描述
de_{method}.{group_key}.{ident1}-vs-{ident2}.raw.csv 软件原始的输出结果
de_{method}.{group_key}.{ident1}-vs-{ident2}.all.csv 从原始结果中提取出geneID、log2FC、Pvalue、FDR等信息的结果
de_{method}.{group_key}.{ident1}-vs-{ident2}.sig_filtered.csv 根据log2FC和Pvalue过滤后的显著差异结果
de_{method}.{group_key}.{ident1}-vs-{ident2}.png/pdf png或pdf格式的火山图
  • raw文件格式示例:de_{method}.{group_key}.{ident1}-vs-{ident2}.raw.csv 这个文件是差异分析软件生成的分析结果,里面可能包含除了基因名、差异倍数、Pvalue、adjusted Pvalue(FDR)等信息外的其他信息。
names scores logfoldchanges pvals pvals_adj
MTATP6P1 16.74336 1.3794351 1.3877341418899603e-42 2.2785333033340524e-39
AGR2 13.671169 1.7758344 1.419568544127444e-32 1.1147316293689464e-29
CLDN4 13.663365 1.9820584 1.9626883546881656e-34 1.6880054463820458e-31
... ... ... ... ...
  • all/sig_filtered文件格式示例:de_{method}.{group_key}.{ident1}-vs-{ident2}.all.csv 文件是从差异分析软件生成的分析结果中提取了基因名、差异倍数、Pvalue、adjusted Pvalue(FDR)重新统一命名后的结果文件,de_{method}.{group_key}.{ident1}-vs-{ident2}.sig_filtered.csv文件是根据log2FC和FDR阈值进行筛选后得到的显著差异基因列表。
gene log2FC pvalue FDR
MTATP6P1 1.3794351 1.3877341418899603e-42 2.2785333033340524e-39
AGR2 1.7758344 1.419568544127444e-32 1.1147316293689464e-29
CLDN4 1.9820584 1.9626883546881656e-34 1.6880054463820458e-31
... ... ... ...
  • 火山图结果示例: de_{method}.{group_key}.{ident1}-vs-{ident2}.png/pdf 图中红色的点表示同时达到log2FC和FDR筛选阈值的显著差异基因,蓝色的点表示达到FDR筛选条件但没达到log2FC条件的基因,绿色的点表示达到log2FC筛选条件但没达到FDR条件的基因,同时,默认会在图中标出差异倍数最高和最低的5个基因,如果需要在图中标注指定的基因,可以通过genelist参数进行指定(例如, --genelist geneA,geneB,geneC)。

结果解读说明

  1. 基因名唯一化
    • 差异分析前会自动对基因名进行make_unique,所有输出和作图均使用唯一化后的基因名。
  2. 细胞和基因过滤

    • 支持通过--min_gene--max_gene--min_cell等参数对细胞和基因进行过滤。若h5ad已过滤,可不再设置。

调参建议

  1. 超过200k的bin/cell数据量时MAST无法成功运行,这种情况下可以通过设置更严格的过滤参数(min_genemin_cell)减少bin/cell的数量再进行分析。
© 2025 STOmics Tech. All rights reserved.Modified: 2025-08-01 16:50:17

results matching ""

    No results matching ""