GSVA算法
用途与运行方式
场景一:指定具体对象进行gsva分析,例如指定leiden聚类中的1、2、3这几个cluster进行gsva分析
SDAS geneSetEnrichment gsva-i st.h5ad -o outdir \ --group_key leiden --idents 1,2,3 --species human
场景二:对obs的某列做子集后再进行gsva分析,例如只对某种细胞类型的不同样本进行gsva分析
SDAS geneSetEnrichment gsva-i st.h5ad -o outdir \ --group_key leiden --idents 1,2,3 --species human \ --subset_key cell_type --subset_values B
场景三:只用感兴趣的数据库进行分析
SDAS geneSetEnrichment gsva-i st.h5ad -o outdir \ --group_key leiden --idents 1,2,3 \ --gmt sdas_deg_enrichment/lib/GSEADB/h.all.v2024.1.Hs.symbols.gmt,sdas_deg_enrichment/lib/GSEADB/KEGG_2021_Human.gmt
场景四:对obs中某列的所有元素一起进行gsva分析,要将某列中的所有元素放到一起进行gsva分析,此时
--idents
参数应该写为特定字符allSDAS geneSetEnrichment gsva-i st.h5ad -o outdir \ --group_key leiden --idents all --species human \
输入参数说明
gsva参数 | 是否必须 | 默认值 | 描述 |
---|---|---|---|
-i / --input | 是 | Stereo-seq h5ad,要求原始矩阵 | |
--group_key | 是 | 需要进行gsva分析的对象所在的obs名称 | |
--idents | 是 | 需要用于进行gsva分析的对象,用','分隔多个对象 | |
-o / --output | 是 | 结果存放路径 | |
--subset_key | 否 | 需要提取的信息所属的obs名称 | |
--subset_values | 否 | 需要提取的信息,存在多个时用','分隔 | |
--layer | 否 | 指定表达矩阵,不指定时使用adata.raw.X或adata.X | |
--gene_symbol_key | 否 | real_gene_name | 指定gene name所在列,默认real_gene_name,如果没有则使用矩阵中的原始基因信息 |
--species | 否 | human | 指定数据库,'human' 或 'mouse',默认 'human',当指定--gmt参数时,该参数不起作用 |
--sample_size | 否 | 0 | 对输入文件的bin数量进行随机取样以减小内存消耗,默认值为0,不做采样 |
--gmt | 否 | gmt格式的数据库文件,其中gene name信息必须为大写,多个文件时用','隔开 | |
--kernel_cdf | 否 | Gaussian | 基于原始表达矩阵时选'Poisson',其他选'Gaussian' |
-v / --verbose | 否 | 启用详细模式,打印任务进度。默认:False | |
--mx_diff | 否 | 设置时,富集分数(ES)将计算为随机游走的最大偏离距离。默认:False | |
--abs_ranking | 否 | 仅当未设置--mx_diff时生效,使用原始的Kuiper统计量计算方法。默认:False | |
--min_size | 否 | 15 | 基因集中包含的输入基因最小数量。默认:15 |
--max_size | 否 | 20000 | 基因集中包含的输入基因最大数量。默认:20000 |
--weight | 否 | 1 | 定义GSVA随机游走中的τ(tau)参数。默认:1 |
--seed | 否 | 123 | 随机数种子值。默认:123 |
--threads | 否 | 1 | 并行计算使用的进程数。默认:1 |
输出结果展示
gsva结果文件 | 描述 |
---|---|
GSVA.{database}.csv |
csv格式的结果文件 |
GSVA.{database}.pdf/png |
pdf和png格式的图像文件 |
- GSVA csv文件格式:
GSVA.{database}.csv
,这个文件是gsva分析结果文件,第一列是Term表示功能名称,后面每一列表示一个样本,数值为正表示该样本在对应的功能上活性较高,数值为负表示活性较低。
Term | ident1 | ident2 | ... |
---|---|---|---|
HALLMARK_ADIPOGENESIS | -0.32809425650271146 | -0.306805475112318 | .... |
HALLMARK_ALLOGRAFT_REJECTION | -0.3052190348950549 | 0.22055475913564931 | .... |
HALLMARK_ANDROGEN_RESPONSE | -0.39290236695613107 | -0.3080397441881526 | .... |
... | ... | ... | ... |
- gsva分析结果热图:
GSVA.{database}.pdf/png
,图中纵列表示功能通路名称横列表示样本名称,图例表示gsva计算的得分。
