构建单细胞参考数据

用途

使用cell2locationMakeRef构建cell2location的单细胞参考inf_aver.csv文件

运行方式

SDAS cellAnnotation cell2locationMakeRef -o ./ref --reference sc.h5ad --label_key annotation \
--batch_key id \
--nonz_mean_cutoff 1.45 \
--gpu_id 3

输入参数说明

参数是否必须默认值描述
-o / --output输出文件夹
--reference单细胞ref h5ad,要求有原始表达矩阵
--label_key单细胞ref h5ad.obs中表示细胞类型的列的名称
--ref_layer单细胞ref h5ad存放raw counts的layer
--ref_gene_symbol_key_index单细胞ref h5ad.var中表示基因名(symbol)的列的名称 (_index 表示使用h5ad.var.index)
--batch_key单细胞ref h5ad.obs中表示批次的列的名称,不输入则不考虑批次
--filter_rare_cell100如果某些细胞类型在单细胞ref中细胞数小于此值,则过滤掉这些细胞类型
--check_filter_genes如果设置此参数,则只输出筛选基因的结果图filter_genes.png
--cell_count_cutoff5控制cell2location筛选基因的参数,一般不调整
--cell_percentage_cutoff20.03控制cell2location筛选基因的参数,值越大筛选出的基因越少,基因数推荐控制在8k-16k
--nonz_mean_cutoff1.12控制cell2location筛选基因的参数,值越大筛选出的基因越少,基因数推荐控制在8k-16k
--max_epochs250模型训练epoch数
--seed42随机种子设置
--gpu_id-1使用的GPU的编号,如果为-1,则使用CPU。 此参数只指定主要使用的GPU,其他GPU也会被占用,但占用量很低。如果需要严格指定GPU,请在运行前设置环境变量,如: export CUDA_VISIBLE_DEVICES=2,此时再设置--gpu_id 0,则会只使用2号GPU
--n_threadsCPU模式下使用的线程数,默认为全部CPU

输出结果展示

结果文件 描述
<reference_name>_filter_genes.png/pdf Cell2location筛选基因的结果图 (\为单细胞ref h5ad文件名)
<reference_name>_train_history.png/pdf 训练Loss下降图
<reference_name>_inf_aver.csv Cell2location构建的单细胞ref csv
  • Cell2location筛选基因的结果图<reference_name>_filter_genes.png/pdf橙色区域标出了根据表达该基因的细胞数 (Y轴) 和该基因在被检测到的细胞中的平均RNA计数 (X轴) 共同筛选后被排除的基因。图片标题中的基因数为筛选出的基因数,推荐控制在8k-16k
  • 训练Loss下降图<reference_name>_train_history.png/pdf训练过程中ELBO loss的变化曲线,图中已去除前20个epoch的数据
  • Cell2location构建的单细胞ref csv<reference_name>_inf_aver.csv每一行为一个基因,每一列为一个细胞类型,数值为cell2location计算的细胞类型特征 (用负二项回归模型计算的每个细胞类型每个基因的预估表达量)
B_act B_naive CD4_CXCL13 ...
7SK 0.3071783 0.22791654 0.059129756 ...
A1BG 0.18173707 0.096046284 0.0936929 ...
A1BG-AS1 0.04608244 0.042425267 0.08740552 ...
A1CF 0.00167472 0.000960604 0.002093679 ...
... ... ... ... ...
© 2025 STOmics Tech. All rights reserved.Modified: 2025-08-01 16:50:17

results matching ""

    No results matching ""