细胞注释
用途
使用SCimilarity做细胞注释,只适用于人类样本
运行方式
模型下载:https://zenodo.org/records/10685499
下载完成后解压模型文件夹,并指定--model_dir参数
使用预构建的数据库(建议添加--cell_type_file参数指定需要注释细胞类型,可用的细胞类型参见模型文件夹中的label_ints.csv):
SDAS cellAnnotation scimilarity -i st.h5ad -o outdir --bin_size 20 \
--model_dir ./model_v1.1 \
--cell_type_file celltype.txt
使用scimilarityMakeRef构建的单细胞参考数据库:
SDAS cellAnnotation scimilarity -i st.h5ad -o outdir --bin_size 20 \
--model_dir ./model_v1.1 --reference_database scimilarity_ref
输入参数说明
| 参数 | 是否必须 | 默认值 | 描述 | 
|---|---|---|---|
| -i / --input | 是 | Stereo-seq h5ad,要求有原始表达矩阵 | |
| -o / --output | 是 | 输出文件夹 | |
| --bin_size | 是 | Bin大小,用于控制图中点的大小,不用于计算,比如20,50,100, cellbin (等效于20) | |
| --input_layer | 否 | Stereo-seq h5ad存放raw counts的layer | |
| --input_gene_symbol_key | 否 | real_gene_name | Stereo-seq h5ad.var中表示基因名(symbol)的列的名称 | 
| --slice_key | 否 | sampleID | 多片h5ad.obs中表示片编号的列的名称,用于画图 | 
| --model_dir | 否 | ./model_v1.1 | Scimilarity模型文件夹路径 | 
| --reference_database | 否 | 用scimilarityMakeRef构建的单细胞数据库路径。如果不指定,则使用\ | 
|
| --cell_type_file | 否 | 需要注释的细胞类型文件,每行一个细胞类型。如果不提供则使用模型中的所有细胞类型。可用的细胞类型参见模型文件夹中的label_ints.csv | |
| --k_nearest_neighbor | 否 | 50 | 搜索最近的K个细胞 | 
| --ef | 否 | 100 | HNSW KNN算法的ef。ef越大搜索越准确,但是更耗时 | 
| --weighting | 否 | False | 是否使用最近K个细胞的距离加权值而不是原始个数值作为细胞注释的结果 | 
| --seed | 否 | 42 | 随机种子设置 | 
| --gpu_id | 否 | -1 | 使用的GPU的编号,如果为-1,则使用CPU | 
| --n_threads | 否 | CPU模式下使用的线程数,默认为全部CPU | 
输出结果展示
| 结果文件 | 描述 | 
|---|---|
<input_name>_anno_scimilarity.csv | 
每个spot的注释结果,包括每种细胞类型的分数 | 
<input_name>_anno_scimilarity.h5ad | 
输入h5ad+注释结果。每个细胞类型的分数存在obsm['anno_score_scimilarity']中,分数最高的类型存在obs['anno_scimilarity']中 | 
<input_name>_anno_scimilarity.png/pdf | 
总体注释结果图,多片情况下每片画一张图,同时输出png和pdf | 
<input_name>_anno_scimilarity_split.png/pdf | 
每个细胞类型分开展示图,多片情况下每片画一张图,同时输出png和pdf | 
<input_name>_anno_score_scimilarity.png/pdf | 
每个细胞类型的分数图,多片情况下每片画一张图,同时输出png和pdf | 
详细说明与具体结果展示可参考以下链接。(cell2location算法-->细胞注释-->输出结果展示)。