构建单细胞参考数据 (非必须)

用途

使用scimilarityMakeRef构建SCimilarity的单细胞参考数据库,只适用于人类样本

运行方式

模型下载:https://zenodo.org/records/10685499

下载完成后解压模型文件夹,并指定--model_dir参数

SDAS cellAnnotation scimilarityMakeRef -o ./scimilarity_ref --reference sc.h5ad --label_key annotation \
--model_dir ./model_v1.1 \
--remove_tmp

输入参数说明

参数 是否必须 默认值 描述
-o / --output 输出文件夹
--reference 单细胞ref h5ad,要求有原始表达矩阵
--label_key 单细胞ref h5ad.obs中表示细胞类型的列的名称
--ref_layer 单细胞ref h5ad存放raw counts的layer
--ref_gene_symbol_key _index 单细胞ref h5ad.var中表示基因名(symbol)的列的名称 (_index 表示使用h5ad.var.index)
--filter_rare_cell 100 如果某些细胞类型在单细胞ref中细胞数小于此值,则过滤掉这些细胞类型
--seed 42 随机种子设置
--model_dir ./model_v1.1 SCimilarity模型文件夹路径
--ef_construction 1000 HNSW KNN算法的ef_construction,越大构建的数据库越准确,但是更耗时
--M 80 HNSW KNN算法M,用于控制nearest neighbor图中的连接数
--remove_tmp False 是否删除ouput文件夹中的单细胞ref CellArrDataset格式数据和模型计算出的embeddings。注意:ouput文件夹中原本的assays、cell_metadata、gene_annotation、sample_metadata、cellsearch文件夹都会被删除
--gpu_id -1 使用的GPU的编号,如果为-1,则使用CPU
--n_threads CPU模式下使用的线程数,默认为全部CPU

输出结果展示

构建的单细胞参考数据会存储在scimilarity_ref 的文件夹下,具体的文件夹层级结构以及关键文件的说明如下:

./scimilarity_ref
├── annotation
│   ├── labelled_kNN.bin
│   └── reference_labels.tsv
├── assays
├── cell_metadata
├── cellsearch
│   └── cell_embedding
├── gene_annotation
└── sample_metadata
结果文件 描述
annotation/labelled_kNN.bin 通过单细胞ref embeddings计算的KNN数据,用于细胞类型搜索
annotation/reference_labels.tsv 单细胞ref中每个细胞的细胞类型标签
assays, cell_metadata, gene_annotation, sample_metadata 单细胞ref h5ad转换出的CellArrDataset格式数据,可删除。可通过--remove_tmp在程序运行结束时自动删除
cellsearch/cell_embedding 模型计算出的单细胞ref embeddings tileDB格式数据,可删除。可通过--remove_tmp在程序运行结束时自动删除
© 2025 STOmics Tech. All rights reserved.Modified: 2025-08-01 16:50:17

results matching ""

    No results matching ""