构建单细胞参考数据 (非必须)

用途

使用scimilarityMakeRef构建SCimilarity的单细胞参考数据库，只适用于人类样本

运行方式

模型下载：https://zenodo.org/records/10685499

下载完成后解压模型文件夹，并指定--model_dir参数

SDAS cellAnnotation scimilarityMakeRef -o ./scimilarity_ref --reference sc.h5ad --label_key annotation \
--model_dir ./model_v1.1 \
--remove_tmp

输入参数说明

参数	是否必须	默认值	描述
-o / --output	是		输出文件夹
--reference	是		单细胞ref h5ad，要求有原始表达矩阵
--label_key	是		单细胞ref h5ad.obs中表示细胞类型的列的名称
--ref_layer	否		单细胞ref h5ad存放raw counts的layer
--ref_gene_symbol_key	否	_index	单细胞ref h5ad.var中表示基因名(symbol)的列的名称 (_index 表示使用h5ad.var.index)
--filter_rare_cell	否	100	如果某些细胞类型在单细胞ref中细胞数小于此值，则过滤掉这些细胞类型
--seed	否	42	随机种子设置
--model_dir	否	./model_v1.1	SCimilarity模型文件夹路径
--ef_construction	否	1000	HNSW KNN算法的ef_construction，越大构建的数据库越准确，但是更耗时
--M	否	80	HNSW KNN算法M，用于控制nearest neighbor图中的连接数
--remove_tmp	否	False	是否删除ouput文件夹中的单细胞ref CellArrDataset格式数据和模型计算出的embeddings。注意：ouput文件夹中原本的assays、cell_metadata、gene_annotation、sample_metadata、cellsearch文件夹都会被删除
--gpu_id	否	-1	使用的GPU的编号，如果为-1，则使用CPU
--n_threads	否		CPU模式下使用的线程数，默认为全部CPU

输出结果展示

构建的单细胞参考数据会存储在scimilarity_ref 的文件夹下，具体的文件夹层级结构以及关键文件的说明如下：

./scimilarity_ref
├── annotation
│   ├── labelled_kNN.bin
│   └── reference_labels.tsv
├── assays
├── cell_metadata
├── cellsearch
│   └── cell_embedding
├── gene_annotation
└── sample_metadata

结果文件	描述
`annotation/labelled_kNN.bin`	通过单细胞ref embeddings计算的KNN数据，用于细胞类型搜索
`annotation/reference_labels.tsv`	单细胞ref中每个细胞的细胞类型标签
`assays, cell_metadata, gene_annotation, sample_metadata`	单细胞ref h5ad转换出的CellArrDataset格式数据，可删除。可通过--remove_tmp在程序运行结束时自动删除
`cellsearch/cell_embedding`	模型计算出的单细胞ref embeddings tileDB格式数据，可删除。可通过--remove_tmp在程序运行结束时自动删除

results matching ""

No results matching ""