构建单细胞参考数据 (非必须)
用途
使用scimilarityMakeRef构建SCimilarity的单细胞参考数据库,只适用于人类样本
运行方式
模型下载:https://zenodo.org/records/10685499
下载完成后解压模型文件夹,并指定--model_dir参数
SDAS cellAnnotation scimilarityMakeRef -o ./scimilarity_ref --reference sc.h5ad --label_key annotation \
--model_dir ./model_v1.1 \
--remove_tmp
输入参数说明
| 参数 | 是否必须 | 默认值 | 描述 | 
|---|---|---|---|
| -o / --output | 是 | 输出文件夹 | |
| --reference | 是 | 单细胞ref h5ad,要求有原始表达矩阵 | |
| --label_key | 是 | 单细胞ref h5ad.obs中表示细胞类型的列的名称 | |
| --ref_layer | 否 | 单细胞ref h5ad存放raw counts的layer | |
| --ref_gene_symbol_key | 否 | _index | 单细胞ref h5ad.var中表示基因名(symbol)的列的名称 (_index 表示使用h5ad.var.index) | 
| --filter_rare_cell | 否 | 100 | 如果某些细胞类型在单细胞ref中细胞数小于此值,则过滤掉这些细胞类型 | 
| --seed | 否 | 42 | 随机种子设置 | 
| --model_dir | 否 | ./model_v1.1 | SCimilarity模型文件夹路径 | 
| --ef_construction | 否 | 1000 | HNSW KNN算法的ef_construction,越大构建的数据库越准确,但是更耗时 | 
| --M | 否 | 80 | HNSW KNN算法M,用于控制nearest neighbor图中的连接数 | 
| --remove_tmp | 否 | False | 是否删除ouput文件夹中的单细胞ref CellArrDataset格式数据和模型计算出的embeddings。注意:ouput文件夹中原本的assays、cell_metadata、gene_annotation、sample_metadata、cellsearch文件夹都会被删除 | 
| --gpu_id | 否 | -1 | 使用的GPU的编号,如果为-1,则使用CPU | 
| --n_threads | 否 | CPU模式下使用的线程数,默认为全部CPU | 
输出结果展示
构建的单细胞参考数据会存储在scimilarity_ref 的文件夹下,具体的文件夹层级结构以及关键文件的说明如下:
./scimilarity_ref
├── annotation
│   ├── labelled_kNN.bin
│   └── reference_labels.tsv
├── assays
├── cell_metadata
├── cellsearch
│   └── cell_embedding
├── gene_annotation
└── sample_metadata
| 结果文件 | 描述 | 
|---|---|
annotation/labelled_kNN.bin | 
通过单细胞ref embeddings计算的KNN数据,用于细胞类型搜索 | 
annotation/reference_labels.tsv | 
单细胞ref中每个细胞的细胞类型标签 | 
assays, cell_metadata, gene_annotation, sample_metadata | 
单细胞ref h5ad转换出的CellArrDataset格式数据,可删除。可通过--remove_tmp在程序运行结束时自动删除 | 
cellsearch/cell_embedding | 
模型计算出的单细胞ref embeddings tileDB格式数据,可删除。可通过--remove_tmp在程序运行结束时自动删除 |