GN/MCL/Kmeans聚类

用途

基于STRING数据库,自动构建基因集蛋白互作网络,同时输出3种聚类结果

运行方式

使用如下方式自定义数据库或使用默认物种数据库,均可运行

SDAS PPI --input gene_300.txt --species human --score_threshold 600 --centers 9 --output results_300
SDAS PPI -i gene_300.txt -o ./result --species human --cluster GN kmeans
SDAS PPI -i gene_300.txt -o ./result --links_db 9606.protein.links.v12.0.txt --aliases_db 9606.protein.aliases.v12.0.txt --cluster GN kmeans

输入参数说明

参数是否必须默认值描述
-i/--input输入基因名列表文件(基因symbol,每行一个)
-o/--output输出文件夹,未创建则自动新建
--specieshuman物种(human/mouse),(自定义数据库时可忽略该参数,输入--links_db--aliases_db
--links_db自定义蛋白互作文件路径(与--species互斥)
--aliases_db自定义蛋白别名文件路径(与--species互斥)
--score_threshold700蛋白间互作分数阈值,在400-900中选择,分数越大可信度越高,网络节点越少,默认700
--clusterGN聚类算法(GN/kmeans/mcl),可多选,使用空格连接,默认GN
--centers5kmeans聚类中心数,默认5
--inflation2.0MCL聚类inflation参数,1.5-3.0,默认2.0

输出结果展示

结果文件 描述
PPI_results.csv 两基因间互作分数,支持Cytoscape导入
cluster_results.csv 输入基因节点连接度及聚类归属
network_<cluster>_visualization.png/pdf 所有基因互作网络图,连线粗细代表互作分数大小,节点大小代表连接度,颜色为聚类
network_<cluster>_top_clusters.png/pdf 节点数量最多的9个cluster分簇绘制网络图,节点数小于50时,circle模式排列,大于50时全局排列(对选定的聚类方式会分别出图)
  • 蛋白互作关系表:PPI_results.csv 每行表示一对基因的互作分数,可直接导入Cytoscape。
from_gene to_gene combined_score
MEPIA1 CDH17 466
LGLA3 CDH17 561
PTK2 CDH17 482
  • 聚类结果表:cluster_results.csv 每行一个基因,包含其连接度(与多少基因有互作关系)、各聚类算法归属的cluster。
gene degree mcl_cluster kmeans_cluster betweenness_cluster
MEPIA1 6 1 2 5
LGLA3 5 1 2 5
  • 互作网络可视化图: network_<cluster>_visualization.png/pdf:展示所有基因互作网络,节点间连线粗细代表互作分数大小,相同颜色为一个cluster,节点大小表示连接度大小。(对选定的聚类方式会分别出图)。
  • 最大聚类子网圈图: network_<cluster>_top_clusters.png/pdf展示节点数量最多的9个cluster分簇绘制网络图,节点数小于50时,circle模式排列,大于50时全局排列。

性能说明

需要几分钟运行时间,内存消耗1G以内

© 2025 STOmics Tech. All rights reserved.Modified: 2025-08-01 16:50:17

results matching ""

    No results matching ""