GN/MCL/Kmeans聚类
用途
基于STRING数据库,自动构建基因集蛋白互作网络,同时输出3种聚类结果
运行方式
使用如下方式自定义数据库或使用默认物种数据库,均可运行
SDAS PPI --input gene_300.txt --species human --score_threshold 600 --centers 9 --output results_300
SDAS PPI -i gene_300.txt -o ./result --species human --cluster GN kmeans
SDAS PPI -i gene_300.txt -o ./result --links_db 9606.protein.links.v12.0.txt --aliases_db 9606.protein.aliases.v12.0.txt --cluster GN kmeans
输入参数说明
参数 | 是否必须 | 默认值 | 描述 |
---|---|---|---|
-i/--input | 是 | 输入基因名列表文件(基因symbol,每行一个) | |
-o/--output | 是 | 输出文件夹,未创建则自动新建 | |
--species | 否 | human | 物种(human/mouse),(自定义数据库时可忽略该参数,输入--links_db 与--aliases_db ) |
--links_db | 否 | 自定义蛋白互作文件路径(与--species互斥) | |
--aliases_db | 否 | 自定义蛋白别名文件路径(与--species互斥) | |
--score_threshold | 否 | 700 | 蛋白间互作分数阈值,在400-900中选择,分数越大可信度越高,网络节点越少,默认700 |
--cluster | 否 | GN | 聚类算法(GN/kmeans/mcl),可多选,使用空格连接,默认GN |
--centers | 否 | 5 | kmeans聚类中心数,默认5 |
--inflation | 否 | 2.0 | MCL聚类inflation参数,1.5-3.0,默认2.0 |
输出结果展示
结果文件 | 描述 |
---|---|
PPI_results.csv |
两基因间互作分数,支持Cytoscape导入 |
cluster_results.csv |
输入基因节点连接度及聚类归属 |
network_<cluster>_visualization.png/pdf |
所有基因互作网络图,连线粗细代表互作分数大小,节点大小代表连接度,颜色为聚类 |
network_<cluster>_top_clusters.png/pdf |
节点数量最多的9个cluster分簇绘制网络图,节点数小于50时,circle模式排列,大于50时全局排列(对选定的聚类方式会分别出图) |
- 蛋白互作关系表:
PPI_results.csv
每行表示一对基因的互作分数,可直接导入Cytoscape。
from_gene | to_gene | combined_score |
---|---|---|
MEPIA1 | CDH17 | 466 |
LGLA3 | CDH17 | 561 |
PTK2 | CDH17 | 482 |
- 聚类结果表:
cluster_results.csv
每行一个基因,包含其连接度(与多少基因有互作关系)、各聚类算法归属的cluster。
gene | degree | mcl_cluster | kmeans_cluster | betweenness_cluster |
---|---|---|---|---|
MEPIA1 | 6 | 1 | 2 | 5 |
LGLA3 | 5 | 1 | 2 | 5 |
- 互作网络可视化图:
network_<cluster>_visualization.png/pdf
:展示所有基因互作网络,节点间连线粗细代表互作分数大小,相同颜色为一个cluster,节点大小表示连接度大小。(对选定的聚类方式会分别出图)。

- 最大聚类子网圈图:
network_<cluster>_top_clusters.png/pdf
展示节点数量最多的9个cluster分簇绘制网络图,节点数小于50时,circle模式排列,大于50时全局排列。

性能说明
需要几分钟运行时间,内存消耗1G以内