GN/MCL/Kmeans聚类
用途
基于STRING数据库,自动构建基因集蛋白互作网络,同时输出3种聚类结果
运行方式
使用如下方式自定义数据库或使用默认物种数据库,均可运行
SDAS PPI --input gene_300.txt --species human --score_threshold 600 --centers 9 --output results_300
SDAS PPI -i gene_300.txt -o ./result --species human --cluster GN kmeans
SDAS PPI -i gene_300.txt -o ./result --links_db 9606.protein.links.v12.0.txt --aliases_db 9606.protein.aliases.v12.0.txt --cluster GN kmeans
输入参数说明
| 参数 | 是否必须 | 默认值 | 描述 | 
|---|---|---|---|
| -i/--input | 是 | 输入基因名列表文件(基因symbol,每行一个) | |
| -o/--output | 是 | 输出文件夹,未创建则自动新建 | |
| --species | 否 | human | 物种(human/mouse),(自定义数据库时可忽略该参数,输入--links_db与--aliases_db) | 
| --links_db | 否 | 自定义蛋白互作文件路径(与--species互斥) | |
| --aliases_db | 否 | 自定义蛋白别名文件路径(与--species互斥) | |
| --score_threshold | 否 | 700 | 蛋白间互作分数阈值,在400-900中选择,分数越大可信度越高,网络节点越少,默认700 | 
| --cluster | 否 | GN | 聚类算法(GN/kmeans/mcl),可多选,使用空格连接,默认GN | 
| --centers | 否 | 5 | kmeans聚类中心数,默认5 | 
| --inflation | 否 | 2.0 | MCL聚类inflation参数,1.5-3.0,默认2.0 | 
输出结果展示
| 结果文件 | 描述 | 
|---|---|
PPI_results.csv | 
两基因间互作分数,支持Cytoscape导入 | 
cluster_results.csv | 
输入基因节点连接度及聚类归属 | 
network_<cluster>_visualization.png/pdf | 
所有基因互作网络图,连线粗细代表互作分数大小,节点大小代表连接度,颜色为聚类 | 
network_<cluster>_top_clusters.png/pdf | 
节点数量最多的9个cluster分簇绘制网络图,节点数小于50时,circle模式排列,大于50时全局排列(对选定的聚类方式会分别出图) | 
- 蛋白互作关系表:
PPI_results.csv每行表示一对基因的互作分数,可直接导入Cytoscape。 
| from_gene | to_gene | combined_score | 
|---|---|---|
| MEPIA1 | CDH17 | 466 | 
| LGLA3 | CDH17 | 561 | 
| PTK2 | CDH17 | 482 | 
- 聚类结果表:
cluster_results.csv每行一个基因,包含其连接度(与多少基因有互作关系)、各聚类算法归属的cluster。 
| gene | degree | mcl_cluster | kmeans_cluster | betweenness_cluster | 
|---|---|---|---|---|
| MEPIA1 | 6 | 1 | 2 | 5 | 
| LGLA3 | 5 | 1 | 2 | 5 | 
- 互作网络可视化图: 
network_<cluster>_visualization.png/pdf:展示所有基因互作网络,节点间连线粗细代表互作分数大小,相同颜色为一个cluster,节点大小表示连接度大小。(对选定的聚类方式会分别出图)。 

- 最大聚类子网圈图: 
network_<cluster>_top_clusters.png/pdf展示节点数量最多的9个cluster分簇绘制网络图,节点数小于50时,circle模式排列,大于50时全局排列。 

性能说明
需要几分钟运行时间,内存消耗1G以内