GN/MCL/Kmeans聚类

用途

基于STRING数据库，自动构建基因集蛋白互作网络，同时输出3种聚类结果

运行方式

使用如下方式自定义数据库或使用默认物种数据库，均可运行

SDAS PPI --input gene_300.txt --species human --score_threshold 600 --centers 9 --output results_300
SDAS PPI -i gene_300.txt -o ./result --species human --cluster GN kmeans
SDAS PPI -i gene_300.txt -o ./result --links_db 9606.protein.links.v12.0.txt --aliases_db 9606.protein.aliases.v12.0.txt --cluster GN kmeans

输入参数说明

参数	是否必须	默认值	描述
-i/--input	是		输入基因名列表文件（基因symbol，每行一个）
-o/--output	是		输出文件夹，未创建则自动新建
--species	否	human	物种（human/mouse），（自定义数据库时可忽略该参数，输入`--links_db`与`--aliases_db`）
--links_db	否		自定义蛋白互作文件路径（与--species互斥）
--aliases_db	否		自定义蛋白别名文件路径（与--species互斥）
--score_threshold	否	700	蛋白间互作分数阈值，在400-900中选择，分数越大可信度越高，网络节点越少，默认700
--cluster	否	GN	聚类算法（GN/kmeans/mcl），可多选，使用空格连接，默认GN
--centers	否	5	kmeans聚类中心数，默认5
--inflation	否	2.0	MCL聚类inflation参数，1.5-3.0，默认2.0

输出结果展示

结果文件	描述
`PPI_results.csv`	两基因间互作分数，支持Cytoscape导入
`cluster_results.csv`	输入基因节点连接度及聚类归属
`network_<cluster>_visualization.png/pdf`	所有基因互作网络图，连线粗细代表互作分数大小，节点大小代表连接度，颜色为聚类
`network_<cluster>_top_clusters.png/pdf`	节点数量最多的9个cluster分簇绘制网络图，节点数小于50时，circle模式排列，大于50时全局排列（对选定的聚类方式会分别出图）

蛋白互作关系表：PPI_results.csv 每行表示一对基因的互作分数，可直接导入Cytoscape。

from_gene	to_gene	combined_score
MEPIA1	CDH17	466
LGLA3	CDH17	561
PTK2	CDH17	482

聚类结果表：cluster_results.csv 每行一个基因，包含其连接度（与多少基因有互作关系）、各聚类算法归属的cluster。

gene	degree	mcl_cluster	kmeans_cluster	betweenness_cluster
MEPIA1	6	1	2	5
LGLA3	5	1	2	5

互作网络可视化图: network_<cluster>_visualization.png/pdf：展示所有基因互作网络，节点间连线粗细代表互作分数大小，相同颜色为一个cluster，节点大小表示连接度大小。（对选定的聚类方式会分别出图）。

最大聚类子网圈图: network_<cluster>_top_clusters.png/pdf展示节点数量最多的9个cluster分簇绘制网络图，节点数小于50时，circle模式排列，大于50时全局排列。

性能说明

需要几分钟运行时间，内存消耗1G以内

results matching ""

No results matching ""