简介
公共数据库验证模块是SDAS软件的重要组成部分,旨在通过公开的Bulk RNA-Seq数据集和临床数据验证空间转录组学分析结果的生物学意义和临床相关性。该模块提供了三种核心分析方法:Bulk RNA-Seq数据免疫浸润分析、基因集打分分析以及Kaplan-Meier生存分析。通过系统性的验证框架,支持从空间转录组学数据中发现的生物学线索在临床样本中的验证,为空间转录组学研究的临床转化提供重要支撑。
模块算法整体介绍
1. 免疫浸润分析
通过多种算法(如CIBERSORTx、EPIC等)评估肿瘤微环境中的免疫细胞浸润情况,输出免疫细胞比例和热图,帮助研究人员深入理解免疫细胞在肿瘤发生发展中的作用机制。
2. 基因集打分分析
使用多种算法(如GSVA、ssGSEA等)对自定义基因集在Bulk RNA-Seq数据中的活性进行评分,输出标准化的富集分数和热图,便于评估基因集的生物学功能及其在疾病进程中的意义。
3. Kaplan-Meier生存分析
结合免疫浸润和基因集打分结果,进行单因素生存分析,输出生存曲线图,帮助研究人员评估特定特征与临床预后的关联性,为临床决策提供数据支撑。
验证策略与流程
第0步:数据准备
- 数据来源:从公开数据库获取包含临床信息的Bulk RNA-Seq数据集
- 推荐数据库:TCGA (UCSC Xena)、GEO等
- 数据要求:需包含完整的临床信息,并按SDAS输入格式要求进行预处理
- 数据格式:支持标准化的基因表达矩阵和临床信息表格
验证方式1:基因集验证
根据基因集中基因数量的不同,采用不同的验证策略:
单基因验证(基因数为1)
- 应用场景:空间转录组学数据中发现的特定标记基因表达的细胞类型
- 典型示例:CD20+ B细胞、SAA+肝细胞等
- 分析方法:Kaplan-Meier生存分析(即
survivalKM
) - 数据来源:基因表达值(可来自Bulk RNA-Seq数据集或IHC实验)
- 验证目标:验证单个基因的表达水平与临床预后的关联性
基因模块验证(基因数为3-8或者更多)
- 应用场景:空间转录组学数据中发现的基因特征
- 典型示例:TLS(三级淋巴结构)亚型、肿瘤亚型、活化B细胞亚型等
- 分析方法:模块评分计算结合Kaplan-Meier生存分析(即
geneSetScore
+survivalKM
) - 验证目标:验证基因模块的整体表达模式与临床预后的关联性
验证方式2:细胞类型验证
- 应用场景:空间转录组学数据中发现的特定细胞类型
- 验证要求:目标细胞类型需在xCell、CIBERSORTx或其他免疫浸润算法的参考集中存在
- 分析流程:Bulk RNA-Seq数据的免疫浸润分析,随后进行Kaplan-Meier生存分析(即
immuneScore
+survivalKM
) - 验证目标:验证特定细胞类型的丰度与临床预后的关联性
参考文献
- Zeng, D., Ye, Z., Shen, R., Yu, G., Wu, J., Xiong, Y., ... & Liao, W. (2021). IOBR: multi-omics immuno-oncology biological research to decode tumor microenvironment and signatures. Frontiers in immunology, 12, 687975.