【ZiDongHua 之自动化学院派收录关键词: 数据融合 机器学习 生物信息学】
  
  科学通报|清华大学鲁志团队综述复杂疾病中多组学多模态数据的生物信息学研究进展
  
  在当今生物医学研究的世界中,高通量测序技术的快速发展为复杂疾病的研究带来了前所未有的机遇。
  
  近日,清华大学鲁志教授团队在《科学通报》发表题为“复杂疾病中多组学多模态数据的生物信息学研究进展”的评述文章,期望为广大研究者提供一幅多组学和多模态数据整合的全景图,助力研究者在精准医疗的道路上迈出坚实步伐。
  
  在文章开篇,作者以详实的笔触介绍了各种类型的组学数据的概念及其在复杂疾病研究中的重要性。不同组学数据各展所长,共同揭示了疾病的多个层面。基因组学通过分析基因序列揭示了与疾病相关的遗传背景和突变;转录组学通过研究表达模式揭示了与疾病相关的基因调控关系;蛋白质组学关注蛋白质的表达、修饰和相互作用;代谢组学通过代谢物变化反映了疾病前后代谢途径的调整;放射组学通过医学成像展示了疾病的诱导性变化。整合和分析这些组学数据,不仅弥补了单一组学研究的不足,更为研究者理解疾病的发病机制和发展过程提供了全新视角。接下来,作者详细介绍了与复杂疾病相关的多组学数据库的构建和应用,这些数据库涵盖了癌症、心脑血管疾病、器官纤维化、慢性肾病、阿尔茨海默病和炎症性肠病等多种复杂疾病,为研究者提供了宝贵的数据资源。通过对这些数据库的深入分析,研究人员能够更有效地挖掘和利用多组学数据,为疾病的诊断和治疗提供科学依据。
 
  
  图1 复杂疾病研究中多组学方法
  
  文中,作者对多组学整合方法进行了系统分类,将现有的多组学整合方法系统地分为两类:基于关联分析和网络以及基于数据矩阵和机器学习方法。基于关联分析和网络的方法使用关联分析或复杂网络分析来识别不同组学之间的内在联系,从而发现与表型相关的生物标志物。基于数据矩阵和机器学习方法是指利用统计分析、机器学习和深度学习模型实现数据融合,以进行聚类或分类任务,同时揭示多组学数据之间的固有关系,识别与疾病相关的生物标志物。基于数据矩阵和机器学习方法进一步分为早期整合、中期整合和后期整合。早期整合方法是指将多组学数据合并成一个联合矩阵,然后应用机器学习或深度学习模型进行分类。中期整合方法是指对每个组学数据单独建模,然后整合转换后的矩阵或模型。后期整合方法是指每个组学数据单独建模,然后合并模型输出结果。作者不仅阐述了这些方法的原理和特点,还通过具体案例展示了它们在实际研究中的应用。作者对多组学整合方法的整理为研究者提供了清晰的研究路径,有助于更好地挖掘多组学数据中的深层次信息。
 
  
  图2 多组学整合工作流程
  
  在讨论实际应用时,作者列举了多组学整合模型在疾病筛查、亚型分类、预后评估和药物反应预测等多个方面的应用,展现了多组学整合技术在临床实践中的广阔前景。这些应用案例不仅证明了多组学整合技术的有效性,也为未来的研究方向提供了启发。
 
  
  图3 多组学整合方法概述
  
  最后,作者从样本、数据和模型三个层面对多组学整合过程中面临的挑战进行了深入剖析。作者指出,在样本层面,数据的匹配不一致性问题严重制约了整合策略的实际应用效果。在数据层面,面对数据的超高维度、噪声干扰以及异质性问题,迫切需要采用更为高效的深度学习技术来实现数据的有效融合。而在模型层面,我们面临的主要挑战包括模型的解释性不足、计算效率有待提升以及隐私保护方面的难题。尽管存在诸多难题,但研究人员正通过不懈努力,开发新的算法、优化数据处理流程、提高模型的可解释性,以期在保证数据安全的前提下,提升多组学整合技术的应用效果。
  
  清华大学生命科学学院鲁志教授为本文的通讯作者,刘晓帆博士为本文的第一作者。
  
  文章链接:
  
  https://www.sciengine.com/CSB/doi/10.1360/TB-2024-0416