由于技术进步,科学家可以获得大量数据,但为了将其付诸实践并得出结论,他们需要能够处理这些数据。
在最近发表在《基因组生物学》上的研究中,伦斯勒理工学院的 Boleslaw Szymanski 博士、计算机科学杰出教授、网络科学与技术中心主任 Claire 和 Roland Schmitt 及其团队发现了一种有效组织和分组基因组的方法。各种应用的数据。该过程在机器学习中称为聚类。
他们设计的聚类方法称为 SpeakEasy2:Champagne,与其他算法一起进行了测试,以分析其在批量基因表达、单细胞数据、蛋白质相互作用网络和大规模人类网络数据中的有效性。大量基因表达往往是组织和疾病特异性的,对功能和表型或基因型如何与环境相互作用有影响。单细胞数据根据细胞的区别进行分组。蛋白质结合是细胞内信号传播的核心机制,识别组装成复合物的蛋白质对于定义细胞内的功能非常有用。
该团队对 SpeakEasy2:Champagne 以及其他方法的测试表明,没有一种方法能够完美适用于所有情况,而且性能可能会有所不同。然而,SpeakEasy2 在不同类型的数据上表现良好,这表明它是组织分子信息的有效方法。
“我们进行了测试,以确定这些方法是否有效,即使数据包含大量不相关的信息以及新的、未见过的数据,”西曼斯基说。“我们希望通过多种方式衡量它们的可靠性和性能,因此我们在广泛的网络上进行了测试。SpeakEasy2:事实证明,Champagne 在不同的应用程序和指标中具有一致且可接受的性能。”
“优化机器学习方法以有效整合大量噪声数据对于推动许多研究领域的科学发展至关重要,”伦斯勒科学院院长 Curt Breneman 博士说。“博士。Szymanski 的工作将为细胞功能和基因表达提供新的见解,并可能阐明新的潜在药物靶点及其抑制剂来治疗疾病。”
这项工作是与拉什大学医学中心的 Chris Gaiteri 博士及其团队合作完成的,是长达十年合作的结果。八年前,他们共同开发了一种名为 SpeakEasy 的新型聚类算法,鉴于计算机科学技术的进步带来了大量新的生物医学数据来源,需要更智能、更快速的软件来处理更多样化、更大量的生物医学数据。
Gaiteri 的团队包括 David R. Connell;Faraz A. Sultan,医学博士;阿蒂米斯·拉特鲁博士;伯纳德·吴博士;张艾达;和 Shinya Tasaki 博士;所有这些人都对研究结果做出了贡献。