首页 > 精选百科 > > 正文
2024-03-08 11:33:46

迁移学习为新疾病治疗铺平了道路

导读 基因测序和计算方面的技术进步分别导致了生物信息数据和处理能力的爆炸式增长,为人工智能(AI)设计控制细胞行为的策略创造了成熟的联系。在

基因测序和计算方面的技术进步分别导致了生物信息数据和处理能力的爆炸式增长,为人工智能(AI)设计控制细胞行为的策略创造了成熟的联系。

在一项新的研究中,西北大学的研究人员通过开发一种人工智能驱动的迁移学习方法从这种联系中收获了成果,该方法重新利用公开数据来预测可以改变细胞类型或使患病细胞恢复健康的基因扰动组合。

该研究将于本周发表在《美国国家科学院院刊》上。

自从20年前人类基因组计划完成以来,科学家们已经知道人类DNA包含2万多个基因。然而,这些基因如何共同协调我们体内数百种不同的细胞类型仍然是一个谜。

令人惊讶的是,研究人员基本上通过引导试错法证明,仅通过操纵少数基因就可以“重新编程”细胞类型。人类基因组计划还促进了测序技术的进步,不仅使读取遗传密码变得更加便宜,而且还使测量基因表达变得更加便宜,基因表达可以量化执行细胞功能的蛋白质的前体。负担能力的提高导致了大量公开可用的生物信息数据的积累,提高了合成这些数据以合理设计能够引发所需细胞行为的基因操作的可能性。

控制细胞行为以及跨细胞类型转变的能力可用于再生受损组织或将癌细胞转化回正常细胞。

在美国,中风、关节炎和多发性硬化症导致的组织损伤 每年影响 290 万人,每年造成的损失高达 4 亿美元。与此同时,癌症每年导致全球约 1000 万人亡,造成数万亿美元的经济损失。由于当前的护理标准不能再生组织和/或功效有限,因此迫切需要开发更有效且广泛适用的治疗方法,这反过来又需要识别可以从高通量数据推断的分子干预措施。

在这项新研究中,研究人员使用公开的基因表达数据训练他们的人工智能来了解基因表达如何引起细胞行为。该学习过程生成的预测模型被转移到特定的细胞重编程应用程序。在每个应用中,该方法都会找到最有可能诱导所需细胞类型转变的基因操作组合。

对全基因组动态的前所未有的探索

该论文的主要作者、西北大学网络动力学中心成员托马斯·怀托克 (Thomas Wytock) 表示:“我们的工作与之前合理设计操纵细胞行为的策略的方法相比,脱颖而出。” “这些方法主要分为两类:一类是根据基因的相互作用或共同属性将基因组织成网络;另一类是基因根据其相互作用或共同属性组织成网络;另一种方法是对健康细胞和患病细胞的基因表达进行比较,以找出差异最大的基因。”

在第一类中,现实性和规模之间存在权衡。一些网络模型包含许多基因,但只说明关系是否存在。其他模型是定量的和实验验证的,但必然涉及少量的基因和关系。西北大学的新工作保留了两种模型的优点:它包含了细胞中的所有基因,并定量地表示了它们的表达。这是通过将近 20,000 个单独基因的表达减少到不超过 10 个此类基因的线性组合来实现的,这些基因的线性组合是被称为特征基因的加权平均值。

温伯格学院查尔斯·E·莫里森和艾玛·H·莫里森物理学教授 阿迪尔森·莫特说:“特征基因基本上显示了基因如何协同运作,从而可以将大型动态网络的动力学简化为几个移动部件。” 艺术与科学博士、西北大学网络动力学中心主任、该研究的资深作者。“每个特征基因都可以被认为是一条大致独立于其他特征基因的通用途径。因此,特征基因在基因调控网络中获取了相关的相关性和独立性。”

第二类方法可以找到与细胞行为变化相关的单个基因,但无法具体说明基因如何协同工作以实现这种变化。新方法通过认识到基因协同改变其表达来克服这一挑战。根据特征基因对这一特性进行定量计算,可以通过适当缩放它们对不同基因扰动的响应相加组合。然后可以将组合响应输入人工智能模型,以确定哪些扰动会引发所需的细胞行为。

避免组合爆炸

配备了这种人工智能模型,研究人员整理了公开数据,以确定当单个基因受到外源升高或降低其表达的干扰时,基因表达如何变化。然后,他们开发了一种算法来解决逆问题,即预测最有可能诱导所需的重编程转变的基因组合,例如导致患病细胞表现得像健康细胞一样。集成数据和算法所产生的方法避免了测试所有组合以识别有效组合而导致的组合爆炸。这很重要,因为实验只能测试有限数量的案例,而算法提供了一种识别最有希望测试的案例的方法。

“这种方法的亮点在于它能够通过计算检查无数的组合,”怀托克说。“例如,200 个扰动的成对组合会产生 20,000 个案例,三倍组合会产生超过 130 万个案例,而且这个数字不断呈指数增长。由于该算法采用了优化,因此该方法可以通过微积分的魔力来比较潜在无限数量的组合的预测。”

该方法规避的另一个挑战是基因扰动可以以非加性方式组合。例如,考虑基因扰动对细胞生长速率的影响,并想象当单独应用时扰动会使生长速率减半。如果两个这样的扰动将增长降低到显着高于或显着低于一半(或四分之一),那么它们的影响就会非相加地结合起来。尽管有大量研究描述了基因之间的非加和相互作用,但即使不必考虑这种加和性的偏差,新方法也是有效的。

“在这种情况下,整体可以很好地近似于部分之和,”莫特说。

“诱导细胞类型之间转变所需的干预措施的这种特性是违反直觉的,因为细胞类型本身是由基因之间的集体相互作用产生的。”

由于该方法解决了控制细胞行为的主要挑战,因此它可以应用于许多不同的生物医学条件,包括那些将从未来数据中受益的条件。

对即将到来的数据的灵活模型

事实上,对基因扰动的反应相结合,可以促进跨细胞类型的泛化。例如,如果皮肤细胞中的基因被破坏,那么对肝细胞中的表达产生的影响在很大程度上是相同的。

因此,人工智能驱动的方法可以被认为是一个平台,可以插入与特定患者的特定疾病有关的数据。每当治疗疾病被视为重编程问题时,就可以应用该方法,例如癌症、糖尿病和自身免疫性疾病,这些疾病都是由细胞功能障碍引起的。

该方法的多功能性使得单个研究中的基因表达能够在国家生物技术信息中心测序读取档案库中的所有可用数据中快速关联,该档案库是最大的公开可用的基因表达数据存储库。2012 年至 2022 年间,该档案已增长了 100 倍,从 10 TB 增长到 1,000 TB,并且随着测序成本的下降,继续呈指数级增长。这项工作提供了一个关键工具,可以将大量数据转化为基因如何协同工作以控制正常细胞和患病细胞行为的具体预测。