合成生物学最大的挑战之一是掌握蛋白质折叠和设计的艺术。虽然生物工程技术在追求这一目标中显着提出,但合成生物学家不能通过计算机建模或预测算法纯粹完全设计蛋白质的序列或形状。那么蛋白质设计的未来看起来像什么,以及如何改变我们可以用生物学构建的东西?
当蛋白质争吵时
几个世纪以来,人类已着其着迷于解码和识别生活。由于Gregor Mendel着名的豌豆植物在遗传路径上的着名试验以来,已经有一百五十年。今天,我们不仅可以通过DNA工程的读写编辑周期来改变遗传性状,而且如何如何改变这些特征。但读写编辑周期不完整,没有最终输出:蛋白质。
蛋白质是dna - rna通路的最终产物。这些关键分子无处不在,从我们吃的食物到对抗SARS-CoV-2的抗体。然而,蛋白质有时折叠不正确和故障,导致严重的遗传疾病。对CFTR基因的某些突变可导致蛋白质的蛋白质,其使氯离子从细胞中移出,引起囊性纤维化。另一种蛋白质淀粉样蛋白β的错误折叠已被鉴定为阿尔茨海默病的关键因素。然而,蛋白质研究的最新进展有助于开发治疗方法,可以改变像CFTR蛋白的受损蛋白质。这种突破为几十年来挑战了研究人员的疾病创造了近乎治愈。
错误折叠的蛋白质代表了一般设计蛋白质的挑战。理解和控制蛋白质的行为和互动是如何通过生物学推进人类和行星健康的核心。目标是通过合成抗体驱动免疫应答或通过植物肉类增加可持续性,最佳设计的蛋白质躺在这一挑战的核心。
功能遵循形式

蛋白质的功能是由其结构决定的。这种结构产生于蛋白质折叠的方式,而折叠又由蛋白质的序列编码。这些关系听起来很简单,但建模起来却极其困难。当在实验室里合成蛋白质时,要想从蛋白质的序列准确预测蛋白质的结构和功能,有太多的可能性需要人工合成和费力地测试。
传统上,围绕蛋白质设计的决策是由生物学驱动,并辅以计算方法。肽或基因合成和定点突变等方法建立了数据集,验证了经过计算预测的序列以特定方式折叠的候选序列。这种方法通常被称为理性蛋白设计。然而,这种技术有明显的局限性。
蛋白质动力学必须大大简化才能在合成系统中表示。因此,只有一小部分蛋白质特征可以被优化,而不是更全面地考虑所有方面,特别是在计算上考虑这个问题时。此外,对可能序列的“样本空间”的严格探索可能是一项计算密集的任务。尽管这在今天已经不是什么挑战了,但问题依然存在:我们如何最好地利用计算工具来改进蛋白质设计,无论是为了药物发现还是可持续性?
计算蛋白设计的里程碑
在过去的几十年中,生物学研究和计算能力的进步导致了蛋白质建模和设计的新方法。计算蛋白质设计,通过计算机建模而不是实验室实验设计蛋白质,已成为在追求更健康,更可持续的未来创造更有效的蛋白质的中央工具。
最近,新创计算蛋白质设计已经前进了。华盛顿大学的贝克实验室已成功设计全新,从未见过的蛋白质早在2003年。这一工作在他们近期的新冠肺炎研究开发中得到了贯彻小蛋白质作为抗病毒药物抗击新型冠状病毒。贝克实验室的工作以其强大的蛋白质计算设计开源精神而闻名,包括其用于蛋白质折叠和相互作用的Rosetta建模软件和实验室的FoldIt计算网络。这个网络使民间科学家能够推进实验室的工作以及整个领域。
同样,对蛋白质结构的盲目预测也得到了重要的验证。今年早些时候,DeepMind alphago团队报告了在其双年度挑战中称为蛋白质结构预测(CASP)的关键评估的前所未有的准确性,其中团队预测无需先验知识的3D蛋白质结构,保存蛋白质序列。alphaGo代表其蛋白质作为使用结构和遗传数据的空间图。这种称为空间源的方法使得能够更好地理解蛋白质如何物理地交互以及它们如何发展到他们目前的形式。
使用神经网络进行评估和优化的空间源 - 一类由大脑启发的计算算法也称为一种深度学习。该方法最终将允许通过提高效率和降低成本,更容易地预测现实世界中的蛋白质结构,使电流和晶体等当前技术相同。虽然这些方法已经代表了计算蛋白质设计的显着进展,但对于一些,该学科是在下一代进步的尖端上。
深度学习符合基于物理的建模

“我们认为下一代蛋白质工程在基于物理学的模型和深度学习之间的相互作用之间位于,”基于立陶宛的基于立陶宛公司的CSO和联合创始人Vykintas Jauniskis肥胖设计。该公司专注于通过合成生物学和AI开发生成蛋白质设计平台。
对于Jauniskis来说,这两种技术的交叉点是一个快乐的媒介。如果这些蛋白质与那些算法列车的数据显着不同,深度学习可能不会熟于预测新的蛋白质特征。深入学习算法依赖于学习和应用“规则”到原始数据,因此如果新蛋白类型打破这些规则,深度学习就不如效力。然而,基于物理学的方法直接编码更详细的蛋白质特征和相互作用的方法太慢。Jauniskis以中间地位以形式观察利用优势的生成蛋白工程两种方法都来自两种方法。
对于Jauniskis来说,这种生成模式是“可以解锁工程师想象的理想方法”。这样的方法将框架转变为实验朝向更集成的建模,而不是专注于收集大量数据。此过程可以帮助标准化通常是最杂乱的数据集。数据也可以以有意的预先计划的方式更好地优先考虑,从而可以更好地进行研究。“当现场成熟足够的方法以获得最佳类型的数据和[关联]项目足够便宜,不再是为了更好的数据而付出更多的问题,”Jauniskis说。换句话说,良好数据的成本可能不再是更好的研究的重要障碍。

更好的数据是至关重要的,但更好的数据并不总是意味着更多的数据。Surge Biswas,首席执行官微分算符生物(公司共同创立的公司Frances Anastassacos和乔治教会),看到利用较小的数据集作为下一代蛋白质设计的前沿。“相比之下,与使用大量高吞吐量数据学习的现行方法,我们的平台从少量的序列账户数据中学习,可用于良好的综合表示和用于优化新设计的建议,”他说。对于BISWA来说,这种方法对于对合成生物学的高价值数据集特别重要。
与Jauniskis一样,Biswas设想了未来,计算方法可以更有效地整合传统的分子发现和合成工作流程。“计算 - 首先决策制定将成为进一步的方式,因为计算方法的变化率是高于湿式实验室技术的数量级。机器学习预测几乎变得几乎,如果不像经验实验室数据一样有价值,但更容易生成,“他备注。
为未来设计蛋白质
人类健康是下一代蛋白质设计的主要应用领域。在这个近年长的大流行中,迅速设计抗体一直处于公共意识的最前沿。但BISWAS还指向食品中的设计师蛋白作为计算蛋白质设计的令人信服的空间潜力。该技术可用于修改营养质量,了解蛋白质影响的味道,探索以前未知的蛋白质。
尽管围绕下一代蛋白质工程兴奋,但Jauniskis和BISWAS都表达了关于闪电快速进步的承诺的保留。BISWAS特别强调的测试工程蛋白质的高成本是如何从药物临床试验或工业环境中学到的。这些字段具有相对较低的数据输出,但是错过了从计算错误和更新未来蛋白质的数据集的机会。
然而,这是大生物学的年龄。如果有一个如此认识论转变的时代,那么深潜进入大自然的基础,这就是这个。从根本上重新思考我们如何收集数据可以允许下一代蛋白质设计起飞。蛋白质设计的每次迭代都有可能改善全球健康,食物的未来以及人类生命的可持续性。
22