提高合成蛋白质稳定性的系统和方法

背景技术:
1、蛋白质工程是生物技术和生物医学领域的变革性方法,旨在赋予现有蛋白质新的功能,或使蛋白质在非原生环境中更持久。影响两种工程方式的设计考虑因素是蛋白质的整体稳定性。在前一种情况下,引入功能获得突变,通过合理的设计或定向进化扩展蛋白质的作用,通常有热力学代价。由于大多数天然蛋白质只是略微稳定,可能会错过使蛋白质不稳定以达到去折叠点的功能性突变,而在选择前增加稳定性被证明可以提升蛋白质的可进化性。
2、将有用的天然存在的生物催化剂转化为工业用途的一个重要障碍是蛋白质对完全不同的环境条件、温度和溶剂的适应。增加蛋白质的稳定性可以减轻许多这类压力,从而允许以更高的产量和更低的成本进行大量表达。因此,稳定性对许多蛋白质工程上的付出得以成功至关重要。
3、存在大量设计蛋白质的方法,并且所有方法通常都代表了在如何快速准确地测量蛋白质变体和如何有效地对蛋白质变体全景进行取样之间的折衷。诱变的聚合酶链式反应(pcr)等技术需要最少的对序列和功能之间关系的知识,但依赖高通量筛选或选择来分离蛋白质变体的大型文库。结构数据和计算方法可用于缩小搜索空间,同时减少下游表征的量。这些工具对于难以(尤其是大规模)测量所需特性的蛋白质来说变得越来越重要。然而,由于我们对蛋白质序列/结构/功能关系不完全了解,蛋白质工程的不同计算工具通常会提供完全不同甚至相互冲突的解决方案。对于稳定性和折叠等通常是分布在整个蛋白质序列中的许多小相互作用的结果的特性尤其如此。
4、通常,计算机的方法将通过执行计算密集型折叠模拟来识别使蛋白质不稳定的残基。这些模拟所涉及的详细程度各不相同——有些甚至援引量子力学(moe)来解释分子间的相互作用,而另一些则使用更粗粒度的方法(rosetta)。第一种近似方法是,粗粒度的方法通过查找蛋白质结构中的缺口(rosettavip)、进行快速局部自由能计算(foldx)或查找进化异常(pros)的残基来识别有问题的残基。然后,通过疏水堆积或回复到进化共识,建议使用更合适的残基。然后,通过对突变体的能量模拟,估计这些取代对蛋白质稳定性的影响。总的来说,这一过程(残基识别、取代建议、复性和自由能计算)可能需要几个小时到几天的时间。
5、机器学习是一个有吸引力的选择,因为它不需要预先了解特定的蛋白质特征或耗时的手动检查和分配单个结构特征。最近,torng和altman(torng et al.,“3d deepconvolutional neural networks for amino acid environment similarityanalysis,”bmc bioinformatics,18:302,2017,通过引用并入本文)描述了一种通用框架,其在提供有关周围蛋白质微环境的信息的情况下通过预测氨基酸的特性将3d卷积神经网络(3dcnn)应用于蛋白质结构分析。该神经网络在相对于野生型序列分配氨基酸方面达到42%的预测准确率,并且优于其他依赖于识别预先分配的基于结构的特征的计算机方法。此外,给定模型蛋白t4溶菌酶的结构数据,3d cnn通常在已知突变不稳定的位置预测野生型残基,并且在给出这些已知不稳定突变体的结构时,显示出对野生型残基的强烈偏好。
技术实现思路
1、鉴于蛋白质组必须同时表现出几种不相关甚至相互冲突的表型,如折叠几何结构、稳定性、催化作用和结合特异性,作为远离活性位点的位置处的结构离群的氨基酸可能会影响折叠和稳定性,但不会影响功能似乎是合理的。因此,本领域需要改进的蛋白质工程技术,利用人工智能来学习不同氨基酸的共有微环境,并扫描整个结构以识别偏离结构共有性(structural consensus)的残基。这些残基被认为具有低野生型概率且被认为是不稳定位点,因此是诱变和稳定性工程的良好候选者。本文讨论的系统和方法的实施提供了这种改进的蛋白质工程技术。
2、一方面,训练神经网络以改良蛋白质特性的计算机实施方法包括从数据库收集一组氨基酸序列,为该组氨基酸编译一套具有化学环境的三维晶体结构,将化学环境转化为体素化矩阵,用体素化矩阵的子集训练神经网络,用神经网络识别目标蛋白质中的待突变候选残基,并用神经网络识别要取代候选残基的预测氨基酸残基,以产生突变蛋白质,其中所述突变蛋白质在特性上表现出优于所述目标蛋白质的改良。在一个实施例中,该方法还包括以下步骤:将选自氢位置、部分电荷、β因子、二级结构、芳香性、电子密度、极性及其组合的特征的空间排列添加到至少一个三维晶体结构中。
3、在一个实施例中,该方法还包括调整该组氨基酸序列以反映其自然频率。在一个实施例中,该方法还包括从序列中的随机位置对该组氨基酸序列中至少50%的氨基酸进行取样。在一个实施例中,该方法还包括使用三维晶体结构或体素化矩阵的第二子集训练第二独立神经网络,以及基于两个神经网络的结果识别候选和预测残基。在一个实施例中,特征是稳定性、成熟度、折叠或其组合。
4、另一方面,用于改良蛋白质特性的系统包括处理器和具有存储在其上的指令的非暂时性计算机可读介质,当由处理器执行时执行以下步骤,包括提供包含残基序列的目标蛋白质,提供一组围绕氨基酸的三维模型并为每个三维模型提供一组蛋白质特征值,估计每个三维模型中各个点的一组参数,用三维模型、参数和蛋白质特征值训练神经网络,用神经网络识别目标蛋白质中的待突变候选残基,并用神经网络识别替代候选残基的预测氨基酸残基,产生突变蛋白质,其中突变蛋白质在特性上表现出优于目标蛋白质的改良。
5、在一个实施例中,蛋白质特征是稳定性。在一个实施例中,所述步骤包括重新编译折叠氨基酸序列的至少一个氨基酸序列以产生更新的三维模型。在一个实施例中,所述步骤包括在重新编译之前向折叠氨基酸序列的至少一个氨基酸序列添加特征的空间排列。
6、在另一方面,本发明涉及包含secbfp2变体的蛋白质,该变体相对于全长野生型secbfp2在选自t18、s28、y96、s114、v124、t127、d151、n173和r198的一个或多个残基处具有一个或多个突变。在一个实施例中,该蛋白质包含secbfp2变体,该变体包含seq id no:2至seq id no:28中的一个的氨基酸序列。在一个实施例中,secbfp2变体包含seq id no:2至seq id no:28中的一个的氨基酸序列的变体。在一个实施例中,secbfp2变体包含融合蛋白,该融合蛋白包含seq id no:2至seq id no:28中的一个的氨基酸序列。在一个实施例中,bfp包含seq id no:2至seq id no:28中的一个的氨基酸序列的片段。
7、在另一方面,本发明涉及包含核苷酸序列的核酸分子,该核苷酸序列编码包含secbfp2变体的蛋白质。在一个实施例中,核苷酸序列编码如seq id no:2至seq id no:28中所述的氨基酸序列、其变体、其融合蛋白或其片段。在一个实施例中,该分子为质粒。在一个实施例中,该分子是表达载体。在一个实施例中,核酸分子还包含用于插入异源蛋白质编码序列的多克隆位点。在另一方面,本发明包括:包含上述蛋白质的组合物、包含上述核酸分子的组合物、包含上述蛋白质或上述核酸分子的试剂盒。
技术研发人员:安德鲁·埃灵顿,奥斯丁·科尔,拉格夫·什罗夫,罗丝·泰尔
技术所有人:德克萨斯大学董事会
备 注:该技术已申请专利,仅供学习研究,如用于商业用途,请联系技术所有人。
声 明 :此信息收集于网络,如果你是此专利的发明人不想本网站收录此信息请联系我们,我们会在第一时间删除
