近日,生化与分子生物学领域国际权威期刊Nucleic Acids Research(影响因子11.501)在线发表了江南大学粮食发酵工艺与技术国家工程实验室邓禹教授课题组的最新研究成果“Programmable cross-ribosome-binding sites to fine-tune the dynamic range of transcription factor-based biosensor”。该研究以葡萄糖二酸生物传感器为研究对象,通过解析葡萄糖二酸生物传感器中RBS调节动态范围机制、RBS理性设计、构建RBS大数据文库并建立深度学习模型实现了RBS对生物传感器动态范围的智能化调控。全文链接为https://doi.org/10.1093/nar/gkaa786。
作者通过前期工作发现葡萄糖二酸生物传感器有很高的渗漏表达且动态范围低(9倍)这一现象。这一现象将阻碍葡萄糖二酸生物传感器在代谢物检测、高通量筛选和动态控制等方面应用的稳健性和可靠性。此外,通过传统试错方法改造生物元件来获得合适的动态范围是一个耗时费力的过程,这是生物传感器快速精准设计所面临的普遍性问题。
为了克服上述挑战,作者首先证明了RBS是调控生物传感器动态范围的重要因素之一。其中通过随机替换控制调节基因cdaR和报告基因sfgfp翻译的RBS,构建了81种cRBS,经过方差分析发现RBS对生物传感器动态范围的调节贡献最大。然而,RBS调节生物传感器动态范围的机制依然未知。随后,作者通过伴侣蛋白对错误折叠蛋白的修复实验,证明了随着蛋白质表达水平的增加错误折叠蛋白的数量也逐渐增加,这是影响传感器动态范围的关键因素。由此可见,RBS可以通过控制翻译水平进而调节蛋白质表达和蛋白质折叠状态,最终调控生物传感器动态范围。
然而,由于在RBS、蛋白质表达水平、蛋白折叠和动态范围之间缺乏定量关系,并且建立RBS和动态范围的关系需要深入探索两者之间的复杂生物机制,因此限制了生物传感器的理性设计策略实施。近年来快速发展的人工智能技术为复杂生物过程的预测和模拟带来了曙光。因此,借助数学模型比如深度学习等方法可以实现生物传感器动态范围的快速模拟和预测。其中深度学习模型无须考虑复杂的作用机理就可以建立RBS和动态范围的联系,但是这需要大量的数据集才能实现。所以,作者深入分析了所构建传感器的RBS序列规律,建立了RBS的设计原则,并基于该原则通过DNA芯片构建了12000种cRBS组合。随后,结合FACS分选技术和二代测序技术分析了亚库中的cRBS序列,最终获得了7053条不同cRBS序列。最后,作者借助卷积神经网络CNN模型通过对RBS数据及其特征的不断学习建立了RBS和动态范围之间的分类模型,即CLM-RDR模型。其中在ROC曲线下的平均面积为0.86,表明了此模型具有优越的预测性能。此外,CLM-RDR模型在预测E. coli的其他生物传感器动态范围方面也具有一定程度的实用性。
上述研究工作中,江南大学18级博士研究生丁娜娜为论文的第一作者,邓禹教授和周胜虎助理研究员为论文的共同通讯作者。此研究工作得到了国家重点研发计划(2019YFA0905502)、国家自然科学基金(21877053, 31900066)、江苏省青年科学基因(BK20150159)和江苏省研究生科研创新计划(KYCX20_1813)的资助。
图1CLM-RDR深度学习模型构建的流程示意图