近期,mgm美高梅79906施建宇教授与胡金璐副教授团队在《Briefings in Bioinformatics》(一区,IF=9.5)上发表题为“Recognition of cyanobacteria promoters via Siamese network-based contrastive learning under novel non-promoter generation”的论文,得到了国家自然科学基金和CAAI华为MindSpore基金等科研项目的资助。mgm美高梅79906博士生杨光为第一作者,施建宇教授与胡金璐副教授为该论文的通讯作者。
本文提出了一种基于孪生网络对比学习的蓝藻启动子识别框架SiamProm,并针对现有启动子负集构建方法的缺陷提出了新的负集采样方法 Phantom Sampling,SiamProm可以捕获序列的全局关联、上下游上下文关系以及邻近关联的特征来放大启动子和非启动子之间的隐藏差异。SiamProm 发现了内容保守但位置变化的潜在蓝藻启动子回文motif片段‘GCGATCGC’。该方法为蓝藻启动子识别提供了新的视角与见解。
研究背景:
转录起始位点(TSS)附近的启动子作为基因元件在功能基因转录中发挥着重要作用。启动子与RNA聚合酶特异性结合,启动子的识别有助于了解基因的表达方式。然而,由于生物测定的启动子识别通常昂贵且耗时,因此在全基因组范围内识别启动子是一项艰巨的任务。在过去的二十年里,由于人工智能技术的高速发展以及高通量测序技术确定了大量的启动子序列,深度学习计算方法已成为预测潜在蓝藻启动子的一种新的有前途的方法。
研究方法:
作者提出的基于孪生网络对比学习的蓝藻启动子识别框架SiamProm包含一个复杂的孪生网络(Siamese network)和一个二分类预测器。孪生网络的每个子网络包含四个模块:嵌入初始化模块、k-mer注意力模块、双向上下文捕获器和最近邻聚合器(图1)。嵌入初始化模块将启动子序列分词为一组k-mer标记(token),并将它们初始化为独热编码。接下来,它通过全连接层传递编码,并将它们与token位置编码集成。k-mer注意力模块包含具有残差连接的多头注意力层,捕获成对k-mer标记之间的全局重要关联。由双向LSTM(Long Short-Term Memory)实现的双向上下文捕获器对token的上游和下游上下文进行编码,同时表征序列的正向链和反向链上下游信息。最近邻聚合器由具有残差连接的一维卷积层实现,对相邻token之间的关联进行编码。
图1. SiamProm模型架构
图2. SiamProm挖掘潜在回文motif GCGATCGC
作者首先分析了不同采样方法下构建的启动子数据集质量,Phantom Sampling 表现出了更加鲁棒的数据分布。之后,在不同采样方法下与最先进的深度生成方法的比较表明了SiamProm的优越性。此外,消融实验揭示了SiamProm关键组件如何分别对模型做出贡献,包括孪生网络、k-mer注意力模块、双向上下文捕获器和最近邻聚合器。最后,作者通过SiamProm分析挖掘蓝藻启动子模体(motif)(图2),发现了内容保守但位置变化的潜在蓝藻启动子回文motif片段‘GCGATCGC’。这项工作为蓝藻启动子识别提供了新的视角与见解。该论文发表在《Briefings in Bioinformatics》上[1],其在线链接为:https://doi.org/10.1093/bib/bbae193.(文/图:施建宇;审核:杨慧)
参考资料:
[1] Yang G, Li J, Hu J, et al. Recognition of cyanobacteria promoters via Siamese network-based contrastive learning under novel non-promoter generation[J]. Briefings in Bioinformatics, 2024, 25(3): bbae193.