近期,我院赵兴明教授和Luis Pedro Coelho青年研究员在《自然·通讯》(Nature Communications)杂志在线发表了题为《基于孪生神经网络提升不同环境下微生物组数据集分箱性能的算法》(“A deep siamese neural network improves metagenome-assembled genomes in microbiome datasets across different environments”)的研究成果。
由于使用宏基因组测序技术无需培养微生物即可得到微生物的基因组,近年来宏基因组测序技术已经广泛地运用在了环境微生物的研究当中,一些研究使用宏基因组测序技术从人类、动物以及环境等样本中重构出了大量的基因组(MAGs),这极大地扩展了人类和动物肠道参考基因组。
标准的宏基因组分析流程为首先使用组装工具将宏基因组测序得到的短读片段(reads)组装成长的contig,然后使用分箱工具(Binning),将contigs聚类成bin,认为每一个bin中仅含有来自单个基因组的序列。宏基因组分箱算法可以分为两类,取决于算法是否依赖于参考基因组。依赖于参考基因组的算法即只能找到参考基因组中存在的基因组,即已知的物种,意味着这样的方法不能发现新的物种。不依赖于参考基因组的方法是完全无监督的算法,因此这样的方法可以发现新的物种。
研究团队开发了一种基于孪生神经网络的高效宏基因分箱工具-SemiBin,它使用深度孪生神经网络来实现半监督方法,既利用参考基因组中的信息,同时也保留了重建参考数据集之外的高质量样本的能力。利用GMGCv1(全球微生物基因目录)中几个不同栖息地的模拟和真实微生物组数据集,包括人类肠道、非人类肠道和环境栖息地(海洋和土壤),验证表明SemiBin的性能显著优于Metabat2、Maxbin2和VAMB等现有广泛使用的分箱工具。
我院潘少军博士研究生为本文的第一作者,赵兴明教授和Luis Pedro Coelho青年研究员为共同通讯作者。
原文链接:https://www.nature.com/articles/s41467-022-29843-y