1月6日,我院朱山风研究员在《基因组生物学》(Genome Biology)杂志发表了题为《MetaBinner:一种从复杂微生物群落中恢复单个基因组的高性能独立集成分箱方法》(MetaBinner: a high-performance and stand-alone ensemble binning method to recover individual genomes from complex microbial communities)的研究成果。
宏基因组学能够不依赖培养,直接利用从微生物群中收集到的基因组片段对微生物群落组成和结构等进行分析,从而挖掘与环境和人体疾病等相关的重要信息,近年来越来越受到研究者的关注。
宏基因组二代测序数据具有多物种混合、不同物种测序深度不一、数据量大以及长度短等特点。针对这些特点,在常见的宏基因组数据分析流程中需先对测序读段进行组装(assembly),将大量的短读段组装成相对较长的连续的基因组片段,称为重叠群(contig)。重叠群分箱(contig binning),旨在将来自相同基因组或密切相关基因组的重叠群聚集到同一个基因组分箱(bin)中,是宏基因组数据分析的重要步骤。重叠群分箱算法产生的宏基因组组装的基因组(metagenome-assembled genomes 或 MAGs)的质量将影响微生物群落结构和功能的分析以及新的微生物基因组的发现等后续研究的结果。开发高效且高性能的重叠群分箱算法,是一个十分重要的研究问题。
考虑到集成分箱方法的优势以及现有方法的不足,朱山风课题组提出了高性能的集成分箱算法MetaBinner。MetaBinner共分为两大模块:第一部分“组件模块”包含构建不同特征向量组合、确定聚类类别数、利用多种特征和不同的初始化生成分箱结果以及后处理,用来生成高质量并且多样化的组件分箱结果;第二部分“集成模块”,采用一个高效的两阶段集成策略,用来集成组件分箱结果,得到最终的输出。MetaBinner在CAMI II大规模宏基因组数据解析国际竞赛的重叠群分箱任务中整体排名最优,相关评测结果于2022年发表在Nature Methods。
我院王子叶博士后为本文的第一作者,朱山风研究员为通讯作者。
原文链接:https://link.springer.com/article/10.1186/s13059-022-02832-6