微生物组(又称“菌群”)在自然界中无所不在。在人体内外,菌群与生俱来、又与我们相伴终身,和我们的发育和健康息息相关。因此人体微生物组也被称为每个人的“第二基因组”。一个“第二基因组”可由数百万个微生物基因组成,其数据量是一个人类基因组的成百上千倍。因此,根据人类已经积累的海量微生物组数据,寻找“结构”或“功能”类似的菌群样本,从而实现对未知功能菌群的解读和挖掘,以及对整个已知微生物组数据空间的全局性思考,一直是微生物组业界的关键瓶颈之一。然而,由于微生物组数据的复杂性和异质性,如此“温故而知新”却长期以来如同“大海捞针”般艰难。基于多年的研发积累,近日中国科学院青岛生物能源与过程研究所单细胞研究中心正式发布国内外首个“微生物组大数据搜索引擎——MSE(Microbiome Search Engine; http://mse.single-cell.cn),使得上述以整个微生物组为分析单元的智能搜索和大数据挖掘成为现实。
对海量微生物组“大数据”的搜索、挖掘与机器学习,能够帮助人们了解微生物组与相关疾病之间的关系,从而利用人体各个部位的共生菌群实现个体化的精准健康、精准护理与精准营养。据了解,该搜索引擎通过建立针对微生物群落的超高速比对算法和数字索引机制,为海量的样本列出基于菌群结构或功能相似性的“目录”。当输入未知样本时,引擎能够根据这一带有菌群相似性信息的“目录”从浩瀚的微生物组大数据海洋中迅速自动选取与该样本最为相似的匹配。同时,引擎还可以自动计算针对特定慢性疾病发表的一系列“微生物组诊断指数”(如该团队与宝洁公司合作发明的牙龈健康诊断方法: Huang, et al, ISME J, 2014)和“微生物组预警指数”(如该团队与中山大学附属口腔医院最近发表的新发性儿童龋齿预测方法等:Teng, et al, Cell Host & Microbe, 2015),以判别未知样本针对特定疾病的状态和风险。两者相结合,实现对未知样本的特性做出注释与判断,并根据进一步数据挖掘的结果给出诊断结果和护理方面的建议。
与此同时,配合该搜索引擎,单细胞研究中心还发布了分析软件Parallel-META 3 (Su, et al, Bioinformatics, 2014),不但可以将数量庞大的未知微生物组样本进行结构与功能解析,而且可以与其数据库搜索匹配结果进行更深入的比对分析。此软件的深度数据挖掘能力能够帮助剖析疾病与微生物组之间的关联规律,让微生物组大数据帮我们不仅“知其然”,而且“知其所以然”。
该搜索引擎前期获得了科技部“863”与国家自然科学基金的支持,并正在支撑着单细胞研究中心主持的“中科院生物高通量检测分析服务网络”在健康、环境、海洋、工业等诸多微生物组应用领域的产学研合作。