环境微生物研究中基于高通量测序技术产生了海量的微生物组数据,在文章发表时一般要求将测序数据存储到国际生物信息数据库,如:SRA、EBI和MG-RAST,但也有很多数据埋藏在文献中,不容易找到,同时缺少与测序数据对应的环境因子数据,使得发表的数据难于与我们自己的数据进行比较研究。扩增子数据与宏基因组数据相比,分析虽然相对容易,但无尽的代码和命令行也增加了数据分析的难度。中国科学院成都生物研究所李香真团队致力于研发高通量测序数据资源的整合及快速、高效、准确的数据分析解决方案。基于环境基因组云平台,该团队开发了微生物组数据库(http://egcloud.cib.cn),现已正式上线。

微生物组 预测 机器学习 模型_微生物组 预测 机器学习 模型

该平台收集环境样品中的高通量测序数据及其与样品相对应的环境因子数据,实现了扩增子数据的自动化分析,为用户提供了便捷的数据储存、分析、搜索和分享管理服务。微生物组数据库既是一个基因组数据的分析平台,也是一个实体数据库和专业数据库,数据来源于各种环境系统的样品,如土壤、水体、反应器、动物肠道等。用户可以根据特定的条件,从数据库中检索和下载与自己研究相关的数据,并与自己的数据进行比较,以实现基于大数据的比较微生物组学研究。

该平台采用“注册—上传—审核—自动化分析—多维度精确搜索—授权下载”的流程对数据进行收集和管理。平台采用Deblur算法处理高通量数据,并将处理状态变更信息实时发送到用户的注册邮箱。平台理论上支持超过200种扩增子数据储存和在线分析。目前已经完成部署了应用较广泛的16S rRNA, ITS, nifH等基因的自动化分析流程。

 平台针对目前国际上数据库管理和用户使用上的问题,对数据上传、搜索和下载等模块进行了优化,让用户既能免费分析数据,又不用担心自己的数据泄漏。将数据使用授权交给了数据上传者,并不强制公开原始测序数据。对用户上传的所有数据进行多设备、异地脱机备份,不用担心数据的丢失。借助于平台实现的数据过滤引擎和管理系统,用户可以方便地管理自己的微生物组数据。

 当前版本中(v1.2)实现了数据的提交、生物信息分析、精确搜索、数据授权管理等功能。在数据提交方面,实现了友好的数据提交页面和方式,只需要4步,用户即可将数据提交到数据库并进入分析队列。一旦提交的数据开始进行处理,提交者可以随时监测数据分析的进度,数据的处理进度平台也会实时通知用户。平台目前提供了12个维度若干个指标对数据进行精确过滤,并以多种方式展示过滤结果。在下一步工作中,平台将在v1.2版本上逐步集成领域内相关统计学分析工具和可视化工具,实现更多的功能,打造一个完全免费的在线交互式分析系统,让用户不写代码也能容易地进行统计分析和可视化。另外,也要借助整个学术界的大力支持,大力提高数据的存储量。

详细的操作说明请点击链接:http://egcloud.cib.cn/content-list.html?type=manual。

微生物组 预测 机器学习 模型_数据库_02

微生物组 预测 机器学习 模型_搜索_03

微生物组 预测 机器学习 模型_数据库_04

微生物组 预测 机器学习 模型_数据库_05

微生物组 预测 机器学习 模型_微生物组 预测 机器学习 模型_06