当前位置: 华闻网 - 要闻

华大基因:生命大数据“算力引擎”再发力30XWGS信息分析仅需15分钟

时间:2020-01-18 17:49    作者:顾晓芸   来源:中国网    阅读量:7520   

再创纪录!

该方案相比经典流程可达120倍加速,相比目前全球最快的FPGA/GPU方案仍能提速2-4倍。通过云计算对基因数据进行分析,大大缩短疾病风险检测或确定治疗方案的时间,这将为健康产业提供高效的解决方案,并对行业的加速发展提供强有力的支撑!

云端实现大规模弹性调度计算

图1 WGS分析过程示意图

基因计算所面临的挑战不同于常规计算,大数据生信分析平台需要具备 PB 级的数据处理能力:存储与压缩、清理及管理、低成本保存的能力;快速、安全的云端分发共享;基因数据的安全隐私保护、大规模数据挖掘;按需调度和弹性扩容等。

此次方案由华大DNBSEQ自主测序仪、BGI Online混合云架构、阿里云容器服务ACK/AGS基因服务以及赛乐基因GPU加速算法的深度融合而成。其中,华大基因联合阿里云的整体技术架构为云原生容器混合云,实现云上云下资源一体,跨地域集群统一管理。凭借云端的自动伸缩特性,实现大规模弹性调度计算。

在使用上,该方案用户无需关心基因数据处理过程中的计算资源、处理逻辑、数据缓存等细节,只需将下机数据(FASTQ文件)上传至OSS,以及授权Bucket给AGS服务,即可高效、快速完成整个数据分析流程,并将结果数据上传到用户期望的存储空间。

这套端到端解决方案,无缝衔接测序平台和基因云平台,全面支持包括DNBSEQ系列测序仪在内的多种测序平台,可按需定制分析流程,交付灵活性极高。

速度更快,精度更高,成本更低

相比同类产品,它在计算速度、精准度、成本、易用性、与上游测序仪的整合度上具有极大优势,在2020年,新的WGS交付方案将会助力基因科研与临床检测再上一个新台阶。

经过实际测试,整套方案在15分钟内完成了 8组30X WGS 样本二级分析处理。在保证精度的前提下,实现15分钟对7200亿碱基拼装、排序、去重、变异检测,完成基因检测全流程120倍加速。且经过NA12878测试数据集与金标准VCF比较,二级分析的精度高于或等于BWA-0.7.17/GATK 4.1.3的数据产出,SNP 精度到达99.80%!

图2 实测30X WGS N12878数据加速效果

图330X WGS软件加速一致性

同时,阿里云ACK/AGS提供云上PaaS加速能力,以混合云方式协助华大基因完成自主测序仪大批量下机数据分析的近实时交付,可有效降低分析计算成本,缩短该环节交付周期。

加速解码生命进程

此前,线下进行单个样本的WGS分析通常需要70+小时;2016年底,BGI Online(国际版)实现17小时完成100个WGS分析;2017年底,时间降至120分钟;到如今携手阿里云,创下15分钟完成1个WGS的新纪录,BGI Online再次刷新了全基因组分析的速度极限。

随着精准医学人群队列项目的陆续启动,我国自主可控的基因测序与分析平台显得愈发重要。BGI Online将在未来继续完善平台功能,为用户提供完整、全面、友好的功能体验,使生物信息领域的研究更简单高效。

解码未知,丈量生命。科技的每一小步,都会成为人类前行的一大步。华大基因及BGI Online将继续携手合作伙伴,共同为基因事业贡献力量。

注:人类全基因组测序(Whole Genome Sequencing,简称WGS)是利用高通量测序技术对人类不同个体或群体进行全基因组测序,并进行生物信息分析的方法。癌症和遗传疾病的深度解析往往需要对大量样本进行WGS测序与分析,而且对WGS数据的挖掘还能发现非常多极具价值的遗传多样性信息。一个人类全基因组有30亿碱基,一个30X的WGS测序数据量大约在100G。

华大基因:生命大数据“算力引擎”再发力30XWGS信息分析仅需15分钟

相关内容