生物医学大数据发展的新挑战与趋势

发布时间:2018-09-07 11:49:40  |  来源:中国网·中国发展门户网  |  作者:张国庆 李亦学 王泽峰 赵国屏  |  责任编辑:赵斌宇
关键词:生物医学,大数据,整合,交互,数据挖掘

数据标准与质量控制

生物医学大数据的数据标准包括术语集、数据标准、综合标准等。典型的术语集包括基因本体 GO、人类表型本体 HPO等,序列最简描述信息标准集包括 MIxS 与 MIGS以及 ICD10、SNOMED-CT等医学数据标准。生命科学领域的数据标准大多由有国际影响力的机构或协会率先提出,伴随配套的数据解析或分析软件,逐步得到学术界的认可。例如:由国际核酸序列数据库协会(INSDC)定义的“The DDBJ/ENA/GenBank Feature Table Definition”是 NCBI、EBI 等数据中心最早的核酸序列数据标准,以及基因组拼接数据标准;EBI 和 NCBI 等定义的基因芯片实验数据标准 MIAME、GEO,FGED 定义的二代测序数据标准 MINSEQE,以及拼接文件格式 BAM、变异文件格式 VCF、遗传特征描述格式 GFF3等,医学领域得到最为广泛认可的数据标准是医学影像标准 DICOM。医学领域的标准比生命科学领域的数据标准要复杂得多,规范化程度也更高。医学领域的标准大多需要经过立项、草案、发布等阶段,得到了更为广泛的认可,如国际标准化组织健康信息学标准化技术委员会的 ISO/TC 215 系列标准、HL7(卫生信息用户层,ISO 定义的信息交换7层协议规范中的第七层)、临床数据交换标准协会 CDISC等;标准的范围也远比生命科学领域的数据标准复杂,包括词汇术语、数据描述、技术操作、应用服务和医疗管理等。

生命科学的标准主要集中在术语集和数据标准,不同的标准之间相对独立,对数据产出过程、分析过程的规范性表述较少。医学的数据标准更强调互操作、互联互通等,不同的标准自成体系,但是对支撑科研的数据标准的描述反而较少。因此,生物医学大数据亟待加强临床科研的数据标准体系的建设,以及数据分析过程的操作相关的标准的建设。

数据质量控制受到数据产出、数据分析的影响,不同的数据质控有所差别。芯片、基因组数以美国食品药品监督管理局(FDA)主导的 MAQC、MAQC-II、MAQC-III 等,由于独立于技术系统之前,得到了较为广泛的认可。蛋白质组的数据质控,缺少与 MAQC 相匹配的大项目,而是主要通过 PRIDE、iPROX 等数据汇交平台的质控工具来体现。数据质量控制需要提供参考数据集作为基准,包括实验方法产出的原始数据与参考数据集的吻合情况,以及数据分析形成的分析结果与参考数据集的吻合情况。因此,针对有广泛用途或者重要用途的数据类型,建设参考数据集、参考数据分析流程,是数据质量控制的关键环节,也是生物医学大数据平台的重要建设内容。

我们正在建设以组学数据百科全书——NODE为代表的开放式基础性平台,并达到了一定的数据规模。其中,在整合存储方面,数据平台与数据库包括以微生物组大数据平台为代表的领域示范平台,以骆驼基因组变异数据库、可翻译转录组 RNA 数据库等为代表的专题数据库。在交互共享方面,正在向 NODE 系统集成全基因组、外显子组、转录组等常规组学数据分析流程,微生物 16S RNA、宏基因组、微生物功能注释等领域组学数据分析流程。在前沿信息技术方面,利用 GPU 技术对转录组、宏基因组等组学数据拼接、映射等高资源消耗的环节进行优化。在标准质控方面,开展了包括描述信息和原始数据在内的质量控制,并建立了自动化的质控流程,将实现数据汇交时就自动完成质控评估的功能。

面对生物医学大数据的挑战,建立全面支撑生命科学研究数据与健康医学大数据的汇交、管理、共享与挖掘的技术与资源体系,形成以递交为基础、以整合为导向的数据存储中心,以主题为基础、以交互为导向的数据共享中心,以及以传统信息技术为基础、以前沿信息技术为导向的下一代生命科学数据转化中心,将有效地支撑生物医学、健康医疗等领域的基础研究、应用研究和产业示范。(作者:张国庆 李亦学 王泽峰 赵国屏 中国科学院计算生物学重点实验室生物医学大数据中心 中国科学院-马普学会计算生物学伙伴研究所 中国科学院上海生命科学研究院(上海营养与健康研究院)中国科学院大学 上海 上海生物信息技术研究中心 上海。《中国科学院院刊》供稿)

 

<  1  2  3  


返回顶部