生命与健康大数据现状和展望

发布时间:2018-09-07 11:49:35  |  来源:中国网·中国发展门户网  |  作者:鲍一明 薛勇彪  |  责任编辑:赵斌宇
关键词:生命与健康,大数据,现状,展望

国内外生命与健康大数据的现状

国外生命与健康大数据的现状

国外各类基因组测序计划催生了海量的生命与健康大数据

1977 年,Frederick Sanger 发表的双脱氧链终止法标志着测序技术的成熟。1986 年,人类基因组计划启动,并于 2001 年完成了人类基因组草图。2005 年,454 测序仪出现,下一代测序技术开始投入使用。此后,生命与健康领域的大型测序项目层出不穷,例如美国国家人类基因组研究所(NHGRI)于 2003 年 9月启动了 DNA 元件百科全书计划(ENCODE Project),其主要任务是鉴定和分析人类基因组中所有功能元件。作为 ENCODE 项目的补充,2007 年美国国立卫生研究院(NIH)启动了路线图表观基因组项目(Roadmap Epigenomics Project),该项目的目标是创建不同细胞类型的参考表观基因组图谱。几乎与此同时,欧洲的 Wellcome Trust 资助了千人基因组计划(1000-Genome Project)。该计划由欧洲生物信息研究所(EMBL-EBI)于 2008—2015 年运行,主要目标是寻找在研究的人类群体中出现频率至少为 1% 的遗传变异。类似地,在 2008 年初启动的拟南芥 1001 基因组计划的目的是在至少 1001 个品系中发现相对于拟南芥参考基因组的序列变异。由美国 NHGRI 和 NIH 资助的 TCGA 计划则对数千个肿瘤细胞的基因组、外显子组和转录组进行测序,试图鉴别出驱动癌症发展的公共的基因突变。NIH 资助的人类微生物组计划(HMP)对生活在人类肠道和皮肤上的微生物的 16S rRNA 扩增子组进行测序,以期找到一组核心的、影响人类健康的微生物组。2012 年,英国 10 万人基因组计划启动[11]。而更大的、酝酿了 3 年的美国政府资助的健康大数据项目 100 万人基因组计划已于 2018 年 5 月20日启动,该项目将建立 100 万人的健康大数据队列,预计耗资 15 亿美元,为期 10 年。

国外形成了完整的生命与健康数据中心布局

发达国家政府很早就开始重视生命与健康大数据的收集、分析和应用。早在 1988 年 11月,美国国家医学图书馆(NLM)就意识到了“发展新的信息技术以促进对控制健康和疾病的分子过程的理解”的重要性,把 Lister Hill 国家生物医学交流中心的一个项目独立出来,成立了美国国家生物技术信息中心(NCBI)。从创立之初,NCBI 的职责之一就是收集全世界的生物技术数据。30 年来,NCBI 不断发展壮大,员工数从 20 人增加到目前的 700 余人,美国国会每年拨付的经费由 1990 年的 507.3 万美元增加到 2014 年顶峰时的 9 583.3 万美元。在这个过程中,NCBI 积累了全世界最大的生命与健康数据库(如 GenBank、PubMed、SRA、dbGaP 等)和软件资源(如 BLAST、e-Utilities 等),目前数据库中存储的总数据量已达 30 PB,每天访问网站的用户有 420 万,下载数据达 60 TB 以上,高峰时段的点击量超过每秒 7 000 次。

欧洲生物信息学研究所(EBI)的前身是 1980 年在德国海德堡建立的欧洲分子生物学实验室(EMBL)核酸序列数据库。1992 年,EMBL 在英国 Hinxton 建立了 EBI。EBI 最早的数据库只有两个:欧洲核酸归档库(ENA)和蛋白序列资源库(UniProt),而现在 EBI 已建成世界上最全面的分子生物学数据库集合,其管理的总数据量达 12 PB,每月用户数为 320 万人。EBI 目前有员工约 600 人,2016 年运行经费为 8 820 万美元,主要来自欧盟各国政府,特别是英国政府。

在 EMBL 和 GenBank 的邀请下,日本政府成立了日本 DNA 数据库(DDBJ)。1987 年 DDBJ 发布了 DDBJ release 1,标志着该机构开始正式运行。目前,DDBJ 的自有数据量约为 3 PB,年用户数为 268 800 人;共有约 50 名员工,年经费为 891 万美元,由日本文部省资助。

2005 年 5月,NCBI、EBI 和 DDBJ 成立了国际核酸序列数据库联盟(INSDC)。INSDC 是国际上公共领域数据共享方面最著名的组织之一,其成员每天进行数据交换,每年召开内部会议,讨论有关建立和维护序列存档的问题,并制定了一系列统一的标准和政策。INSDC 在国际生命与健康大数据收集上有着巨大的影响力,作为惯例,在主流生物医学期刊发表论文前都要将数据上传到 INSDC 成员数据库公开。

瑞士生物信息学研究所(SIB)是一个联合瑞士境内生物信息学活动的非营利性学术基金会,成立于 1998 年。SIB 的数据涵盖生命科学的不同领域,包括基因组、蛋白质组、医药健康、进化、结构生物学和系统生物学等。2017 年,SIB 核心资源被全球约 600 万用户使用,当年 SIB 管理的资金总额达到了 2 676.5 万美元。

在健康大数据领域,Epic 是美国最大的电子病历供应商,约有 1.9 亿的个人用户使用 Epic 公司的系统储存自己的电子医疗信息。Cerner 也是美国最大的电子病历供应商之一,目前,Cerner 在全世界 35 个国家支撑了 27 000 个不同大小的医疗机构。Google 的控股公司 Alphabet 旗下的 DeepMind 公司正在使用人工智能看各种医学影像,试图学会那些医生需要花上几年学习获得的经验,从而使机器学会判断病症。

<  1  2  3  4  >  


返回顶部