生物医学大数据发展的新挑战与趋势

发布时间:2018-09-07 11:49:40  |  来源:中国网·中国发展门户网  |  作者:张国庆 李亦学 王泽峰 赵国屏  |  责任编辑:赵斌宇
关键词:生物医学,大数据,整合,交互,数据挖掘

以主题为基础、以交互为导向的数据共享

NCBI 和 EBI 等机构通过数据递交服务汇聚了大量的数据资源,并通过网络提供数据共享。截至 2018 年 7月,NCBI 和 EBI 提供的生物序列、分子结构、遗传信息、表型信息等可以共享的数据接近资源都已经超过 60 项,这些数据资源极大地促进了生命科学与生物医学研究。除了共享第三方递交的数据资源外,以美国国家癌症研究院(NCI)建立的 TCGA(The Cancer Genome Atlas)数据库、英国的国家队列 UK Biobank(UKB)等,采用的是另外一种模式,即依托大型科研项目产出的数据,提供分级共享,满足不同类型的科研需求。介于这两者之间,中小型研究团队利用自身的数据采集能力和整合能力,建立了大量的种类繁多、规模悬殊、质量参差不齐的数据库和知识库,提供数据查询、浏览、下载服务,部分数据库还提供在线分析服务。Nucleic Acids Research 每年第 1 期都出版数据库专刊,到目前为止,已经发表了 1 737 篇数据库相关论文,其已经成为生物医学数据库领域最有影响力的专刊。

这些按照数据类型(如基因组、转录组、蛋白质组等)、物种(如人类、人类以外、脊椎动物、无脊椎动物、微生物等)、研究目的(如遗传变异、转录因子、调控网络)等方式建设的数据库,在推进数据共享方面发挥了巨大的作用。但是随着数据类型和规模的日益扩大,如何存储、组织、访问存放在不同平台上的不同类型的生物医学数据成为新的挑战。为此,研究者提出 FAIR 原则,即可发现(findable)、可访问(accessible)、互操作(interoperable)和重用(re-usable)。基于 FAIR 原则,BD2K、OmicsDI等平台采用搜索引擎等技术突破传统的以主题为基础建设的数据库的局限性,对 EBI、NCBI 等数据中心的数据资源提供统一检索服务,实现以搜索引擎为核心的数据跨库整合,更好地满足用户一站式的数据共享需求。

除了搜索技术外,数据可视化、在线分析也是用户利用数据的重要手段。新的可视化技术,包括 HTML5、JavaScript 等 Web 展示技术在数据平台中的应用越来越广泛,用于大分子展示、分子影像、基因组浏览器等。此外,依托数据库的分子序列、分子结构、调控及相互作用网络等数据,数据库根据自身特点,集成了序列比对、多序列比对、结构相似性比较、网络结构分析等在线分析的工具,也极大地加强了数据的可交互性。

在建设生物医学大数据平台时,TB 量级的数据下载需求对数据下载、单库检索等数据共享手段提出了严峻的挑战。因此在延续按照主题(数据类型、物种、研究领域)组织数据的基础上,引入跨库搜索引擎、可视化、在线分析等在线交互技术,通过更加准确地返回用户数据访问结果的方式,提高数据共享效率。

以传统信息技术为基础、以前沿信息技术为导向的数据挖掘

从分析的角度来看,生物医学大数据包括生命科学研究数据,以及临床医学数据。在生物信息学、计算生物学、系统生物学等计算学科的支持下,以基因组、转录组、蛋白质组、代谢组等组学数据为代表的生命科学研究数据的分析方法已经日趋成熟,分析流程日益普及,正在逐步成为传统的信息技术。临床医学数据在数据统计、数据建模、机器学习等技术的支持下,SAS、MATLAB、R 语言等分析工具也得到了广泛应用。

数据挖掘能力,尤其是组学数据挖掘能力,越来越难以满足飞速增长的数据产出。其面临的主要挑战在于:数据量越来越大,需要速度更快的数据压缩、传输、分析方法;数据维度越来越高,需要更加准确的降维方法。基于 GPU(图形处理器)、FPGA(现场可编程门阵列)等硬件技术,对传统的生物信息分析方法的限速步骤进行算法优化,在序列比对、分子对接得到越来越多的应用。而以深度神经网络为代表的人工智能技术,在医学影像处理、高维数据降维等方面的应用呈现爆发式的增长,包括致盲性视网膜疾病与肺炎、阿尔茨海默病、皮肤癌、脑膜瘤等医学影像辅助诊断等。此外,区块链技术由于其去中心的特性,也开始在生物医学数据共享方面得到应用。

前沿信息技术在生物医学大数据中的应用,将涵盖数据预处理、数据传输、数据分析、数据共享等范围,提升数据挖掘能力。

<  1  2  3  >  


返回顶部