我国人口与健康领域的大数据资源 4 日首次向社会公布。本次发布的数据量高达 49.1TB、2.8 亿条,包括生物医学、基础医学、临床、公共卫生、中医药学、药学、人口与生殖健康七大类。
记者从 4 日在京召开的国家人口与健康科技资源发布会上获悉,大数据资源由国家人口与健康科学数据共享平台公布。中国工程院院士、共享平台管理中心主任刘德培院士说,此次发布的数据较为详尽地反映了我国居民健康状况。以我国国民体质与健康数据库的建设为例,抽样调查了 16 个省份的 48 个县市居民,其中 4 省还进行了二次跟踪调查,指标涉及 12 大类、240 余项,还包括生理信号和图像类数据。
据刘德培介绍,为保护数据提供者权益和个人隐私,共享平台在建设过程中,自动为每个数据集提供唯一标识,并为数据提供者创立电子注册证书。在数据导出时,去掉个人姓名等关键信息,实现个人隐私安全。
中国工程院院士、中国医学科学院院长曹雪涛表示,数据难以共享是我国医学健康大数据开发应用的最大瓶颈。共享平台首次向社会公开发布数据资源,有利于进一步推动人口与健康科学数据共享,促进相关领域的科学研究成果和数据红利得到充分释放,带动生物医学数据资源整合与共享,为推进健康中国建设,实现健康中国 2030 的战略目标发挥更大作用。
共享平台建设始于 2002 年,历经四期建设工程,如今已发展成为国家科技基础条件重要平台之一。平台的科学数据总量已达到 67.76TB,并与 10 多个国家建立了科学数据共享,其数据分类和组织框架得到了国际权威部门的认可。「十二五」期间,该平台的数据已累计服务形成科研成果数 91 个,支持政府决策数 155 个,支持重大工程 102 个,支持应急事件 43 个,服务民生数 144 项。