地球科学数据共享的挑战与实践——以中国西部生态与环境科学数据中心为例 内容简介
本文以科学数据共享为核心, 在回顾科学数据共享的发展历史基础上, 从研究科学数据共享的概念、内容与技术为起点, 阐述科学数据共享的理念, 以科学数据共享平台的设计与实现为工具, 结合科学数据的汇交与共享具体实践, 以分析和评价科学数据共享的实际成效为终点。
地球科学数据共享的挑战与实践——以中国西部生态与环境科学数据中心为例地球科学数据共享的挑战与实践——以中国西部生态与环境科学数据中心为例 前言
科学数据已渗透到科学研究的方方面面,科学数据已进入“大数据”时代。科学数据共享现今具有重要的意义和迫切的实际需求。进行科学数据共享,可以支持科学研究的再现和验证,也有助于研究者利用现有数据研究新的科学问题,更有助于提升科学研究和创新水平,促进科学的可持续发展。但由于科学数据共享的复杂性,尤其是在地球科学领域,科学数据的收集、汇交、发布、共享、激励、评价等仍面临诸多挑战。
本书以地球科学数据共享为核心,在回顾科学数据共享发展历史的基础上,从研究科学数据共享的概念、内容与技术为起点,阐述科学数据共享的理念,以科学数据共享平台的设计与实现为工具,结合科学数据的汇交与共享具体实践,分析和评价科学数据共享的实际成效。
科学数据共享的本质就是科学数据的开放和共用,并使其在共享过程中发挥出更大的价值。为实现共享的本质目标,科学数据共享平台包括三个核心部分,即数据汇交和整理、数据管理以及数据发现和获取,分别针对数据提供者、科学数据中心以及数据用户,科学数据共享平台的核心任务就是满足这三类用户的实际需求。科学数据共享的动力主要有两个方面,即推动科学的发展以及寻求科学研究的再现和验证。而科学数据共享面临的挑战是多方面的,包括数据量的持续增长和数据存储的挑战、保证数据可持续共享的挑战、科学数据汇交的挑战、科学数据质量的挑战等。国内在科学数据共享方面也存在对应的挑战,同时存在其他问题,包括没有明确的科学数据汇交政策、不完善的科学数据共享体系、对数据的产权还不够重视等。
本书在分析科学数据共享需求的基础上,探讨了科学数据共享涉及的各利益相关者的实际利益需求,设计了一套用于实际业务的科学数据共享流程,包括数据共享流程、数据申请流程、离线申请管理流程以及数据发布流程,并定义了元数据评审和文献支持两种科学数据共享平台需要的扩展功能。以元数据为核心,对内联系科学数据实体,对外实现科学数据共享功能。以现有开源技术为基础实现了一套功能可扩展的科学数据共享平台,并在科学数据共享实践过程中逐步优化、调整相应的功能,核心功能覆盖了科学数据的发现、获取、发布和服务等,并以此数据共享平台为核心,扩展了科学数据共享的辅助功能,包括科学数据的知识挖掘功能以及科学数据库的对外共享功能,以应对科学数据共享的诸多挑战。
在进行科学数据共享实践过程中,本书介绍了三个具体的共享实践,即中国西部环境与生态科学数据中心的数据共享实践、黑河综合遥感联合试验的数据共享实践以及黑河计划数据管理中心的数据共享实践。在中国西部环境与生态科学数据中心的实践过程中,形成了一套适合科学数据共享的方法体系,包括保证科学数据的有效信息传递、保证科学数据共享中利益相关者的权益、保证科学数据共享的可持续发展等。在黑河综合遥感联合试验数据共享实践过程中,对共享系统进行了拓展,对科学数据及期刊文献进行了对应管理,并采用元数据分析方法介绍了黑河综合遥感联合试验的数据概貌。在黑河计划数据管理中心数据共享实践过程中,从制度和技术上实现了科学数据汇交支持,更加注重保护数据作者的权益,同时集成了黑河流域生态水文观测数据库,解决了黑河计划数据共享的实际挑战。
基于黑河综合遥感联合试验数据共享服务的实际成效,本书对科学数据共享的服务成效进行了探讨。在服务成效分析上,从用户申请的数据结果分析了用户申请数据的时间热点、空间热点以及主题热点,从申请数据的用户行为分析了用户的时间、单位、项目及其与黑河综合遥感联合试验项目组的关系。在文献分析方面,对黑河综合遥感联合试验数据产出的文献进行了分类,认为其包括专题文献、引证文献以及数据作者推荐文献三个类别,并从期刊来源、文献作者、研究主题三个方面进行了分析。同时针对黑河综合遥感联合试验专题分析了科学数据共享在提升文献引用方面的积极作用。利用定量化的访问、下载、引用数据,分析了黑河综合遥感联合试验数据集在共享时这三类定量数据之间的关系,并分析了从访问到下载、从下载到引用的统计规律。
*后,基于科学数据共享的实践结果,我们尝试总结科学数据共享的成效并评价科学数据共享过程。利用科学数据中心的成效分析数据,发现科学数据中心也存在马太效应和长尾效应。利用网络信息计量学方法和网站访问记录方法,评价了西部数据中心的共享成效。在这两个科学数据共享评价的实例基础上,我们参照期刊文献评价方法提出了一种面向数据的科学数据共享评价框架,定义了单一科学数据评价模型以及科学数据集合评价模型,并以西部数据中心的数据集和黑河综合遥感联合试验数据集为例探讨了科学数据共享评价实例。
感谢国家自然科学基金重点项目中国西部生态环境科学数据中心(90502010)与面向黑河流域生态-水文过程集成研究的数据整理与服务(91025001)、中国科学院西部行动计划黑河流域生态水文遥感试验项目(KZCX2-XB2-09、KZCX2-XB3-15)在研究过程中给予的支持,感谢科技部重点研发项目(2016YFC0502726)和上海市高峰高原学科在经费上的资助。也感谢共同参与相关项目研究的各位课题组成员。
地球科学数据共享的挑战与实践——以中国西部生态与环境科学数据中心为例 目录
区域生态与环境过程系列丛书序言
前言
第1章 地球科学数据共享现状
1.1 地球科学数据
1.2 国内外研究现状
1.2.1 国际数据共享研究现状
1.2.2 国内数据共享研究现状
1.3 本书章节安排
1.3.1 本书主要内容
1.3.2 本书结构
第2章 科学数据共享的理念、挑战与关键技术
2.1 科学数据共享的研究内容
2.1.1 什么是科学数据共享
2.1.2 为什么要共享科学数据
2.1.3 科学数据共享的挑战
2.1.4 我国科学数据共享面临的主要挑战
2.1.5 科学数据共享流程
2.1.6 科学数据共享的研究趋势
2.2 科学数据共享的主要技术
2.2.1 元数据技术
2.2.2 数据标识与引用
2.2.3 数据访问与获取
2.3 本章小结
第3章 科学数据共享平台的设计与实现
3.1 科学数据共享的流程设计
3.1.1 科学数据共享涉及的各利益相关者
3.1.2 科学数据共享的核心需求
3.1.3 科学数据共享的核心业务流程设计
3.1.4 科学数据共享的扩展功能设计
3.2 科学数据共享平台的实现
3.2.1 整体框架
3.2.2 基于用户群的功能实现
3.2.3 关键问题
3.3 科学数据共享平台的扩展功能实现
3.3.1 元数据发布与评审
3.3.2 科学数据的知识挖掘
3.3.3 关系型数据库的共享
3.4 本章小结
第4章 科学数据中心的建立与共享实践
4.1 实践1:中国西部环境与生态科学数据中心
4.1.1 西部数据中心的数据分析
4.1.2 西部数据中心的组织架构
4.1.3 西部数据中心的数据服务
4.1.4 西部数据中心的共享平台
4.1.5 问题与讨论
4.2 实践2:黑河综合遥感联合试验数据的共享
4.2.1 试验介绍
4.2.2 数据整理及共享政策
4.2.3 数据共亭系统
4.2.4 元数据分析
4.2.5 问题与讨论
4.3 实践3:黑河计划数据管理中心
4.3.1 数据政策
4.3.2 汇交与共享系统
4.3.3 与黑河流域生态水文观测数据库的共享集成
4.3.4 元数据分析
4.3.5 问题与讨论
4.4 本章小结
第5章 科学数据共享的成效分析:以WATER数据共享为例
5.1 WATER数据的服务分析
5.1.1 用户申请的数据分析
5.1.2 申请数据的用户行为分析
5.2 WATER数据的文献分析
5.2.1 文献分析
5.2.2 文献与数据
5.3 WATER数据共享的定量化分析
5.3.1 WATER数据的查看统计
5.3.2 WATER数据的下载统计
5.3.3 WATER数据的引用统计
5.3.4 从查看到下载的追踪分析
5.3.5 从下载到引用的追踪分析
5.4 本章小结
第6章 科学数据共享的评价探讨
6.1 科学数据共享的认知
6.1.1 马太效应
6.1.2 长尾效应
6.2 西部数据中心的共享评价
6.2.1 西部数据中心的网络影响力评价
6.2.2 基于网站访问日志的数据影响力评价
6.3 面向数据的科学数据共享评价框架
6.3.1 科学数据共享评价的可用数据
6.3.2 单一科学数据共享评价
6.3.3 科学数据集合共享评价
6.3.4 科学数据共享评价方法斌验
6.3.5 问题和讨论
6.4 本章小结
第7章 结论与展望
7.1 结论
7.1.1 以元数据为核心的科学数据共享平台
7.1.2 科学数据汇交实践
7.1.3 科学数据共享实践
7.1.4 科学数据共享评价
7.1.5 本书创新之处
7.2 问题与展望
7.2.1 提升用户的共享参与度
7.2.2 重视科学数据资源的长期建设
7.2.3 进一步提升知识挖掘能力
7.2.4 面向机器的科学数据共享服务
7.2.5 持续推动科学数据的出版与引用
参考文献
缩略词表