FRED DUFOUR/AFP/Getty Images

让开放数据成为现实

纽约——开放数据的理念已经成为主流。尽管自由分享数据能够带来意义深远的好处,但要成为普遍做法还有很长的路要走。

过去五年中,主要私人及公共研究出资机构——包括比尔和梅琳达盖茨基金、威康信托基金、美国国立卫生研究院(NIH)以及美国国家航空航天局 ——均不约而同的制定了数据共享政策,同时美国市、 州和国家级政府一直在推动开放数据门户。学术出版商也接受了开放数据,而某些学术期刊 甚至制定了鼓励、期望乃至要求分享数据的政策。

但共享数据的实际操作却已陷入停滞。Figshares2017年的开放数据报告显示,2,300名接受调查的研究人员有60%宣称自己“经常或有时”分享数据,但选择“经常”分享的仅占20~30%。不久前,另一项针对1,200名研究人员的研究 发现,只有“不到15%的研究人员在数据库中共享数据。”在我所研究的社会科学领域,数据开放显然还没有普及。

显而易见,促进开放数据的主流政策其实行不通,该政策的理念模仿梦想之地,该政策想当然地认为如果你强制分享,人们就会遵守规定。要想真的实现变革,研究人员自己必须接受共享数据。而要想实现这一目标,我们需要正确的信息和激励措施。简言之,我们需要的不止是大棒,还有胡萝卜。

毫无疑问,数据共享要求实际属于强制措施。另一种最常被引用的支持数据共享的理由“数据复制”也是。当然,数据复制研究至关重要,目前再生性危机正在严重困扰着科学。但在2016年对4,600名研究人员所进行的调查中,仅31%的研究人员称分享数据的动机是“透明度和重复使用率”。

同一项调查显示,造成研究人员分享数据犹豫不决的主要原因包括知识产权或保密问题、他们担忧研究成果被误读或误用,或者担忧自己的研究成果会被窃取。鉴于目前主导学术界的“出版或灭亡”模式以及所有科学家面临的竞争性出资环境,“拥有”而非分享论文背后的数据更能令个人受益。

Subscribe now

Long reads, book reviews, exclusive interviews, full access to the Big Picture, unlimited archive access, and our annual Year Ahead magazine.

Learn More

是时候将数据分享文化的对话主题从从研究人员可能“失去”什么转移到他们可能得到什么——就从声誉开始。好消息是研究人员可以发布数据集的数据期刊已经越来越受欢迎。三大公开查阅期刊(包括数据简介、生物多样性数据期刊和科学数据)的引用量已经从2012年的区区3次飙升至2016年的1028次。

另一根“胡萝卜”是数据共享能最大限度地提高研究人员和资助者的投资回报率。目前,研究注册机构和数据门户的分散使希望搜集数据在具有影响力的期刊上发表的个人研究者很难找到类似的项目数据,因此他们更有可能将研究时间和捐赠资金浪费在与其他人完全重叠的项目。数据共享可以解决这个问题。

同样为了在津巴布韦对我的工作进行一次随机评估,我和我的同事搜集了约2,500名青少年和年轻人的数据。为满足捐助者要求,我们在同行评审的期刊上发表了大约10%的相关数据,但我们却缺少资金对数据集进行进一步的分析(这对研究人员来讲是非常常见的问题)。但如果我们未使用的数据能够被公开调阅,我们就可能吸引新的合作者重新启动这项研究——还有可能启动效果更好的分析。

研究人员使用公开共享的现有数据能够轻松跨越学科,制定出更有可能导致突破性发现的研究议程和创新问题。除加速进步外,数据共享所支持的协作提高了研究人员获取所需资金的能力,因为捐赠者更容易被跨学科的创新研究所吸引。

但要想充分利用数据共享,捐助者还应当转变他们的思维方式并在项目实施过程中加强对高质量数据和数据搜集管理工作的投资,同时为数据集的管理和数据分析提供资金支持。应当给予研究人员充足的时间和资源来充分利用所收集的数据,从而挖掘出证据背后更深层次的故事。

数据共享的另外一个积极意义是它可以辅助未来的研究人员,让他们可以在论文中使用我们所搜集的数据。在身为美国国立卫生研究院研究员的早期职业生涯中,我幸运的可以访问国立卫生研究院及约翰·霍普金斯大学研究人员的多个内部数据集,在那里我花了两年时间在各种环境下进行二次分析。在以前工作的基础上,我才能够发表推动自己职业生涯的一系列论文。

除更好地激励研究人员和资金捐助机构,还需要根本转变科学文化来加速科学进步,这方面有几项充满希望的计划正在开展中。

例如开放科学中心正在促进学术研究的开放性、完整性和可复制性。伯克利社会科学透明度计划正在提供 研究透明度领域的公开数据和相关培训,以补充加强用于决策的研究和证据。 科克伦奖励基金会正竭尽全力提高研究资金的利用率,据估算每年约有1,700亿美元的研究经费遭到浪费。

虽然上述举措解决了开放数据的某些障碍,但还需要采取更多措施来确保研究人员成为数据共享背后的推动力。女童创新、研究和学习中心是我所领导的人口委员会青少年研究领域的一家全球性中心,正在建设全世界最大的青少年数据库,研究人员机构和其他人可籍此分享和查阅超过100万人的优质定量数据。

我们相信开放数据可以加速推进研究透明度和创新解决方案,上述解决方案真正影响有史以来人数最多的一代青少年——12亿人的生活。我们认为随着开放数据实践变得越来越普遍,由此实现的共享及合作所带来的好处将实现进一步延伸。

http://prosyn.org/oSFWav0/zh;

Handpicked to read next

Cookies and Privacy

We use cookies to improve your experience on our website. To find out more, read our updated cookie policy and privacy policy.