当前位置:首页 >阅读生活>

《科学》社论:确保数据有最大可获取性

来源:www.timetimetime.net 时间:2019-12-13 编辑:原创
作者:王丹红资料来源:科学时报发布时间:2011年

选择字体大小:中小

《科学》社论:确保数据的最大可用性

发布主题聚合数据管理

《科学》杂志同时关注数据管理。

(照片:《科学》)

“科学就是数据,数据就是科学。”新出版的《科学》杂志在一篇社论中指出,“数据推动科学的发展。”不仅如此,社会经济、政治、环境和健康的发展需要依靠科学数据的分析。然而,科学界因没有完全提供公开、透明和可共享的数据而受到批评。《科学》杂志发表了一篇专门针对数据的文章,指出所有这些问题的核心是数据的收集、管理、可理解性和可用性。

数据中有金矿。然而,从基因组学、天文学、生态学、临床医学到高能物理学,当今天的数据泛滥时,数据管理已经成为一个日益严峻的挑战,科学家应该怎么做?粒子物理学家齐格弗里德比什凯克的经历可能是一个真实的警告故事。

旧数据的新发现

比什凯克现在是德国马克斯普朗克物理研究所所长。20多年前,他在德国同步加速器DESY实验室参加了大型正负电子对撞机上的JADE实验。实验是研究夸克和胶子结合形成质子和中子的力。1986年,当DESY实验室为了建造更强大的对撞机而关闭对撞机时,JADE实验结束了。20世纪90年代中期,由于新理论思想的出现,比什凯克希望重新分析JADE实验的旧数据,因为这是来自较低碰撞能量的数据。

然而,他发现了一场灾难。自从JADE的实验结束,实验经费暂停,这些数据已经分散到世界各地,并随意存储在旧磁带上。JADE实验的数据尤其典型:粒子物理学家没有存储和共享数据的标准格式,因为他们习惯于大规模合作,并很快转向更大更好的机器。比什凯克花了近两年的时间,大量的努力和运气来重建这些数据。

然而,新的问题出现了。这些数据中的绝大多数无法读出。一名研究生花了一年时间编写程序,然后才读出这些数据。

比什凯克恢复这些数字不仅仅是怀旧。JADE实验停止后,理论物理学家提出了“强耦合强度”理论。他们预测的现象只能在低能对撞机中观察到,而在今天的高能对撞机中不能重复。通过重新分析这些旧的JADE实验数据,比什凯克的团队写了十多篇有影响力的论文,其中一些有助于证实量子色动力学。他说:“我们就像物理和考古专家。我们做了太多的工作。事实上,我们不应该这样做。如果有一个在实验结束前保存和共享数据的适当计划,所有这些时间和劳动都可以节省。”

Cerberus粒子物理学家、数据保存专家萨尔瓦托勒米勒(Salvatore Miller)表示:“我们有资金来生产、收集、分析和发布数据,但我们没有资金来保存数据。”

一篇设立数据存档专家职位的社论指出,科学是由数据驱动的。新技术大大减少了数据收集和分析的过程,同时允许其他人独立挖掘和重新分析这些数据。当今社会需要将这些科学数据用于许多不同的目的。因此,数据应该更广泛地获得,并成为科学研究的一个基本要素。通过建立透明、标准和开放的数据文件,科学界正试图承担这一基本责任,科学家也正试图面对不断产生的巨大、复杂和多样的数据。

Bishkek认为JADE实验中旧数据的可用性不应该是唯一的例子。德国同步加速器物理学家克里斯汀迪亚科诺(Kristin Diakono)说:“现在安装的大型对撞机能量越来越高,但它们不能重复低能对撞机获得的数据。现实是,过去做的许多实验都是独特的,不能在当前的高能对撞机上重复。”

在高能物理领域,随着大型科学设施的建设,数据问题将变得越来越严重。例如,欧洲粒子物理研究所的大型强子对撞机的建设已经引起了世界的关注,其他实验也将相继停止。迪亚科诺说,每个实验只有一个应用程序,是为一项特殊任务而构建的。问题是实验完成后,数据只能被小组成员理解。当他们离开去做其他工作时,数据变成无人照管的孤儿,而其他人不能接管数据,因为只有那些参与原始实验的人才能理解原始数据的含义,并能够对其进行复杂的分析。

科学家们正在移动。2009年,来自世界上几个重要高能物理实验室的研究人员组成了一个名为“高能物理数据保存”(DPHEP)的工作组,比什凯克是该工作组的创始人之一。DPHEP的目标之一是在每个实验组设立一个“数据存档专家”的职位,以确保实验信息和数据得到适当的管理。此外,在实验结束和实验组解散之后,信息和数据也可以被长期存储并被外部世界使用。

DPHEP估计,设立数据存档专家职位的成本约为对撞机总预算的1%。这不是一个小数目,但是将数据投入使用将为过去的投资增加新的收入。迪亚科诺说:“数据收集已经结束,但这并不意味着实验已经结束。”

数据管理是一项共同的努力。作为论文发表的把关者,学术期刊意识到数据的长期存储和多重使用,以及数据与诚实研究结果之间的密切关系。它们在确保数据的开放性和永久可用性方面发挥着重要作用。例如,《科学》杂志要求作者以一种可理解的方式使论文所基于的所有数据对外部世界开放,并鼓励作者以两种方式遵守这一要求:要么将数据存储在可支持和维护的公共数据库中,要么将数据存储在杂志的在线支持材料系统中。

但是对于期刊来说,网上支持资料系统的管理是一个棘手的问题,因为没有特殊的设备。对于大型数据库,《科学》杂志要求作者达成数据存档协议,即作者承诺将数据存档到组织的网站,并将数据副本发送到《科学》杂志。但是这个协议只是权宜之计。

《科学》杂志的社论认为,推动科学发展的最重要力量必须来自科学界。科学家作为期刊和学术的领导者、论文和基金的评审者以及作者本身都扮演着重要的角色。它呼吁科学界为数据的提供和管理做出积极贡献。

《科学》 (2011-2-21 A3国际)

阅读更多

《科学时报》相关主题(英语)

相关文章
热门标签
日期归档

版权所有© 阅读时间 | 备案: 鄂ICP备12015973号-1 | www.timetimetime.net . All Rights Reserved | 网站地图