图片

图片来自“Slave Societies Digital Archive”(数字档案)官网。


据《自然》(Nature)杂志官网报道,一项针对超过七百万份数字出版物的研究表明,超过四分之一的学术论文未被妥善存档和保存,研究结果表明,当下的数字保存工作未能跟上不断增长的学术研究产量。


该研究发表于今年1月24日的《图书馆学和学术交流期刊》(Journal of Librarianship and Scholarly Communication),研究作者、伦敦伯克贝克大学文学、科技和出版研究员马丁·伊夫(Martin Eve)解释道,这个研究的认识论都依赖于脚注链,“如果您无法核实其他人所说的话,那么您就只能盲目地相信您自己无法再阅读的证据。”


马丁·伊夫检查了7438037份带有数字对象标识符的作品是否被存档。数字对象标识符是一套识别数字资源的机制,由一系列数字、字母和符号组成,用于识别和链接特定出版物(例如学术论文和官方报告)。一个数字化对象的DOI是唯一的,一经产生就永久不变,不随其所标识的数字化对象的版权所有者或存储地址等属性的变更而改变。


研究样本来自于每个注册成员组织的最多1000个DOI的随机选择。研究结果显示,其中28%的作品(超过200万篇文章)没有出现在主要数字档案库中,尽管它们有活跃的DOI。只有58%的DOI引用了至少一个存档库中的作品,其余14%的作品因发布时间太近、不是期刊文章或没有可识别的来源而被排除在外。


图片

图片来源于《自然》杂志官网。


伊夫同样指出了这项研究的局限性,这项研究只追踪了带有DOI的文章,并且没有搜索每个数字存储库中的文章。例如,研究没有检查带有DOI的物品是否存储在机构存储库中。


尽管如此,数据保存专家肯定了这份研究的价值。“许多人盲目地认为,只要你拥有DOI,你的研究论文就会永远存在。但这并不意味着链接将永远有效”,芬兰汉肯商学院的米凯尔·拉克索(Mikael Laakso)说道。拉克索和他的同事在2021年发布报告称,2000年至2019年期间,超过170本开放获取期刊已经从互联网上消失。


还有专家指出,小型出版商比大型出版商更容易因无法保存文章而面临风险。因为数据存储需要成本,许多小型组织也无法获取存档涉及的基础设施、技术和专业知识等资源。


马丁·伊夫指出了一些改善研究论文的数据存储现状的方案,包括加强DOI注册机构的要求,以及提升出版商和研究人员对该问题的认识。“每个人都在考虑他们可能从在某个地方发表论文中获得的直接利益,但我们真的应该考虑研究生态系统的长期可持续性。在你去世100年后,人们还能够访问你曾经努力研究过的东西吗?”


参考资料:

(1)More than 2 million research papers have disappeared from the Internet

https://www.nature.com/articles/d41586-024-00616-5


编译/李永博

编辑/罗东

校对/朱名恬