大有IPFS研究院 大有 IPFS研究院 2023-09-01 02:30
收录于合集
#科学
1 个
#filecoin
429 个
#加密货币
281 个
#存储
5 个
#分布式存储
89 个
当一家托管开源科学数据的组织解散时,会发生什么?上周,多个组织紧急合作,努力保存即将永久消失的20TB科学数据。
蛋白质折叠团队的裁员
到上周为止,Meta的研究部门有一个BioML团队。这个团队发布了多个项目,例如免费的ESMFold推断API(Meta的基于蛋白质语言模型的折叠算法)并提供了像ESM Metagenomic Atlas这样的免费、公开的科学工具,这是一个包含超过7亿预测蛋白结构的20TB数据集。
Meta决定解散其BioML团队,导致了广泛使用的ESMFold推断工具被废弃。Atlas的未来也受到了关注,许多人猜测它可能在不久的将来会被终止。
保存Metagenomic Atlas
LabDAO坚信科学数据应当是开放、易于访问的。尽管免费和公开的数据发布很有价值,但理想情况下,当组织解散时,不应撤销数据的可访问性。这带出了一个更广泛的问题:组织如何确保公开的数据能够超越任何潜在的重组、裁员或解散?
我们认为这些数据是公共物品,也是我们基于Bacalhau和IPFS构建的BioML平台plex的关键资源。
分布式存储可能不会永远持续,但它比一个组织关闭更有可能持续。当上周Meta裁员的消息传出时,我们迅速联系了Protocol Labs(IPFS和Filecoin背后的团队)提议合作,以保存这一重要资源。
固定Atlas数据
选择了Filecoin Data Infrastructure来托管包含Atlas数据的IPFS节点。
Protocol Labs内的网络增长团队接受了这一挑战,并热衷于参与数据保存工作。总的来说,数据包括20GB的元数据目录、1TB的核心集合和20TB的完整目录。
该项目从固定Martin Steinegger的Foldseek 100GB开始,使其可以在IPFS上检索。
Protocol Labs的解决方案架构师Benjamin Arntzen已经在处理这个问题。据报道,他们已经创建了一个17TB的tarball收藏,这将很快被组织起来,包含所有34TB的文件,并排序到文件夹中。
✏️免责声明: 本文仅供参考,不构成投资建议。DYOR。
还想看更多?
戳下面查看更多干货图片
大有 IPFS研究院
推荐搜索
最新消息Filecoin加密货币分布式存储