云技术社区

搞科研已经离不开Ceph

Posted on 2020-02-12

Ceph是一个开源的软件定义存储平台,在粒子物理研究、癌症研究、人脑项目、MeerKat射电望远镜等世界知名项目中发挥着至关重要的作用。

Ceph灵活,廉价,容错性高,硬件中立,可无限扩展,这使得它成为任何规模化研究机构的一个很好的选择。

Ceph给科研人员带来的好处包括:

——支持多种存储类型:包括对象、块和文件系统。无论正在进行何种类型的研究,生成的文件、块和/或对象都可以在Ceph中和谐共存。

——混合云就绪:Ceph支持混合云环境,这使得远程科研人员(可能位于世界任何地方)很容易以不同的存储格式上传数据。

——硬件中立:Ceph不需要高性能的硬件,这降低了设备成本,消除了供应商锁定。

——弹性:在组件出现故障时,不需要购买冗余硬件,因为Ceph的自愈功能可以快速复制故障节点,确保数据冗余和更高的可用性。

本文介绍四个有着独特数据存储需求的科研项目是如何使用Ceph的。

CERN

来自世界各地的科学家利用CERN的粒子加速器来探索诸如“宇宙的性质是什么”的问题。CERN的超大数据中心每天执行超过50万个物理任务,目前的存储需求估计为每年70千兆字节。CERN之所以选择Ceph,是因为它能够为OpenStack构建块存储,而且远程服务器可以很容易地添加而无需停机。

Immunity Bio

基因组学研究需要处理大量的数据。Immunity Bio是分子检测和个性化癌症治疗领域的领先者,它处理大量的数据,包括每项基因检测1兆字节的数据,因此关键是存储不成为瓶颈。在一个800核的集群上处理原始数据需要一个月的时间,工作负载可以从250万个小的随机文件到几个巨大的顺序文件不等。使其存储需求更复杂的是,Immunity Bio的数据是“无限度有用”的,这意味着所有数据将永远存储起来,以供将来的研究或再处理。

Immunity Bio选择Ceph是因为Ceph在处理和存储大量数据方面非常经济有效。Ceph支持对象、块和文件类型的统一存储, Immunity Bio可以在不依赖外部供应商的情况下管理Ceph,这也很有吸引力。

尽管云是一种流行的存储选择,但Immunity Bio没有选择云,因为它认为云定价是不可扩展的。云供应商锁定也是一个问题,因为在云供应商之间移动1 PB的数据是众所周知的困难。

借助Ceph,Immunity Bio实现了经济高效的存储、更好的性能和可靠性,并消除了供应商锁定。

Human Brain Project

用技术重造人脑的复杂过程是一项艰巨的任务。HBP是一个为期十年的欧盟旗舰研究项目,以exascale超级计算机为基础,旨在增加神经科学、计算机和脑相关医学方面的知识。

HBP的目标之一是为全世界的研究人员提供共享和分析数据的工具和数学模型,以了解大脑是如何工作的,从而模拟其计算能力。这个项目的规模难以想象:人脑如此复杂,以至于一台普通的计算机甚至不能模拟其中的一小部分。

HBP的很大一部分在神经模拟中使用大规模并行应用来解释数据。HBP的需求远远超出了当前的技术能力,无疑将推动高性能计算行业的创新。

HBP使用基于Ceph的下一代存储系统,利用复杂的内存层次结构,支持下一代混合工作负载的执行。有了Ceph,HBP消除了供应商锁定,同时实现了90%的读取效率,并随着对象大小的增加显示出出色的可扩展性。

MeerKat射电望远镜

想象一下一组位于世界上最偏远和最恶劣地方的望远镜,收集大量关于外太空的信息。MeerKat射电望远镜是一个64天线阵列射电望远镜,建立在Square Kilometre Array(SKA)站点上。SKA项目旨在开发世界上最大的射电望远镜。Ceph用于存储和检索大量数据,包括一个20 PB的基于对象的存储系统。

MeerKat的一个独特挑战是望远镜阵列的位置孤立:一个位于南非沙漠深处,另一个位于澳大利亚内陆。成本是一个关键因素,因为该项目需要大量的存储硬件。Ceph是一个很好的选择,因为它不需要高性能、昂贵的硬件来获得最佳性能。

弹性也很重要,因为望远镜位于偏远的环境中,这使得在组件出现故障时很难快速采购新的硬件。如果某个节点发生故障,Ceph的自愈功能会使用位于集群中其他节点上的辅助副本快速复制发生故障的节点,从而确保数据冗余和更高的数据可用性。因此,MeerKat具有高弹性、可扩展的存储解决方案,最大限度地提高效率,同时最小化成本。

将数据从MeerKat的每一个位置复制到一个集中的数据存储区也是至关重要的。使用Ceph,每个望远镜阵列的数据被复制到英国剑桥的一个集中数据存储区。这使得所有的MeerKat数据可以在保证可用性的同时进行完整的分析。

Ceph固有的硬件中立性对科研人员来说是一个很大的好处,因为他们不会局限于通常昂贵且不灵活的专有硬件解决方案。

Ceph非常通用,几乎可以在任何地方运行:服务器、Raspberry Pi,甚至是一个运行Linux的烤面包机。出于科研目的,科学家可以选择在黑匣子服务器上运行Ceph,也可以使用HyperDrive(一种专门为Ceph设计的存储设备,由SoftIron公司制造)。科研机构正在意识到使用定制化设计的、优化的Ceph存储设备(如HyperDrive)为一些令人兴奋的研究项目提供动力的额外好处。


Posted in Ceph 存储
咨询热线:400-648-5123

北京易捷思达科技发展有限公司:北京市海淀区西北旺东路10号院东区1号楼1层107-2号

南京易捷思达软件科技有限公司:江苏省南京市雨花台区软件大道168号润和创智中心4栋109-110

上海office:上海黄浦区西藏中路336号华旭大厦22楼2204

深圳office:深圳市南山区粤海街道深南大道9676号大冲商务中心C座402

郑州研发中心:河南省郑州市高新区梧桐街50号北斗企业孵化器C12-2号楼2楼

广州office:广州市越秀区环市东路498号24F

西安office:西安市高新区科技路50号金桥国际广场C座902

成都研发中心:成都市武侯区交子大道575号中海国际中心J座24层


邮编:100094


邮箱:

contact@easystack.cn (业务咨询)

partners@easystack.cn(合作伙伴咨询)

marketing@easystack.cn (市场合作)

training@easystack.cn (培训咨询)

hr@easystack.cn(招聘咨询)

Copyright © 2017 EasyStack Inc. All Rights Reserved. 京ICP备16000234号 京公网安备 11010802024994号