高性能计算(High Performance Computing)是IT行业相对成熟、标准的解决方案,是相反于虚拟化的另一类工程方向,在物理化学、生命科学、气象海洋、地质石油、流体燃烧、AI训练等各领域具有广泛用途。半导体、网络、数据中心、计算、软件、管理等不同角度的技术供应方已经就各自领域具备了成熟方案,随着计算能力要求的提高,存储部分一直还是停留在相对挑战的阶段。

赤梁的高性能计算场景中主要是解决其中的存储问题,并做到有效被集成。有效的替代了昂贵的高端商用存储系统和稳定可靠性欠佳的以Luster为代表的开源系统,真正帮助客户解决好性能、可靠性、数据生命周期管理和后期运维问题。

在高校和研究机构的高性能数据中心里,赤梁使用RidgeScale和RidgeCycle有效解决了以上提到3方面的问题。

极致性能

高性能表现得益于赤梁专利的纵向整合技术Ridge Vertical Stack,RidgeScale采用最新的ZNS SSD介质,充分利用NVMe SSD的多Namespace和更宽、更深的队列特性,极大程度的释放了SSD的设计性能。赤梁的存储系统从系统到界面4层纵向一体化集成交付,从最底层的闪存协议到每一次的鼠标点击都进行了深度思考和开发,在赤梁的一体化架构中,存储软件不在是系统瓶颈,势必带来强人一等的性能表现。赤梁的原生全闪存系统,采用较少的磁盘轻松达到HPC中第1级的性能要求。

例如在某研究所配置4台RidgeScale R224s原生支持全NVMe U.2 SSD,接入100Gbps以太节点互联网络,稳定读写带宽达到20GB每秒,有效解决数据强一致性落盘和延迟要求。

可靠性

高性能计算经常连续或错峰计算,每一次作业时间较长,有的长达数月,作业分拆后的计算过程对整体计算结果有时影响重大。由于存储节点较少,如果存储节点不稳定带来的数据丢失、性能波动会对整体集群造成资源浪费严重,不可靠的存储系统会成为整体瓶颈,这是投入不少、收益不大的较差投入模型。

赤梁RidgeScale整体系统为高性能业务关键型应用设计,可高达99.9999%的整体可用性,数据耐久度根据数据保护策略可高达10几个9,无论遭遇部件损坏、节点损坏、端口故障、网络问题,赤梁的高可用架构从整体集群设计、到数据保护策略,再到具体到端口的高可用架构设计都可以对计算节点的访问提供充足保障。


赤梁存储高可用机制

数据生命周期管理

高性能运算中,数据的生命周期和优先级定义为较多层级,赤梁RidgeScale除了可以很好地解决第一级的性能问题外,通过RidgeCycle数据生命周期管理解决方案,可以有效地帮助可以实现生命周期管理自动化,备份、归档、数据分级、流动等概念已经成为不够时尚的代名词。直接交给RidgeCycle和RidgeScale,把更多精力专心花在研究上,因为它会智能的帮助完成复杂的数据生命周期管理工作,而这一切是自动化完成。

人工智能运维

透明化部署与RidgeScale整体堆栈当中的RidgeSmart人工智能引擎采用了最先进的透明部署方式,帮助真正从被动维修转化为主动运维。不需要使用者有丰富的存储系统管理经验和基础知识,只需能读懂中文提示就可以独立完成系统运维,因为RidgeSmart人工智能引擎已经在第一天就开始基于训练精良的AI模型来进行运维工作,不但可以预测容量消耗和磁盘寿命,更可以完成主动优化系统性能,自动处理故障,管理网络亚健康等各项需要资深管理员才可以胜任的复杂操作。而这些是赤梁在目前业界独有和率先研发并产品化的专用技术,透明化部署于RidgeScale整体系统中的黑科技。

赤梁采用最先进的透明化方式部署的人工智能引擎RidgeSmart

讲在最后:

值得一提的是,除了赤梁交付的多种大学、研究所和新兴智能公司用于高性能计算的存储系统案例外,赤梁RidgeSmart人工智能引擎在研发阶段就是基于赤梁较早版本的RidgeScale为存储节点搭建的人工智能训练平台上训练完成的。