高性能計算平臺主要包括登錄管理節點、臺圖形節點,并行存儲系統,計算刀片,胖節點,以及配套軟件及基礎設施部分。
一、 管理登錄節點
管理節點主要用于運行集群監控管理軟件、用戶信息管理服務、計算子網管理服務、作業調度服務、時間同步服務等集群系統服務。這些關鍵系統服務均配置為互備冗余模式,保障整個集群系統的高可用性。管理節點硬件本身也配置有冗余電源、本地硬盤RAID保護等可靠性保障措施。
登錄節點主要用于用戶程序編譯、算例準備,文件上傳下載,作業提交控制等用戶交互操作。登錄節點CPU與計算節點架構相同,保障用戶編譯程序的執行效率。
二、 臺圖形節點
高性能計算平臺作為集群前后處理節點,防止圖形節點故障影響作業運行,同時提升圖形資源量。
三、 并行存儲系統
高性能計算集群在多個節點進行大規模并行計算的同時,需要進行大量文件及數據訪問,對于系統的存儲性能也提出非常高的要求,系統對存儲要求主要歸結為以下幾點:
u 全局文件的統一印象
高性能集群相比其它應用而言,一個顯著的特點為保證參與計算的所有節點具有統一的文件印 象,也就是說,在任何一個節點、對某一個文件的讀寫、修改都會在其它節點生效,實現這一個功能,往往需要通過網絡文件系統來實現,較為傳統的為NFS系統,當前,由于集群規模的增大和訪問性能的要求逐漸提高,并行文件系統在中大規模的高性能集群中使用越來越廣泛。
u 全局文件的高速訪問
對于某些規模較大集群,或者某些高IO應用集群,由于對存儲的訪問量很大,對共享存儲的訪問性能也提出了較高要求。通常,我們需要通過提高磁盤陣列的性能、存儲介質的性能、磁盤陣列訪問接口的性能和IO節點的網絡性能來提高存儲的訪問性能。對于更高IO需求的系統,可以通過并行存儲系統來實現海量文件的并發讀寫。
u 存儲系統的大容量
由于高性能集群的規模巨大、數據處理能力驚人,高性能集群集中存儲的容量也往往非常驚人,動輒達到數十TB,在某些對海量存儲需求的系統中,存儲往往達到上百TB,甚至PB量級。
u 存儲系統的高可靠性
高性能集群承擔著重要的科研任務,用戶的數據具有極高的價值,同時,存儲為全局系統,一旦出現故障,將導致整個系統不可用。所以在存儲系統中,無論IO節點、存儲交換機、還是存儲磁盤陣列,存儲介質,每個環節都要盡可能的保證高可靠性和高可用性。可以通過冗余電源、高級別RAID、雙機熱備、數據備份等各種手段保證存儲系統的高可靠性。
四、 刀片/機架式計算節點
計算節點保證計算資源池,提升集群負載能力。提供充足的本地IO性能,滿足計算中臨時文件的快速讀寫需求。
TC4600E刀片服務器系統
五、 胖節點
胖節點主要應對通用計算節點不能滿足的計算作業,例如電磁仿真類計算,內存需求高,通常超過1TB內存需求,且跨節點效率低,只適合單節點計算,結構強度類計算,如ABAQUS,并行效率低,不適合多節點同時計算,內存需求高,節點內存不能滿足作業需求時,計算中的臨時數據會寫入本地硬盤,嚴重影響計算速度。
六、集群管理系統
高性能計算平臺需建設一套高性能集群管理系統(Gridview)。對高性能平臺進行作業監控,資源監控,資產管理,賬號管理,權限管理,作業調度等,同時提供高性能計算所需的編譯器、MPI、數學庫等。