高性能計算平臺主要包括登錄管理節(jié)點、臺圖形節(jié)點,并行存儲系統(tǒng),計算刀片,胖節(jié)點,以及配套軟件及基礎(chǔ)設(shè)施部分。
一、 管理登錄節(jié)點
管理節(jié)點主要用于運行集群監(jiān)控管理軟件、用戶信息管理服務(wù)、計算子網(wǎng)管理服務(wù)、作業(yè)調(diào)度服務(wù)、時間同步服務(wù)等集群系統(tǒng)服務(wù)。這些關(guān)鍵系統(tǒng)服務(wù)均配置為互備冗余模式,保障整個集群系統(tǒng)的高可用性。管理節(jié)點硬件本身也配置有冗余電源、本地硬盤RAID保護等可靠性保障措施。
登錄節(jié)點主要用于用戶程序編譯、算例準(zhǔn)備,文件上傳下載,作業(yè)提交控制等用戶交互操作。登錄節(jié)點CPU與計算節(jié)點架構(gòu)相同,保障用戶編譯程序的執(zhí)行效率。
二、 臺圖形節(jié)點
高性能計算平臺作為集群前后處理節(jié)點,防止圖形節(jié)點故障影響作業(yè)運行,同時提升圖形資源量。
三、 并行存儲系統(tǒng)
高性能計算集群在多個節(jié)點進行大規(guī)模并行計算的同時,需要進行大量文件及數(shù)據(jù)訪問,對于系統(tǒng)的存儲性能也提出非常高的要求,系統(tǒng)對存儲要求主要歸結(jié)為以下幾點:
u 全局文件的統(tǒng)一印象
高性能集群相比其它應(yīng)用而言,一個顯著的特點為保證參與計算的所有節(jié)點具有統(tǒng)一的文件印 象,也就是說,在任何一個節(jié)點、對某一個文件的讀寫、修改都會在其它節(jié)點生效,實現(xiàn)這一個功能,往往需要通過網(wǎng)絡(luò)文件系統(tǒng)來實現(xiàn),較為傳統(tǒng)的為NFS系統(tǒng),當(dāng)前,由于集群規(guī)模的增大和訪問性能的要求逐漸提高,并行文件系統(tǒng)在中大規(guī)模的高性能集群中使用越來越廣泛。
u 全局文件的高速訪問
對于某些規(guī)模較大集群,或者某些高IO應(yīng)用集群,由于對存儲的訪問量很大,對共享存儲的訪問性能也提出了較高要求。通常,我們需要通過提高磁盤陣列的性能、存儲介質(zhì)的性能、磁盤陣列訪問接口的性能和IO節(jié)點的網(wǎng)絡(luò)性能來提高存儲的訪問性能。對于更高IO需求的系統(tǒng),可以通過并行存儲系統(tǒng)來實現(xiàn)海量文件的并發(fā)讀寫。
u 存儲系統(tǒng)的大容量
由于高性能集群的規(guī)模巨大、數(shù)據(jù)處理能力驚人,高性能集群集中存儲的容量也往往非常驚人,動輒達(dá)到數(shù)十TB,在某些對海量存儲需求的系統(tǒng)中,存儲往往達(dá)到上百TB,甚至PB量級。
u 存儲系統(tǒng)的高可靠性
高性能集群承擔(dān)著重要的科研任務(wù),用戶的數(shù)據(jù)具有極高的價值,同時,存儲為全局系統(tǒng),一旦出現(xiàn)故障,將導(dǎo)致整個系統(tǒng)不可用。所以在存儲系統(tǒng)中,無論IO節(jié)點、存儲交換機、還是存儲磁盤陣列,存儲介質(zhì),每個環(huán)節(jié)都要盡可能的保證高可靠性和高可用性。可以通過冗余電源、高級別RAID、雙機熱備、數(shù)據(jù)備份等各種手段保證存儲系統(tǒng)的高可靠性。
四、 刀片/機架式計算節(jié)點
計算節(jié)點保證計算資源池,提升集群負(fù)載能力。提供充足的本地IO性能,滿足計算中臨時文件的快速讀寫需求。
TC4600E刀片服務(wù)器系統(tǒng)
五、 胖節(jié)點
胖節(jié)點主要應(yīng)對通用計算節(jié)點不能滿足的計算作業(yè),例如電磁仿真類計算,內(nèi)存需求高,通常超過1TB內(nèi)存需求,且跨節(jié)點效率低,只適合單節(jié)點計算,結(jié)構(gòu)強度類計算,如ABAQUS,并行效率低,不適合多節(jié)點同時計算,內(nèi)存需求高,節(jié)點內(nèi)存不能滿足作業(yè)需求時,計算中的臨時數(shù)據(jù)會寫入本地硬盤,嚴(yán)重影響計算速度。
六、集群管理系統(tǒng)
高性能計算平臺需建設(shè)一套高性能集群管理系統(tǒng)(Gridview)。對高性能平臺進行作業(yè)監(jiān)控,資源監(jiān)控,資產(chǎn)管理,賬號管理,權(quán)限管理,作業(yè)調(diào)度等,同時提供高性能計算所需的編譯器、MPI、數(shù)學(xué)庫等。