寒武紀首款智能加速器玄思1000包含4片思元290智能加速卡,最大AI算力超過4100萬億次每秒(4.1 PetaOPS INT4),一臺玄思1000計算單元就足以替代一個小型傳統(tǒng)超級計算中心。
玄思1000內置高帶寬低延時的MLU-Link™多芯互聯(lián)技術,實現(xiàn)內部4顆思元290進行高速互聯(lián),同時打破服務器、緊耦合微集群(POD)與集群的傳統(tǒng)數(shù)據(jù)中心橫向擴展架構,將AIDC構建為節(jié)點、POD乃至超大規(guī);旌蠑U展架構(Hybrid Scale-out),實現(xiàn)AI算力計算中心級縱向擴展,滿足高性能、高擴展性、靈活性、高魯棒性的要求。
?重塑AIDC基礎架構
算力、算法、數(shù)據(jù)是人工智能發(fā)展的三大要素,隨著這幾年AI的逐步發(fā)展,算力的核心地位更為突出。人工智能技術落地于實際應用中需要芯片和硬件層面強大的算力支撐。算力已成為驅動AI產業(yè)化和產業(yè)AI化發(fā)展的關鍵要素。
下一代AIDC要求更多智能芯片無縫協(xié)同、并行運行的同時,還能保持高計算效率,從而提供超級巨大的算力,以應對超大規(guī)模訓練的需要。寒武紀玄思1000智能加速器重新思考了未來AIDC的基礎架構,在內部和外部采用統(tǒng)一的MLU-Link™多芯互聯(lián)技術進行通訊,使得思元290智能芯片的互聯(lián)范圍可以從單機擴展到POD乃至整個計算中心,重塑了基礎架構。
玄思1000支持8個400G MLU-Link™和2個200G網絡接口,總帶寬高達3600 Gbps,是傳統(tǒng)異構服務器的2倍。玄思1000配置8個對外互聯(lián)的MLU-Link™接口,支持跨系統(tǒng)互聯(lián)構建MLU POD。標準配置支持MLU POD 16、24、32。在POD內部,所有290芯片均可通過MLU-Link™多芯互聯(lián)技術進行通訊,在帶寬和延時方面實現(xiàn)了突破;POD外部通過玄思1000內置的網卡與其他系統(tǒng)進行通訊,實現(xiàn)了AI訓練集群性能、擴展性和魯棒性的協(xié)同提升。
除了標準配置的POD之外,在計算中心條件允許的前提下,通過MLU-Link™多芯互聯(lián)技術,可實現(xiàn)1024顆或更多思元290互聯(lián),不需要額外的網卡即可實現(xiàn)無縫加速。