HPE 攜手NVIDIA 提供加速AI 訓練之全新整合方案
Hewlett Packard Enterprise(NYSE: HPE)宣佈推出專為大型企業、研究機構和政府機構所設計之生成式AI的超級運算解決方案,透過使用私有資料集加速AI模型的訓練和調校。此解決方案包括一個軟體套件,讓客戶能夠訓練和調校模型,以及開發AI應用程式。此外還包括液冷式超級電腦、加速運算、網路、儲存和服務,協助企業加速實現AI價值。
「為推動創新並於研究中取得重大突破,全球領先的公司和研究機構都在訓練與調校AI模型。然而,要有效率地實現這一目標,他們需要專為此打造的一套解決方案,」HPE執行副總裁暨HPC、AI和實驗室部門總經理Justin Hotard表示。「為支援生成式AI,組織需要使用能提供超級電腦專用效能與規模的永續性解決方案,以支援AI模型訓練。我們很高興能擴大與NVIDIA的合作,提供一AI原生整合方案,協助加速AI模型訓練並取得成果。」
此生成式AI的超級運算解決方案關鍵元件為用於建立AI應用程式、客製化預建模型以及開發和修改程式碼的軟體工具。該軟體更與採用世上最快超級電腦強大架構的HPE Cray超級運算技術進行整合,並搭載NVIDIA Grace Hopper GH200 超級晶片支援。此解決方案提供前所未有的規模與效能以滿足大型AI工作負載的需求,例如大型語言模型(LLM)訓練以及深度學習推薦模型(DLRM)訓練。在此系統上使用HPE機器學習開發環境(HPE Machine Learning Development Environment),僅需少於3分鐘內即能對開源700億參數LIama 2模型進行微調1,為客戶加速價值創造時間。藉由NVIDIA技術支援,此先進的超級運算能力可將系統效能提升2至3倍2。
「生成式AI正在改變科學發展和每個產業,」NVIDIA超大規模與高效能運算部門副總裁Ian Buck 表示。「HPE攜手NVIDIA推出搭載NVIDIA GH200 Grace Hopper超級晶片的AI訓練和模擬整合解決方案,為客戶實現生成式AI專案所需效能。」
功能強大的AI整合解決方案
此整合式超級運算解決方案是針對AI專門打造,並內建AI 相關功能,提供以下端對端技術及服務:
· · AI/ML加速軟體:由三個軟體工具組成的套件,將協助客戶訓練和調校AI模型,並創建自己的AI應用。
o HPE機器學習開發環境(HPE Machine Learning Development Environment):機器學習軟體平台,整合常用的ML架構並簡化資料準備,協助客戶加速開發及部署AI模型。
o NVIDIA AI Enterprise:透過安全性、穩定性、易管理性及支援,協助組織加速邁向領先的AI。其提供廣泛的框架、預訓練模型及簡化AI生產的開發與部署流程。
o HPE Cray程式設計環境(HPE Cray Programming Environment): 此軟體套件專為程式設計師提供開發、移植、除錯和調校程式碼所需的完整工具。
· 擴充性設計:基於HPE Cray EX2500百萬兆級系統,搭載領先業界的NVIDIA GH200 Grace Hopper超級晶片。此解決方案可以擴充至數千個GPU,且所有節點都支援單一AI工作負載,以加速價值創造。
· · 適用於即時AI的網路:HPE Slingshot Interconnect提供一個開放式且基於乙太網路的高效能網路,專為支援百萬兆級的工作負載所設計。此可調整的互連技術採用的是HPE Cray技術,透過超高速的網路連線,大幅提升整個系統的效能。
· · 一應俱全的簡易性:此解決方案配有HPE Complete Care Services,由全球專家提供設定及安裝,並支援整個生命週期,以簡化AI應用。
超級運算與AI的未來將更加永續
AI工作負載大幅增長,到2028年預計將消耗資料中心20千瓦的電力3。客戶需採用可提高能源效率的解決方案,以將碳足跡的影響降至最低。
能源效率是HPE運算計畫的核心,相較於採用氣冷的解決方案,該計劃提供具有液冷功能的解決方案能將每千瓦效能提高20%,並將耗電量降低15% 4。
如今,HPE提供的全球前十大最高效超級電腦中,大部分都採用直接液冷(direct liquid cooling, DLC)技術。此技術亦應用於生成式AI的超級運算解決方案中,不僅能有效地冷卻系統,同時降低運算密集型應用程式的能耗。
HPE在此領域的獨特優勢,協助組織運用最強大的運算技術推動其AI目標發展並降低能源使用。
供貨狀況
HPE將於12月於逾30個國家推出此生成式AI超級運算解決方案。
參考資料
· HPE擴展適用於AI和HPC的HPE Cray超級運算解決方案組合
· NVIDIA Grace Hopper超級晶片架構白皮書
資料來源
1 使用32個HPE Cray EX 2500節點並搭載128個NVIDIA H100 GPU,以97%的擴展效能成功在3分鐘以內對一個包含1,000萬標記的語料庫進行70億參數的Llama 2模型微調。在擴展運行間,模型微調代碼和訓練參數並未最佳化。
2 標準 AI 基準測試,BERT 和 Mask R-CNN,使用開箱即用、未經調整的系統,包含HPE Cray EX2500 超級電腦,其配備新的HPE Cray超級運算EX254n刀鋒,並搭載四個NVIDIA GH200 Grace Hopper超級晶片。獨立運行的測試顯示,與 MLPerf 3.0 發佈之結果相比,基於 A100 的系統,包含兩個 AMD EPYC 7763 處理器和四個具有 NVLINK 互通性的 NVIDIA A100 GPU之效能提高 2至3 倍。
3 施耐德電機,《AI顛覆:資料中心設計的挑戰與指引》(白皮書110), Avelar, Victor; Donovan, Patrick; Lin Paul; Torell, Wendy; and Torres Arango, Maria A.,:https://download.schneider-electric.com/files?p_Doc_Ref=SPD_WP110_EN&p_enDocType=White+Paper&p_File_Name=WP110_V1.1_EN.pdf
4 根據HPE於2023年4月的內部效能測試,針對氣冷式與直接液體冷卻的HPE Cray XD2000進行比較。使用 SPEChpc™2021、小型、MPI + OpenMP、64 個等級、每台伺服器 14 個執行緒的基準估算結果,氣冷系統為每千瓦 6.61效能,直接液體冷卻系統為每千瓦7.98效能,相差 20.7%。 在同一基準測試中,氣冷系統的底盤功率為 4539 瓦,直接液體冷卻 系統的底盤功率為 3862 瓦,相差 14.9%。