天天報道:微軟推ZeRO++新系統(tǒng):減少大模型訓練時間和成本
發(fā)布時間:2023-06-26 17:00:45 文章來源:動點科技
這些通信優(yōu)化大大減少了通信量。


(相關資料圖)

微軟研究人員推出了名為ZeRO++的新系統(tǒng),用于優(yōu)化訓練大型AI模型,以應對高數(shù)據(jù)傳輸開銷和有限帶寬的難題。

ZeRO++ 建立在現(xiàn)有的 ZeRO 優(yōu)化的基礎上,并提供增強的通信策略,以提高訓練效率,減少訓練時間和成本。

像Turing-NLG、ChatGPT和GPT-4這樣的大型模型的訓練需要跨多個GPU設備占用大量內(nèi)存和計算資源。DeepSpeed開發(fā)的ZeRO++引入了通信優(yōu)化策略,以克服在每個GPU上批量大小較小時或在低帶寬集群上進行訓練時ZeRO的限制。

ZeRO優(yōu)化系列包括ZeRO-Inference,它使用GPU的集體內(nèi)存和計算能力,將模型狀態(tài)分割在多個GPU之間。然而,在訓練過程中,ZeRO可能會產(chǎn)生較高的通信開銷。ZeRO++通過整合三組通信優(yōu)化來解決這個問題:量化權重通信(qwZ)、分層權重分割(hpZ)和量化梯度通信(qgZ)。

為了減少參數(shù)通信量,ZeRO++對權重進行量化,利用基于塊的量化方法來保持訓練精度。這種優(yōu)化的量化過程比基本量化更快更準確。為了在反向傳播過程中盡量減少通信開銷,ZeRO++通過在每臺機器上保持完整的模型副本,以 GPU 內(nèi)存換取通信。梯度通信方面,ZeRO++引入了一種新的量化梯度通信范式 qgZ,可以減少跨節(jié)點的流量和延遲。

這些通信優(yōu)化大大減少了通信量。與ZeRO相比,ZeRO++實現(xiàn)了減少高達4倍的通信量,提高了訓練吞吐量和效率。當在每個GPU上使用小批量大小時,在高帶寬集群中,ZeRO++相比ZeRO-3的吞吐量提高了28%至36%。在低帶寬集群中,與ZeRO-3相比,ZeRO++實現(xiàn)了平均2倍的加速,使得大模型訓練在更多種類的集群上更為可行。

ZeRO++不僅限于訓練場景,還可應用于對話模型中使用的人類反饋強化學習(RLHF)訓練。通過將ZeRO++與DeepSpeed-Chat集成,RLHF訓練可以獲得更好的生成和訓練吞吐量,生成吞吐量提高了高達2.25倍,訓練吞吐量提高了1.26倍,超過了ZeRO。

DeepSpeed已經(jīng)發(fā)布了ZeRO++,以使大型模型的訓練在AI社區(qū)更加高效和可訪問。該系統(tǒng)旨在加快訓練速度,減少通信開銷,并實現(xiàn)更大的批量大小,從而節(jié)省時間和資源。研究人員和實踐者可以利用ZeRO++更有效地訓練像ChatGPT這樣的模型,并在AI領域探索新的可能性。

來源:站長之家

標簽:

資訊播報

樂活HOT

娛樂LOVE

精彩推送