《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 人工智能 > 業(yè)界動態(tài) > Meta訓(xùn)練Llama 3遭遇頻繁故障

Meta訓(xùn)練Llama 3遭遇頻繁故障

16384 塊 H100 GPU 訓(xùn)練集群每 3 小時“罷工”一次
2024-07-29
來源:IT之家
關(guān)鍵詞: META Llama3 H100GPU

7 月 28 日消息,Meta 發(fā)布的一份研究報告顯示,其用于訓(xùn)練 4050 億參數(shù)模型 Llama 3 的 16384 個英偉達 H100 顯卡集群在 54 天內(nèi)出現(xiàn)了 419 次意外故障,平均每三小時就有一次。其中,一半以上的故障是由顯卡或其搭載的高帶寬內(nèi)存(HBM3)引起的。

0.png

由于系統(tǒng)規(guī)模巨大且任務(wù)高度同步,單個顯卡故障可能導(dǎo)致整個訓(xùn)練任務(wù)中斷,需要重新開始。盡管如此,Meta 團隊還是保持了 90% 以上的有效訓(xùn)練時間。

在為期 54 天的預(yù)訓(xùn)練中,共出現(xiàn)了 466 次工作中斷,其中 47 次是計劃中斷,419 次是意外中斷。計劃內(nèi)的中斷是由于自動化維護造成的,而意外的中斷則主要源于硬件問題。 GPU 問題是導(dǎo)致故障的主要原因,占意外中斷的 58.7%。其中只有三起事件需要大量人工干預(yù),其余的由自動化管理。

0.png

在 419 個意外中斷中,148 個(30.1%)是由各種 GPU 故障(包括 NVLink 故障)引起的,而 72 個(17.2%)是由 GPU 的 HBM3 內(nèi)存故障引起的。有趣的是,54 天內(nèi)只有兩個 CPU 發(fā)生故障。41.3% 的意外中斷是由多種因素造成的,包括軟件錯誤、網(wǎng)絡(luò)電纜和網(wǎng)絡(luò)適配器。

為提高效率,Meta 團隊開發(fā)了一系列工具和優(yōu)化策略,包括縮短任務(wù)啟動和檢查點時間、利用 PyTorch 的 NCCL 飛行記錄器診斷性能問題、識別拖后顯卡等。此外,Meta 還關(guān)注到了環(huán)境因素的影響,如午間溫度波動對 GPU 性能的輕微影響,以及巨量 GPU 同時運行對數(shù)據(jù)中心電網(wǎng)的巨大壓力。

然而,隨著人工智能模型參數(shù)量的不斷增加,所需的計算資源也隨之擴大。以 xAI 計劃中的 10 萬塊 H100 顯卡集群為例,故障率可能會成倍增長,給未來的 AI 訓(xùn)練帶來更大的挑戰(zhàn)。


Magazine.Subscription.jpg

本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經(jīng)濟損失。聯(lián)系電話:010-82306118;郵箱:[email protected]
主站蜘蛛池模板: 99久久精品免费看国产一区二区 | 欧美观看一级毛片 | 一级生性活免费视频 | 日日狠狠久久偷偷四色综合免费 | 日本xxxxx久色视频在线观看 | 久久综合久久自在自线精品自 | 日本欧美一区二区 | jizzjizz成熟丰满舒服 | 日本在线观看免费视频 | 亚洲国产亚洲片在线观看播放 | 香蕉久久综合精品首页 | 国产欧美在线播放 | 久久久久欧美精品观看 | 一级aaaaaa毛片免费同男同女 | 欧美一区二区三区在线视频 | 欧美一级级毛片 | 成年人黄色网址 | 成年人三级黄色片 | 在线精品视频在线观看高清 | 最新国产午夜精品视频不卡 | 亚洲精品在线播放 | 久久久久18| 97超频国产在线公开免费视频 | 国产伦精品一区二区三区精品 | 久久国产精品久久久久久久久久 | 亚洲国产高清视频在线观看 | 久草在线色站 | 午夜爽爽爽男女免费观看hd | 777色狠狠一区二区三区 | 伊人久色| 久久91| 亚洲在线第一页 | 久久99精品久久久久久青青91 | 男女性关系视频免费观看软件 | 毛片美国| 扒开两腿猛进入爽爽视频 | 狠狠色丁香久久婷婷综 | 国产高清自拍 | 欧美日韩亚洲国产精品 | 亚洲精品一区二区三区美女 | 一级毛片免费在线观看网站 |