12月24日消息,半導體研究機構Semianalysis在進行了5個月的調查后發現,AMD最新的AI芯片MI300X因為存在重大軟件缺陷,導致性能不如預期,難以撼動英偉達(Nvidia)的市場主導地位。
Semianalysis在研究報告中指出,雖然MI300X規格看來令人印象深刻,擁有192 GB HBM3內存,可以提供1,307 TeraFLOPS的FP16精度算力。而英偉達H100 的算力只有989 TeraFLOPS,只配備了80 GB HBM內存,H200也只配備了141 GB HBM內存。相比之下,AMD MI300X硬件配置更高,定價也更便宜,這也意味著MI300X更具性價比。
但是Semianalysis認為,AMD這些優勢卻幾乎發揮不了多少作用。因為AMD MI300X配套的軟件存在缺陷,若大量錯誤不能排除,會讓訓練AI模型變成幾乎不可能的任務。相比之下,英偉達卻持續推出全新功能、工具庫并升級性能,持續保持領先。
SemiAnalysis指出,其研究團隊執行了大量測試,當中包括GEMM、單節點訓練(single-node training)等,發現AMD MI300X存在軟件缺陷,其研究團隊必須跟AMD工程師一同修正無數軟件缺陷,才能達到堪用的標竿測試結果。
SemiAnalysis稱,“AMD產品開箱后非常難以操作,需要相當大的耐心及努力才能達到可用的狀態”。相比之下,英偉達的AI解決方案開箱就能順暢運作。
SemiAnalysis還透露,AMD最大云端客戶Tensorwave,必須免費提供基于這些GPU實例的使用時間,以便于給AMD團隊來解決軟件問題,這實在瘋狂,畢竟Tensorwave已經支付了這些GPU的費用。
Semianalysis首席分析師Dylan Patel還通過社交平臺X指出,他跟AMD CEO蘇姿豐(Lisa Su)開了1.5小時的會議,逐一反饋了相關問題。他建議蘇姿豐重金投入軟件開發與測試,尤其應配置數千顆MI300X芯片來做自動化測試——跟進英偉達的做法。此外,他還建議蘇姿豐簡化復雜的環境變數,實施更好的預設設定。“請讓產品開箱便可用!”他寫道。
蘇姿豐則回應稱,感謝Patel具有建設性的對話,并坦承AMD軟件方面的不足之處。她表示,“Patel的反饋是個禮物、即便它很嚴苛。AMD已大量投入客戶和工作量優化作業,但為支持廣泛的生態系統,尚有許多努力空間。非常感謝大家的回饋。AMD致力打造世界一流的開源軟件,2025年有很多計劃。祝大家佳節愉快!”