IBM Research在深度學習演算法取得最新突破,據稱幾乎達到了線性加速的最佳微縮效率目標…
IBM Research發表深度學習(deep learning)演算法的最新突破,據稱幾乎達到了理想微縮效率的神圣目標:新的分散式深度學習(DDL)軟體可隨著處理器的增加,實現趨近于線性加速的最佳效率。
如圖1所示,這一發展旨在為添加至IBM分散式深度學習演算法的每一個伺服器,實現類似的加速效率。
IBM研究人員兼IBM Research加速認知基礎設施部門總監Hillman Hunter認為,其目標在于“將與深度學習訓練有關的等待時間,從幾天或幾小時減少到幾分鐘或甚至幾秒鐘。”
Hunter在一篇有關這項深度學習發展的部落格文章中指出,“最受歡迎的深度學習架構開始擴展到伺服器中的多個繪圖處理器(GPU),而非使用GPU的多個伺服器。”IBM的開發團隊“為連接至數十個伺服器的上百個GPU加速器所需的龐大、復雜運算任務,編寫了自動化與最佳化其平行任務的軟體與演算法。”
深度學習演算法隨GPU增加而趨近于線性加速效率 (來源:IBM)
IBM聲稱,使用開放源碼的Caffe深度學習架構,可將最多達256個Nvidia Tesla P100 GPU添加至單一伺服器,最終達到了95%微縮效率的測試結果。這一測試結果可用于影像辨識學習,但預計也適用于類似的學習任務。IBM在50分鐘的訓練時間內達到了接近線性的微縮效率。在相同的訓練數據集時,Facebook Inc.先前曾經在60分鐘的訓練時間內實現89%的效率。
而在ImageNet-22k的數據組合下,IBM聲稱可在7個小時、750萬張影像的訓練中,達到了33.8%的驗證精確度;在相同的條件下,微軟(Microsoft Corp.)原先的記錄是在10天訓練中達到29.8%的準確率。IBM的處理器——PowerAI平臺,可支援64節點的Power8叢集(加上256個Nvidia GPU),提供超過2PFLOPS的單精度浮點性能。
該公司正為PowerAI平臺用戶免費提供其分散式深度學習套件,同時,還為第三方開發人員提供各種應用的編程介面,讓他們能選擇與其應用最相關的底層演算法。