上個月,百度曾發表論文指出,新近研發的超級計算機Minwa在一項備受關注的人工智能基準測試ImageNet中取得了世界最好成績,錯誤率僅為4.58%,超越了微軟和谷歌。
此前的世界最好紀錄4.82%由谷歌創造,而微軟在此測試中也達到4.94%的不俗成績,同樣的實驗中,人眼辨識的錯誤率大概為5.1%。
百度在的論文中稱,他們的系統在測試ImageNet分類數據集中的錯誤率僅為4.58%(ImageNet ILSVRC計算機視覺挑戰比賽是目前國際上最大規模的圖像分類和識別測試平臺)。
據了解,這個數據集包含約150萬張圖像,分為1000個不同的類別,軟件被要求為10萬張前所未見的測試圖像進行分類。
不過,今日ILSVRC的組織者發表聲明稱,百度在ILSVRC挑戰賽中被曝光存在違規行為,百度異構計算團隊已經就此事道歉。
ILSVRC組織者在聲明中指出,2014年11月28日至2015年5月13日,百度團隊使用至少30個帳號向測試服務器進行了至少200次提交,遠超每周只能提交兩次的限制。例如,在從3月15日至3月19日的5天時間里,提交次數超過了40次。
ILSVRC組織者認為,百度違反了違測試服務器的使用規定,最終結果無法與其他團隊獲得的結果進行對比。
百度對此回應稱:“我們對這一錯誤表示道歉,并將繼續評估結果。我們已向研究論文《Deep Image: Scaling up Image Recognition》加入了注釋,并將在了解更多情況后提供相關的更新。我們支持ImageNet挑戰的公平性和透明性,并將致力于科學發展的誠實性。”
聲明全文:
ILSVRC社區成員:
這是繼2015年5月19日公告之后的后續聲明,其中包括更多細節和測試服務器的狀態。
從2014年11月28日至2015年5月13日,百度一個團隊使用至少30個帳號向測試服務器進行了至少200次提交,遠超每周只能提交兩次的限制。這其中包括在短時間內極高的用量。例如,在從3月15日至3月19日的5天時間里,提交次數超過了40次。圖A顯示了與百度團隊相關的ImageNet帳號的提交次數。圖B顯示了這些帳號與所有其他帳號活躍程度的對比。
圖A
圖B
這一期間獲得的成果在近期的arXiv論文中進行了報告。由于違反了測試服務器的使用規定,這些結果可能無法與其他團隊獲得并報告的結果對比。通過在測試服務器上測試多種略有不同的解決方案,有可能會出現以下情況:1)基于測試結果,在一系列類似解決方案中選出最優方案,從而獲得不大,但可能很重要的優勢;2)直接基于測試數據,而不是訓練和驗證數據,選擇進一步的研發方式。
我們于2015年5月14日注意到了這些違規,并于2015年5月17日通知了論文作者。2015年5月22日,在進行討論,并征求我們研究社區高級顧問的意見之后,我們通知作者:
1.他們通過ImageNet測試服務器獲得的結果無法與他人的結果直接對比。
2.對百度基于這些結果新提交的任何內容,我們持懷疑態度。這包括關于ILSVRC挑戰任務的所有提交內容,以及共享數據集的一部分。因此,我們要求他們在未來12個月內停止向評估服務器和挑戰任務提交任何內容。
我們正在與涉及此次事件的團隊進行溝通。他們請求我們向整個社區轉發包括以下聲明在內的消息。需要指出,為了保持中立性和獨立性,我們沒有也不能與任何團隊合作,以表述或評估結果。
目前測試服務器已經重新上線。我們期待繼續在圖像識別領域取得進展。
ILSVRC組織者
以下是來自百度該團隊的消息:
ILSVRC社區:
近期,ILSVRC組織者聯系了我們異構計算團隊,并告知我們,我們超過了每周允許向ImageNet服務器進行提交的次數(在我們項目的生命周期中約為200次)。
我們對這一錯誤表示道歉,并將繼續評估結果。我們已向研究論文《Deep Image: Scaling up Image Recognition》加入了注釋,并將在了解更多情況后提供相關的更新。
我們支持ImageNet挑戰的公平性和透明性,并將致力于科學發展的誠實性。
吳韌,百度異構計算團隊