當地時間 1 月 27 日,谷歌發布全新 AI 模型 ——MusicLM。通過 AI 模型 MusicLM,文字可以直接生成高保真的音樂。
這是繼文字生成 AI 模型 Wordcraft、視頻生成工具 Imagen Video 之后,谷歌又一次推出生成式 AI 模型工具,這一次谷歌將目標瞄準了音樂領域。
透過 MusicLM,不難看到,這兩年生成式 AI 賽道正在迎來爆發。
01、MusicLM 挑戰更復雜場景
谷歌最新推出的 AI 模型 MusicLM,可直接將文字、圖像自動生成音樂,并且曲風多樣,凡是想聽的音樂,基本都能自動生成。
MusicLM 并非是第一個可自動生成音樂的 AI 模型,此前,可視化 AI 工具 Riffusion 也能自動創作音樂,還有 Dance Diffusion,此外,當前最熱門的聊天機器人 ChatGPT 的研發者 OpenAI 也推出過 Jukebox。
但值得注意的是,這些可自動生成音樂的 AI 系統,受限于技術和數據等因素,創作的音樂都比較簡單,相對而言并不復雜。
和前輩們不同的是,MusicLM 可創作特別復雜和保真度特別高的音樂,也可通過圖像生成音樂。這算是實現了全新突破,通過 AI 技術不僅可以識別樂器,融合音樂流派,還可以通過更抽象的概念生成音樂。
比如,想要街機游戲配樂,只要輸入“街機游戲的主配樂,它節奏快且樂觀”等文字,MusicLM 便可自動生成音樂。MusicLM 也可通過圖像生成音樂,例如世界名作《吶喊》《格爾尼卡》《星空》等皆可作為素材來源。
不過,值得一提的是,目前谷歌只是發布了 MusicLM 的研究成果,因為版權等問題,谷歌還未向公眾開放 MusicLM。
02、AI 生成音樂難在哪?
去年 10 月,谷歌在生成式 AI 模型上已經推出過 AudioLM,只需輸入短時音頻,就能生成相似風格的音頻。彼時 AudioLM 只是純音頻模型,這個技術類似于語言模型,根據提示的語音內容,自主判斷并生成相似內容。
從這個角度看,AudioLM 可視為是 MusicLM 的前身。AudioLM 在不進行轉錄或標記的情況下,可以模仿音頻的音色、響度和清晰度等。但是,AudioLM 生成的音頻和原版并無太大區別,并未得到公開應用。
通過 AI 模型創作音樂,這件事并不容易,因為生成的音樂包括音頻信號、環境聲音、人的聲音等多個維度,是由很多信號相互作用形成的,而人體每次向外發出的聲音,無論聲音響度大小、音色好差,都由句法、音律等組成,這是非常復雜的綜合性系統。
也恰恰是這些原因,在早期的探索過程中,自動生成的音頻合成痕跡明顯,聲音聽起來并不自然,發音也都不標準。因此 AI 模型要想實現真正意義上的自動生成音頻,依靠海量的數據訓練和模擬,是必不可少的基礎性步驟。
針對這些挑戰,作為 AudioLM 的“升級版”,MusicLM 的訓練數據更加龐大。據了解,谷歌在 28 萬小時的音樂數據集中,才訓練出 MusicLM,為理解深度和復雜的音樂場景提供了基礎。
此外值得一提的是,針對任務缺乏評估數據等問題,谷歌專門引入了 MusicCaps,用于文本到音樂的生成任務評估。
03、生成式 AI 迎來爆發
此次谷歌推出 MusicLM,可視為拓展 AI 應用的注腳,背后則是生成式 AI 賽道的爆發。事實上,生成式 AI 一直是近兩年最炙手可熱的話題。
2021 年,OpenAI 相繼發布了劃時代的 DALL-E、DALL-E 2 模型,實現了文本生成圖像的跨越;去年,Meta 發布了 AI 短視頻生成模型 Make-A-Video,同樣可由文本內容生成視頻;谷歌也發布了短視頻 AI 生成模型 Imagen Video 與 Phenaki。
不止是國外,國內也有很多生成式 AI 應用。比如,字節跳動旗下剪映 APP,可根據文字內容自動生成匹配的視頻畫面。去年初,網易推出了“網易天音”,也是一站式 AI 音樂創作平臺,可將用戶編輯的內容通過 AI 自動生成為歌曲。
可以看到,生成式 AI 應用的場景越來越廣泛,寫作、繪畫、剪視頻等等,都可以通過 AI 技術實現。基于生成式 AI 廣泛的應用前景,谷歌、微軟、Meta 等巨頭們紛紛推進研發,將生成式 AI 技術融合到產品中,這加速了生成式 AI 賽道的爆發。
事實上,生成式 AI 高速發展并非是這兩年的事,只是因技術門檻過高,其前沿動態一直在科技圈小范圍流傳。直到 AI 繪畫、AI 寫作等頻繁出圈,生成式 AI 得到了更廣泛的關注。
生成式 AI 賽道爆發有必然原因,大數據和算法應用越來越成熟,模型工具越來越完善,這都加速了生成式 AI 應用的迭代。當前,生成式 AI 已經迎來爆發,未來還有巨大的發展潛力。根據 Gartner 統計數據,預計到 2025 年,生成式 AI 將占所有生成數據的 10%,而目前的比例還不到 1%。
當然,任何技術都是一把“雙刃劍”,生成式 AI 也面臨著版權問題等挑戰,此外還面臨由 AI 生成“錯誤”引發的各種損失,就目前來看,還離不開人為干預。但長期而言,生成式 AI 巨大的發展潛力已經成為共識。
更多信息可以來這里獲取==>>電子技術應用-AET<<