2月13日,預熱許久的小米10終于正式登場。由于肺炎疫情,這場發布會采用了純線上直播的模式,但這絲毫不影響它極高的關注度。作為國內首款驍龍865旗艦,小米10實現了自我突破,帶來了不少驚喜。
除了驍龍865處理器、LPDDR5內存等亮眼的參數信息外,小米自研AI技術展現出的成果同樣值得關注,它們已經滲透到小米產品上的各個角落,對相機、系統、語音等多個方面的使用體驗都產生了深遠的影響。
小米AI語音,變得更強了!
1、小米語音AI技術在快速普及
2017年7月的一場小米發布會上,小米AI音箱正式發布,小米開啟了自研語音AI技術在市場上的試水。
短短兩年多的時間,小米自研的語音AI技術已經滲透到各個類型的小米產品中,除了智能音箱,小米手機、小米電視、小愛老師等小米產品都配備了“小愛同學”。集成了小米語音智能助理的設備,通過語音這種新交互方式讓產品使用起來更加便利。
語音交互解放了用戶的雙手,降低了學習成本、提升了用戶體驗,而且增強了產品的競爭力。
2、小米10上的智能助理,更有看點
目前來說,智能手機上的語音助手發出的語音都是人工合成的,基本不會提供個性化的服務,實際使用起來難免感覺機械和不自然,和真人發出的聲音差距還是比較大的。
而小米10上的一大驚喜就是配備了個性化語音合成服務。它采用了最新的合成技術,用戶只需要在安靜環境下錄制少量的聲音樣本并上傳,服務器進行識別、訓練并建模后,就能獲得定制化的AI語音助手了。
別人手機的語音助理發出的語音千篇一律,而小米手機上的小愛同學卻能做到千人千音,感覺就像手機里有一個真人助理一樣。
3、AI語音技術上,小米展現了哪些功力?
市面上主流語音合成技術有很多不足,具體表現為發出的語音過于機械,像機器人說話一樣,還有就是在中英文混合語音中,雙語切換的停頓節奏、過度感覺也不自然等。
小米10上的個性化語音合成服務,則瞄準了這些問題進行改進。具體來說,它的實現過程可以分為這么幾步。
首先,用戶要在安靜的環境下錄制目標聲音;
然后,系統會對采集到的聲音信息進行降噪、檢錯等處理;
接著,處理完的目標聲音會被提取特征;
最后,小米云端服務器將收集到的信息進行在線模型訓練、部署,生成語音合成引擎。
這個技術過程看起來比較清晰,但存在很多難點。例如,它對目標聲音的數據質量要求比較高,在線訓練模型費時費力以及小數據量能否訓練出滿意的效果。
不過,小米已經完美地解決了這些問題,模型訓練耗時大大縮短,用戶完成整個過程只要20-30分鐘,此外,它的合成效果穩定,甚至沒有英文語料的情況下,也能合成簡單的英文語音。
AI加持,小米10把相機玩出了新花樣
相機方面的提升是小米10系列最重要的賣點之一,1億像素、四顆后置鏡頭等都吸引了無數人的關注。除了硬件上瘋狂堆料外,小米10的相機也展現出了軟件算法上的功力。
1、小米10換天更強了
小米CC9的“一鍵換天”功能得到了很多用戶的歡迎,照片拍好后,只需要在編輯選項中輕輕一點,就能把照片中的天空換成自己想要的效果,例如晴天、夕陽、暮光等。
這次小米10換天功能在之前的基礎上,新增了雨天和雪天,更為強大。從小米的演示對比來看,它在和各類第三方APP PK中大獲全勝,換天效果非常自然,基本能達到以假亂真的程度。
小米10換天功能背后,是小米在視覺成像技術上的持續投入。MIUI 10推出時,就帶來了AI自拍虛化的功能,單攝相機也能有人像虛化效果,就是通過出色的算法實現的。
小米把之前自拍虛化的算法經驗和技術運用在了換天功能上,標注了數萬張實際拍攝的天空圖片進行訓練,并且優化天空分割模型,最終達到了現在的驚人效果。不得不說,實際采集樣張,用AI技術來訓練模型,相當費時費力,需要長期投入大量的成本。
當然,這種算法對成像的幫助,也不是一般軟件優化所能比的。其實,憑借著出色的成像效果秒天秒地的谷歌Pixel系列,在相機算法上,也是通過實際樣張采集訓練AI模型的思路。這方面,小米和谷歌想到了一起去。
2、拍vlog也能一鍵搞定
短視頻的蓬勃發展讓vlog流行起來,但一般人想要剪出很酷很精致的vlog并不容易。首先,視頻后期比圖片要復雜,而且vlog制作還涉及音樂、字幕、特效等。
而小米已經敏銳地意識到用戶的需求,投入了多個團隊來幫助大家搞定入門vlog。簡單來說,它優化了這么幾個方面。
首先,自動運鏡功能讓用戶不動手機也能有出色的效果,不需要學習滑軌、手搖等很專業的技能。不過具體實現過程中,技術難度不小。
自動運鏡時,視頻每一幀的角度要精準匹配,還要對4K分辨率的數據做實時的縮放、轉場等計算,對算法的精度有很高的要求和考驗。小米AI實驗室通過算法優化和調校,把CPU、GPU、解碼器等多個計算單元結合,“榨干”了手機的計算性能。
另外,語音轉字幕這個功能也值得點贊。給視頻手動加字幕非常麻煩,有了語音AI技術后,小米手機就能把錄制視頻里的語音自動轉為文本字幕,幫vlog制作者省了很多事情。
3、文檔掃描這件“小事”,小米10做到了極致
小米10相機上另外一個極具亮點的功能是“小米拍文檔”,它解決了手機文檔掃描過程中的諸多痛點:邊框識別不準、細節丟失、顯示不清晰、變形、陰影等。
小米拍文檔給人印象比較深刻的是AI技術對文檔掃描這個功能的巨大幫助,比如說它的裁剪校正能力很強,即使拍攝文檔的背景非常雜亂無章,也能精準的定位到文檔邊界,并準確地裁切和矯正文檔區域,將有干擾的多余元素去除。
此外,很多時候,拍攝文檔的環境光學不理想,成像區域一部分很暗、一部分很亮,非常影響最終的掃描效果。小米拍文檔通過針對性的陰影消除技術來解決問題,讓文檔掃描的成功率大大提升。
技術創新鑄就了小米拍文檔的出色體驗,通過神經網絡區分圖像中光照和陰影部分,利用邊緣算法幫助用戶對文檔進行精確定位,并實際采集多樣化的文檔使用場景進行訓練優化。
值得一提的是,小米拍文檔完全由小米AI實驗室武漢視覺團隊獨立負責完成,疫情當前,他們的工作和貢獻值得點贊。
小米自研AI技術,值得更進一步的期待
這次的小米10發布會,讓我們看到了很多小米過去容易被忽視的地方,自研AI技術就是其中一個重要的部分。
首先,小米10為代表的產品展現出了小米在自研AI技術上的強勁實力。不管是個性化語音合成服務、一鍵換天、vlog自動字幕等AI助力的具體功能,還是通過采集真實數據訓練模型的AI研發思路,都讓我們看到了小米在自研AI技術上的用心。
其次,研究AI技術的廠商很多,但像小米這樣精準瞄準用戶體驗的,不太多見。前面我們提到的掃描文檔、制作vlog等功能,第三方應用其實都能實現,手機廠商一般不會在這些細節上下太多的功夫。
但這些看起來不起眼的細節,都和用戶需求息息相關。小米把自研AI技術的成果都投入到這些領域,讓自家用戶能最直接地享受到AI技術發展的紅利。小米AI技術更加注重和用戶體驗相關的場景落地,每個技術創新都能找準用戶的實際需求、提升用戶體驗。當然,這種注重用戶體驗的基因,從MIUI誕生開始就一直存在,現在刻入到了小米的AI技術研發中。
此外,小米涉足的領域遠不只手機,家電、智能家居、PC等等行業,都能看到小米活躍的身影。而小米的自研AI技術,也不局限于給手機功能添磚加瓦。未來,我們有望看到小米自研AI技術未來在影像、語音、5G、IoT等多個領域的爆發成果,這非常值得期待。