智能手機已逐漸進入產品成熟期,手機廠商在硬件規格的競爭也越趨激烈,使得軟件應用逐漸成為實現差異化的新途徑,廠商除了將觸角延伸至 IoT 領域之外,若能開發自家獨特的 AI 軟件應用,也有助于加強消費者黏著度。
例如,Apple 近來強調轉型軟件與生態系廠商,Google 也持續開發更多 AI 軟件應用服務,并優先搭載于自家 Pixel 手機。 智能手機已進入產品成熟期,廠商積極強化 AI 應用 2019 年全球智能手機生產數量呈現年衰退,主要是因為手機滲透率逐漸達到飽和且進入產品成熟期,雖仍有曲面屏、多鏡頭與屏下指紋等硬件創新,但并未明顯提升消費者體驗,故無法有效帶動換機潮產生。 因此 Apple 已宣布積極轉型為軟件與生態系廠商,持續擴展「生態系服務」,推出 iTunes Store、App Store、Apple Pay、Apple Music、iCloud、Apple News+(新聞訂閱)、TV+(串流影音)、Apple Arcade(游戲訂閱)與 Apple Card(信用卡)等服務。
▲Apple Music,source:Apple
在手機軟件應用服務明顯發力的還有 Google,于 2019 年 12 月 9 日宣布推出全新策略「Feature Drop」,將藉由 AI 功能優化應用服務,以持續提升新舊款 Pixel 手機消費者使用體驗,象是自動過濾騷擾電話、照片與視訊通話時背景虛化等,且這些更新不侷限于最新款 Pixel 手機,而將視硬件需求開放給不同機型使用。 觀察現有手機廠商進展,歸納出以下幾項目前較為主流的 AI 手機應用:
(一) 圖像識別
隨著 AI 算法提升,相機功能變得更為強大,衍生出更多臉部識別應用,使得圖像識別在目前 AI 手機應用中最為廣泛。
健康管理
Johnson & Johnson 旗下 Neutrogena 于 2020 年初發布新版 Neutrogena Skin360,借由 AI 算法的增強,達到不需外掛硬件即可檢測黑眼圈、皺紋、細紋、光滑度與黑斑等。除了膚質檢測外,借由與實時天氣數據結合,提供 8 周個性化相關護膚方案,并提供 Johnson & Johnson 相關保養品建議,建構整個膚質管理生態圈。 目前搭載 Kirin 990 機型的華為 Mate 30 和榮耀 V30 也推出芯心兼容 App,透過手機鏡頭捕捉心臟收縮和舒張引起的面部吸收光照差異之微弱信號,并利用 AI 技術估算出人體的心率和呼吸率等數據。 整體來說,智能手機受惠于 AI 相機算法改善,因而有機會打入健康管理市場,改變過去須配合智能手環和智能手表等其他穿戴裝置才能使用的模式。若未來手機能提供更精準的檢測結果,再配合大數據分析提供進階健康照護建議,將可進一步擴展商機。
視訊強化與拍照
Google 推出「語義圖像分割(Semantic Image Segmentation)」技術,將語義標簽(如道路、天空、人與狗等)分配給輸入圖像的每個畫素,更精確定位物體輪廓,并開源其語義圖像分割模型 DeepLab-v3+。 隨著語義圖像分割發展持續進步,Google 也推出舊照片和視訊通話皆可背景虛化的功能,以做出景深效果,讓視訊通話時人像更清晰。此外,榮耀 V30 手機已實裝 AI 視頻全景替換功能,在視訊通話時可以隨時替換背景且背景可動。而 Qualcomm 也于 Qualcomm Snapdragon Summit 2019 年展示視訊通話時將頭像卡通化的功能,增添個人特色。 此外,Google 充分運用 Pixel 4 前鏡頭廣角功能,搭配 AI 算法加強人臉識別,因此視訊通話時不論人物如何移動,人臉將永遠置于熒幕中央,或當視訊同時存在兩個人時,可確保同時入鏡。 在拍照功能上,CIS 芯片大廠 Sony 主打實時人眼對焦(Eye AF),強調雙眼是構成一幅絕佳肖像不可或缺的元素,且此實時眼部偵測自動對焦功能已拓展到動物世界,可自動偵測并追蹤動物雙眼,而人眼追焦功能目前已在 vivo X30 Pro 上實裝,預期有機會獲得更多手機品牌采用。
隔空操作
2019 年陸續有 3 支智能手機以隔空手勢操作為主要賣點:LG G8 ThinQ 手勢操作名為「Air Motion」,借由前鏡頭搭載 ToF 鏡頭,實現更精準臉部識別與手勢識別操作功能,例如想要截圖可透過在屏幕幕前做出五指并攏和抓取動作;若在手機屏幕前左右揮舞,可呼叫音樂和簡訊等功能;若要調節音量則進行扭轉旋鈕動作。 華為 Mate 30 Pro 同樣以前鏡頭搭載 ToF 鏡頭,操作時只要在前鏡頭前方張開手掌,接著做出捏合姿勢就可屏幕截圖,上下揮動手掌就能滑動頁面。
▲Google Pixel 4 手勢功能「Motion Sense」,source:Google
Google Pixel 4 手勢功能則稱作「Motion Sense」,采用 Project Soli 技術(運用微型雷達監測空中手勢動作的感測技術),在 Pixel 4 前置鏡頭模塊中搭載 1 塊雷達芯片,其會先發射電磁波,波束會在用戶產生動作后反射回手機的傳感器,再根據波束變化偵測用戶雙手動作,從而實現手勢操作。 此外,Samsung 旗下 C-Lab 也于 CES 2020 展示隔空打字新技術 SelfieType,不同于前幾年的雷射鍵盤需另外搭載投影紅外線的硬件,三星僅透過手機前置鏡頭和 AI 人工智能追蹤用戶雙手,即可在桌面上出現隱形鍵盤。 不過,整體來說手勢操作現階段仍以手機廠商展示自身技術為主,實際上的應用有限,某些功能在設定或操作上也略為復雜,使得手勢操作目前仍不普及。
智能防偷窺
華為 Mate 30 Pro 推出防偷窺功能,借由前鏡頭支援 3D 人臉識別,可保護使用者隱私。當前鏡頭識別有其他人出現在偵測范圍內,此時屏幕的訊息和行事歷等將自動上鎖,主要仍是借由前鏡頭與 AI 搭配人臉識別完成隱私保護。
(二)實時語音識別與自然語言處理
語音識別和自然語言處理的最新 AI 應用,主要為實時語音轉字幕與實時翻譯,隨著 AI 運算功能加強,可實時在終端裝置完成,不需將信息先傳到云端再回傳終端裝置。 語音轉字幕與翻譯雖然實務上早就能做到,但過往受限于 AI 運算能力不足,需先回傳云端處理后再傳給終端裝置。例如 Google 云端硬盤早已提供語音轉字幕功能,但需先登入,再播放音檔讓 Google 云端進行處理,也就是需要透過 Google 強大的云計算能力才得以完成,不僅需使用網絡流量造成不便,且容易造成隱私困擾。
▲Google Pixel 4 Live Caption 功能,source:Google
不過,Google Pixel 4 已率先實裝 Live Caption 功能(目前僅支援英文語音轉英文字幕),強調實時語音轉字幕不需使用任何連網數據,所有音頻和字幕都在終端裝置處理,也不會儲存或發送給 Google;小米集團旗下的 Redmi K30 5G 版也實裝中文語音轉中文字幕功能。實時翻譯功能方面,Qualcomm 在 Qualcomm Snapdragon Summit 2019 中,已展示如何只透過手機、不需經過云端回傳即可完成實時翻譯(離線亦能實時翻譯)。 整體來說,不用透過云端就可達成實時語音轉字幕與實時翻譯,主要因手機芯片的 AI 運算能力加強,例如 Google 的 Live Caption 功能剛推出時僅能于 Pixel 4 使用,目前也僅下放至 Pixel 3 機型,而 Qualcomm 展示 Snapdragon 865 實時翻譯功能,主要也是為了強調其 AI 運算能力的強大。實時語音轉字幕與實時翻譯由于不用透過云端,可降低延遲、減少頻寬需求并提高 App 使用方便性,同時安全性也更高,避免隱私外流風險。
(三) 其他應用
Google Pixel 4 也藉由 Google Assistant 進行語音識別以自動過濾騷擾電話(Call Screen),過程中不需使用任何網絡流量,但會計入電話費(此功能目前只支援英文,限美加地區使用。)若是未知電話,Google Assistant 可以在電話響起前就自動屏蔽;若是一般電話,則透過 Google Assistant 接聽并詢問來電者身分和來電原因,只要判定是語音自動電話或騷擾電話,就會掛斷;若判定不是,手機就會響鈴并顯示來電者的回覆。 此功能也會根據手機的聯絡人決定是否過濾來電,若不想過濾特定號碼,就要將號碼儲存為聯絡人。手機還可根據 Google 騷擾電話數據庫中的號碼偵測語音自動電話和騷擾電話,因此在初次設定時仍需網絡連線,設定完畢才可關閉連線。 AI 應用將持續帶動手機硬件提升 總結來看,近期市場出現越來越多前鏡頭結合 AI 的應用,尤以提供手勢或臉部識別為主的機型,基本上都需搭 ToF 感測模塊或雷達以提供更好識別能力。
此外,Google 提供視訊人臉置中和同時 2 人入鏡功能,也都依賴前鏡頭廣角功能,一般主攝鏡頭在視野受限下無法足夠取景。預期未來前鏡頭的規格會持續升級,象是畫素提升或引入微距鏡頭等,以實現更多 AI 應用。 不過,AI 運用最主要還是仰賴處理器的 AI 運算能力,隨著 AI 引擎持續改善,可以改善原本需回傳云端處理再傳回終端裝置的狀況,終端裝置于離線時即可提供許多 AI 運用,不僅降低延遲也減少頻寬需求,使 App 在應用上更方便,更不須使用網絡或依賴云資源,進而提高安全性。