幾周前,Google 剛剛對“云端文本轉語音”API 實施了大改版?,F在,該公司又升級了自家的 Speech-to-Text 語音識別服務。改進后的 STT API 承諾顯著提升了語音識別的性能,在內部所有測試中,單詞錯誤率減少了 54% 左右。不過在某些領域,實際表現要好得多?;谟美?,新版 API 現允許開發者在四種不同的機器學習模型間進行選擇。
其中有面向短查詢和語音命令的,以及一個理解通話語音和處理 視頻 中音頻的。第四個模型屬于新增默認,谷歌推薦在所有其它場景中使用。
此外,谷歌還帶來了一項新的標點符號模型。團隊承認,其錄音文本長期飽受標點符號不太正常的吐槽。用標點符號來表達自己的觀點,算是出了名的困難。
谷歌承諾新模型可帶來更多可讀的轉錄文本,包括更少的斷句、更多的逗號、句號、以及問號。
本次更新后,谷歌還允許開發者借助一些基本的元數據標記他們的轉錄音視頻。盡管一時發揮不了直接的益處,但谷歌表示,它將使用來自所有用戶的聚合信息,來決定下一步要優先考慮哪些新功能。
最后,谷歌還試圖對這項服務的收費方式做出小小的改動。此前,音頻轉錄的收費標準為 0.006 美元 / 每 15 秒;視頻模型的收費翻倍(0.012 美元 / 每 15 秒)。
不過 5 月 31 號之后,使用新模型也需要支付 0.006 美元 / 每 15 秒。
本站內容除特別聲明的原創文章之外,轉載內容只為傳遞更多信息,并不代表本網站贊同其觀點。轉載的所有的文章、圖片、音/視頻文件等資料的版權歸版權所有權人所有。本站采用的非本站原創文章及圖片等內容無法一一聯系確認版權者。如涉及作品內容、版權和其它問題,請及時通過電子郵件或電話通知我們,以便迅速采取適當措施,避免給雙方造成不必要的經濟損失。聯系電話:010-82306118;郵箱:[email protected]。