谷歌今天介紹了TensorFlow.Text,一個使用TensorFlow預處理語言模型的庫。由谷歌Brain團隊創建的開源機器學習框架已經被下載了4100多萬次。
TensorFlow.Text可以使用PIP安裝,并附帶使用記號來拆分和分析文本(如單詞、數字和標點符號)的功能。
在啟動時,TensorFlow.Text可以識別空白、unicode腳本和預先確定的單詞片段序列,比如谷歌調用的后綴或前綴。單詞通常用于BERT之類的方法中,BERT是去年秋季為谷歌開源語言模型提供的一種預培訓技術。
根據媒體發布的消息,該庫還附帶用于標準化的ops、n-grams和用于標記的序列限制。
TensorFlow.Text的標記器使用RaggedTensors,這是一種新的文本識別張量。谷歌工程師Mark Omernick在今年早些時候的TensorFlow開發峰會上首次詳細介紹了RaggedTensors和Unicode對TensorFlow的支持。
這一消息是在TensorFlow 2.0 beta版發布幾天后公布的。谷歌的開源框架的最新版本是在3月份的TensorFlow開發峰會上以alpha版本發布的。TensorFlow 2.0使用更少的APIs、更深層次的Keras integration以及對運行時的改進,以實現快速執行。
TensorFlow.Text是谷歌在過去幾個月推出的最新專用庫,用于幫助人們完成機器學習的特定任務。上個月發布的TensorFlow Graphics旨在為圖形和3D模型帶來更多的深度學習。
谷歌在今年早些時候表示,也許最受歡迎的是用于嵌入式設備的TensorFlow Lite,目前有超過20億臺設備在使用它。谷歌使用TensorFlow Lite支持GBoard上的語音檢測和谷歌照片中的邊緣檢測等功能。
今年3月,谷歌推出了TensorFlow Privacy和TensorFlow Federated,這是一種能更好地保護用戶隱私的設備內置機器學習方法。該公司將其視為開發人員優先考慮隱私的一種方式。面向JavaScript和iOS開發人員的框架版本TensorFlow.js和TensorFlow Swift今年春季也得到了升級。