“每當有人問起我的職業,我回答是數據標注師的時候,對方的臉上總是寫滿了問號。”李宇龍說。
李宇龍在百度(山西)人工智能基礎數據產業基地(簡稱“百度基地”)從事數據標注工作已經5年了。他說,自己和許多同事目前最大的心愿就是,希望有一天大家提起數據標注師就像提起教師、醫生一樣熟悉,期待有越來越多的人了解這個行業。
省工信廳不久前印發的《山西省“十四五”大數據發展應用規劃》中明確提出:我省將加快發展數據資源共享、人工智能算法模型研發、訓練測試驗證、產品服務應用等數據標注服務鏈條,推動“機器+人工”標注、機器智能標注等能力升級,打造完整的數據標注服務體系。李宇龍的心愿,有望在短期內實現。
數據標注,不僅僅是“標注”
什么是數據標注?簡單來說,就是通過對數據貼標簽、做記號、標顏色或劃重點的方式,標注出其中目標數據的不同點、相似點或類別,以此達到讓機器學習的功能。“數據標注是傳統制造升級為智能制造、信息計算升級為人工智能的必要環節,其質量直接決定著機器智能化的程度,是它們讓機器成為‘天才’。”省工信廳大數據辦相關人士的解釋很專業。
鮮為人知的是,人工智能是需要被人為教導訓練而成。人工智能所需要的教導,背后是經過大量的學習訓練而成。機器并不能理解原始數據,這些原始數據需要人為的“標簽化”,通過標注賦予這些數據能夠被機器所識別的特性,才可以被用于訓練。正是依據這些大量而有效的數據總結規律,機器和人工智能才能最終形成自己的工作模式,變得越來越“聰明”。
正因如此,人工智能行業有句話:有多少智能,背后就有多少人工。2020年2月,“人工智能訓練師”正式成為新職業并納入國家職業分類目錄。他們的工作是教會AI認識數據,有了足夠多、足夠好的數據,AI才能學會像人一樣去感知、思考和決策,更好地為人類服務。
李宇龍雖然從未見過自動駕駛汽車,但他最近正在做的工作卻與自動駕駛技術的AI算法息息相關。“你看,把汽車框起來,都打成白色的點,就代表這是一個障礙物。”隨著李宇龍鼠標的快速滑動,屏幕上的點云圖不斷翻轉,一個個針尖大的數據點被標注在圖中不同物體上——藍色是路面、綠色是綠植、紅色是路沿、白色是障礙物。事實上,自動駕駛汽車眼中的世界就是一幅幅不斷變幻的點云圖。數據標注師要做的就是對照攝像頭拍攝的照片,賦予這些點云圖以準確的含義。
記者采訪中了解到,現在數據標注的內容已經從圖片拓展到語音,數據集中除了自動駕駛,還有醫療CT、人臉等,語音數據除了有普通話、各地方言外還有外語,這些數據集涵蓋的范圍越來越廣,使得行業對數據標注師的要求也越來越高。
市場需求量將呈井噴式增長
眾所周知,數據服務領域與人工智能的發展息息相關。通過每天數千次的重復動作,數據標注這項工作便和無人駕駛、人臉支付、智能家居、智慧醫療等前沿科技產生了緊密的聯系。
記者了解到,目前,數據標注的技術門檻并不高,只要能熟練操作電腦,經過一定的培訓就能上崗,招工人群較為廣泛。以百度基地為例,現在這里有2300多名數據標注師,今后5年預計將為5萬名數據標注師提供就業崗位。
“這是個高速發展的行業,5年培養5萬人并不算多,我們的線上眾包注冊用戶將近2000萬人,目前每個月在線上為我們提供服務的將近5萬人。如果按照行業增長速度來看的話,培養5萬人還不一定夠。”百度基地負責人介紹。
對于如何保障數據安全,這位負責人表示:“這也是百度要專門建設這個基地的原因。在基地,每個房間都有24小時視頻監控,上崗之前進行人臉打卡、數據加密,作業期間若涉及數據敏感項目,會要求數據標注
師們將手機放在固定的地方,而線上的數據標注師則是處理一些敏感性不高的數據。”
記者了解到,目前山西轉型綜合改革示范區已建成全國知名的單體數據標注基地,入駐企業35家,標注人員2000余人,產值規模和從業人員全國領先。
據艾瑞統計預測,2020年我國AI基礎數據服務市場規模為37億元,到2025年相應規模可達107億元,整體增速呈現穩步提升的趨勢,圖像、語音類內容也繼續在向新興場景開拓,數據標注需求量將呈井噴式增長。
優勢+政策助推行業“起飛”
站在互聯網風口之上,我省已緊緊把握住了“大數據”“云平臺”等發展機遇。數據標注產業則是我省進一步利用已有制造業基礎和大數據資源,發展智能制造和人工智能應用的關鍵一步,是推動我省經濟高質量轉型發展的新機遇。事實上,我省近年來持續聚焦、主動作為,正在穩步推進我省數據標注產業建設發展。
一個事實是,我省發展數據標注產業優勢明顯:在人力資源優勢方面,具有相對充沛的人力資源,同時我省大數據學院專業培養體系完備,人才素質較高;在資源優勢方面,根據2018年8月國家發改委出臺的《關于支持山西省與京津冀地區加強協作實現聯動發展的意見》,京津冀作為全國電子信息產業發展高地,將為山西發展數據標注產業乃至整個人工智能產業帶來人才、資金、技術等全方位的外部優質資源;在產業基礎優勢方面,我省已與人工智能龍頭企業百度公司深入合作,數據標注產業集聚地建設項目順利展開,以山西同方知網為代表的本地數據標注企業也已初具規模。
省委、省政府為了支持數據標注產業的發展,近年來陸續發布了《山西省數據標注產業發展規劃(2019-2025年)》《山西省加快數據標注產業發展的實施意見》《山西人工智能基礎數據產業專項資金管理辦法》等,為入駐山西綜改示范區的數據標注企業提供了一系列的扶持配套政策。
如今,通過大力引進龍頭企業、推進重大項目建設、加強專項資金支持等一系列舉措,三晉大地集數據采集、存儲、標注、服務等于一體的大數據融合創新產業持續壯大,信息技術應用創新產業加速成長,新興數字平臺不斷涌現。
“《山西省加快數據標注產業發展的實施意見》提出,到2025年,基礎數據服務體系基本完善,人工智能基礎數據開放平臺影響力大幅提升,山西將成為全國領先的基礎數據產業聚集地,數據標注產業年產值達到50億元,基礎數據服務年產值達到150億元,帶動人工智能相關產業年產值達到500億元。”省工信廳大數據辦相關負責人表示。