隨著大數據時代的到來,流動的數據已成為連接全世界的載體,也成為促進經濟社會發展、便利人們生產生活的源動力。伴隨著數據流動,尤其是為了解決流動過程中產生的一系列問題,“數據治理”一詞逐漸興起。而要了解數據治理,還得從數據、治理這些基本概念說起。
1. 數據
什么是數據?傳統意義上,數據是指人類對事物進行測量的結果。如今,數據的概念有了很多延展。一般而言,數據是指對客觀事件進行記錄并可以鑒別的符號,是對客觀事物的性質、狀態以及相互關系等進行記載的物理符號或這些物理符號的組合。這些物理符號具有抽象、非隨機的特點。
從數據的定義來看,數據具有兩個特征,一個是差異性,另一個是規律性。差異性主要體現為數據多數描述的是事物的數量特征,現實世界中每件事、每個人、每種物都有不同的特征,因此反映于數據也會有各種不同的表現,甚至從表面看起來可能是雜亂無章的。規律性則主要體現為,數據是具有一定規律的,對數據進行分析研究,很重要的目的就是從數據中找出某種規律和關聯。簡而言之,正因為數據具有差異性,才有必要對數據進行研究與分析;也正因為數據存在規律性,對其研究才有價值。
時下,人們往往容易將數據與大數據混淆。實際上,兩者是有區別的。
對于大數據,麥肯錫全球研究所給出的定義如下:大數據是一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件工具能力范圍的數據集合;高德納(Gartner)咨詢公司給出的定義如下:大數據是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力來適應海量、高增長率和多樣化的信息資產。維克托· 邁爾· 舍恩伯格在《大數據時代》一書中提出,大數據不能用隨機分析法(抽樣調查)這樣的捷徑,而要對所有數據進行分析處理。
業界普遍認為,大數據具有數據規模海量(Volume)、數據流轉快速(Velocity)、數據類型多樣(Variety)和數據價值巨大(Value)四大特征。
?。?)數據規模海量
當前,以大數據、物聯網、人工智能為核心特征的數字化浪潮正席卷全球,全世界每時每刻都在產生大量的數據。從1956年IBM發明世界上第一個機械硬盤,兩臺冰箱大小卻只有5MB容量,到現在淘寶網4億用戶每天產生幾十TB的數據,數據總量呈指數級增長。衡量數據大小的單位也從MB到GB,到TB,再到PB、EB,相信后面還會不斷出現新的記錄單位。當數據數量和規模發展到一定程度時,現有的數據存儲、分析、計算的方案和技術勢必不能滿足現實需求,迫切需要更智能的算法、更強大的數據處理平臺和更新的數據處理技術來挖掘數據價值。
?。?)數據流轉快速
與傳統的圖書、報紙、廣播等數據載體不同,數據產生和傳播的速度非??欤瑪祿桓咚俚貏摻?、移動、匯集到服務器。基于此,大數據對數據處理有著非常嚴格的要求。大數據的處理需符合秒級定律,一般要在秒級時間范圍內給出對數據的分析結果。響應時間過長,數據就失去了價值。換言之,誰的數據處理速度快,誰在大數據時代就具備優勢。
(3)數據類型多樣
傳感器、智能設備及移動互聯網的飛速發展使數據變得更加復雜,除了傳統的關系型數據,還包含結構化、半結構化和非結構化數據。大數據時代,需要處理的數據不僅是海量的,而且是不同種類、不同格式和不同來源的,因此需要一套專門的格式、標準來進行處理。
(4)數據價值巨大
大數據最大的特點在于通過各種數據分析和挖掘方法,發現諸多看似無關的數據之間暗含的規律和關聯。例如,阿里巴巴集團每天擁有幾億人的購物數據,通過分析這些數據就可以知道各種產品和市場發展的走勢,也可以知道不同用戶的愛好和需求,從而進行針對性的推薦,以提高平臺的交易量。不過,我們也要看到,雖然大數據的價值巨大,但并不是所有數據都擁有這樣的價值。如果把大數據比作一座金礦,有價值的數據就是其中的黃金,這種價值需要一系列加工和處理才可能得到釋放。
在數字經濟的發展歷程中,數據起到了核心和關鍵作用,人們對數據價值的認識也是由淺入深、由簡單趨向復雜??傮w來看,數據價值的發展主要分為三個階段:第一階段是數據資源階段,數據是記錄、反映現實世界的一種資源;第二階段是數據資產階段,數據不僅是一種資源,還是一種資產,是個人或企業資產的重要組成部分,是創造財富的基礎;第三階段是數據資本階段,數據的資源和資產的特性得到進一步發揮,與價值進行結合,通過交易等各種流動方式,最終變為資本。
?。?)數據資源
與傳統的農業經濟和工業經濟不同,數字經濟得以發展的基礎是信息技術和海量數據。隨著信息技術與經濟社會的交匯融合,數據成為國家的基礎性戰略資源,成為驅動經濟社會發展的新興生產要素,與勞動、土地、資本等其他生產要素一同為經濟社會的發展創造價值。
但是,數據與這些傳統生產要素不同,它具有可再生、無污染、無限性的特征??稍偕侵笖祿Y源不是從大自然獲得的,而是人類自己生產出來的,通過加工處理后的數據還可以成為新的數據資源;無污染是指數據在獲得與使用的過程中不會污染環境;無限性是指數據在使用過程中不會變少,而是越變越多。因此,傳統資源越用越少,但數據資源是越用越多。
數據成為資源,也是發現和利用數據價值的一個過程,這一點與傳統資源如石油比較相似。首先,要發現各種有用數據的來源,如同勘探油礦;其次,要采集滿足特定需求的數據,如同采油;然后,要把采集到的數據按應用需求進行標準化、結構化處理,如同煉油;最后,將加工處理后形成的數據與實際應用相結合,最大程度地發揮數據的作用。因此,在這個階段,數據是作為一種具有使用價值的資源幫助管理者決策,從而實現其經濟效益,同時也成為數字經濟發展的關鍵生產要素。
?。?)數據資產
隨著數字經濟的發展,人們發現,數據不僅僅是資源,還具備資產的特質。所謂資產,是指由企業過去經營交易或由各項事項形成的、被企業擁有或控制的、預期會給企業帶來經濟利益的資源。從資產的界定來看,它具有現實性、可控性和經濟性三個基本特征。現實性是指資產必須是現實已經存在的,還未發生的事物不能稱為資產;可控性是指對企業的資產要有所有權或控制權;經濟性是指資產預期能給企業帶來經濟效益。結合資產的特征,數據資產便是指企業在生產經營管理活動中形成的,可擁有或可控制其產生及應用全過程的、可量化的、預期能給企業帶來經濟效益的數據。實現數據可控制、可量化與可變現屬性,體現數據價值的過程,就是數據資產化過程。當前,數據已經滲入各行各業,逐步成為企業不可或缺的戰略資產,企業所掌握的數據規模、數據的鮮活程度,以及采集、分析、處理、挖掘數據的能力決定了企業的核心競爭力。
?。?)數據資本
2016年3月,麻省理工科技評論與甲骨文公司聯合發布了名為《數據資本的興起》的研究報告。報告指出,數據已經成為一種資本,和金融資本一樣,能夠產生新的產品和服務。但是,與實物資本不同,數據資本也有自身的特性。例如,非競爭性,即實物資本不能多人同時使用,但是數據資本由于數據的易復制拷貝特點,其使用方可以無限多;不可替代性,即實物資本是可以替換的,人們可以用一桶石油替換另一桶石油,而數據資本則不行,因為不同的數據包含不同的信息,其所包含的價值也是不同的。數據資本化的過程,就是將數據資產的價值和使用價值折算成股份或出資比例,通過數據交易和數據流動變為資本的過程。換句話說,數據作為資本的價值要在數據交易和流動中才能得到充分體現。這也引發了當前業界的一大難題,即數據產權問題。只有確定了數據產權問題,數據交易才具備順利開展的前提基礎。
2. 治理
對于對大數據感興趣的人來說,“數據治理”這個詞并不陌生。但要全面深刻地理解數據治理,還應該從“治理”說起。在英語中,“治理”一詞源自拉丁文“gubernare”,原意是控制、引導和操縱,后來逐漸演化成“governor”及“government”。
治理的概念是20世紀90年代在全球范圍內逐步興起的。治理理論的主要創始人之一詹姆斯· N.羅西瑙認為,治理是通行于規制空隙之間的那些制度安排,當兩個或更多規制出現重疊、沖突時或者在相互競爭的利益之間需要調解時發揮作用的原則、規范、規則和決策程序。另一位治理研究專家格里·斯托克指出,治理的本質在于它所偏重的統治機制并不依靠政府的權威和制裁;它所要創造的結構和秩序不能從外部強加;它發揮作用是要依靠多種進行統治的以及互相發生影響的行為者的互動。
國內學者俞可平提出,治理具有四個特征:1)治理不是一套規則條例,也不是一種活動,而是一個過程;2)治理的建立不以支配為基礎,而以調和為基礎;3)治理同時涉及公共和私營部門;4)治理并不意味著一種正式制度,而有賴于持續的相互作用。
國際組織對治理也有各自的理解。世界銀行認為,治理是“為發展而管理一個國家經濟和社會資源的權力”。聯合國全球治理委員會將治理界定為“個人和各種公共或私營的機構管理共同事務的諸多方式之總和,一種使相互沖突的利益得以調和并采取聯合行動的持續過程”。
綜上所述,治理就是政府、企業、個人以及非政府組織等主體為了管理共同事務,以正式制度、規則和非正式安排的方式相互協調并持續互動的一個過程。
3. 數據治理
數據治理具有治理的很多特征。例如,需要政府、企業、個人以及非政府組織等共同努力,也需要建立一套立法、規章、制度和規則。然而,由于治理的是數據,它又有很多自身的特點。目前,關于數據治理的定義亦是眾說紛紜。
根據國際標準化組織IT服務管理與IT治理分技術委員會、國際數據治理研究所(DGI)、IBM數據治理委員會等機構的觀點,數據治理意指建立在數據存儲、訪問、驗證、保護和使用之上的一系列程序、標準、角色和指標,以期通過持續的評估、指導和監督,確保富有成效且高效的數據利用,實現企業價值。數據治理的范圍如圖1所示。
圖1 數據治理的范圍
中國在國際場合首次提出“數據治理”的概念,是2014年6月在悉尼召開的ISO/IEC JTC1/SC40(IT治理和IT服務管理分技術委員會)第一次全會上。這個概念一經提出,即引發了國際同行的興趣和持續研討。
2014年11月,在荷蘭召開的SC40/WG1(IT治理工作組)第二次工作組會議上,中國代表提出了《數據治理白皮書》的框架設想,分析了世界上包括國際數據管理協會(DAMA)、國際數據治理研究所、IBM、高德納咨詢公司等組織在內的主流的數據治理方法論、模型,獲得了國際IT治理工作組專家的一致認可。2015年3月,中國信息技術服務標準(ITSS)數據治理研究小組通過走訪調研,形成了金融、移動通信、央企能源、互聯網企業在數據治理方面的典型案例,進一步明確了數據治理的定義和范圍,并于2015年5月在巴西圣保羅召開的SC40/WG1第三次工作組會議上正式提交了《數據治理白皮書》國際標準研究報告。報告認為,數據是資產,通過服務產生價值。數據治理主要是在數據產生價值的過程中,治理團隊對其做出的評價、指導、控制。
上述幾個關于數據治理的界定,內涵已經十分豐富,要義也得到了明確的體現,但還是未能囊括數據治理的全部。
首先,數據不僅僅是企業或機構的資產,更是現代國家的一種基礎戰略資源。曾有人提出,大數據時代世界上最有價值的資源不再是石油,而是數據。這種提法絲毫未夸大數據的重要作用。煤炭和石油等傳統資源是有限的,而大數據作為新型資源,由于具有可復制、遞增、共享等特性,其開發和增長是無限的。更重要的是它改變了傳統要素格局,新知識和新技術替代資本成為經濟發展的主導因素,符合智慧、綠色、共享和低成本的可持續發展理念,將助力實現發展方式的真正轉變。
其次,數據治理的目的不僅僅是確保數據的高效利用和實現企業價值,更是為了提升政府公共管理能力和國家治理能力。正如《數據治理白皮書》所描述的,企業開展有效的數據治理,會通過改進決策、縮減成本、降低風險和提高安全合規等方式將價值回饋于業務,并最終體現為增加收入和利潤。但是,擁有數據的往往并不只是企業。有統計顯示,政府擁有全社會80%的數據資源,通過運用大數據、云計算等現代信息技術,形成“用數據決策、用數據管理、用數據服務”的公共管理與服務機制,能夠有效提升政府公共管理能力和國家治理能力,促進經濟社會的快速健康發展。
再次,開展數據治理不僅僅局限于企業,政府和個人更是數據治理的重要主體。當前,無論國際、國內,提到數據治理基本都是指企業行為,但實際上政府在數據治理中能夠發揮更主動的作用。例如,開展數據治理頂層設計、推動政務數據開放共享、建立完善的數據權責體系等。個人也應該積極參與數據治理。由于政府和企業收集的信息中有相當大的部分是個人信息和數據,而近年來泄露、濫用和非法買賣個人信息的現象十分嚴重,給部分民眾造成了巨大的經濟損失和精神傷害。所以,個人參與數據治理主要是積極保護個人信息和維護個人權益。
最后,數據治理不僅僅依靠模型和框架,還要采用法律、行政、教育、道德倫理等方法和手段。當前,圍繞對數據的采集、分析、挖掘、應用、共享和保護等出現了諸多問題,亟需通過出臺數據立法和行政規章制度加以明確和規范。針對數據利用過程中出現的一系列安全隱患,要加強網絡安全教育和培訓,提升從業人員的專業素質和普通民眾的意識技能。對于那些倒買倒賣生物特征信息等敏感數據的行為,要輔之以倫理和道德方面的分析和教化,必要時可在立法中加大處罰力度。
綜上所述,從宏觀層面看,數據治理是指政府等公共機構、企業等私營機構以及個人,為了最大程度地挖掘和釋放數據價值,推動數據安全、有序流動而采取政策、法律、標準、技術等一系列措施的過程,如圖2所示。從微觀層面看,數據治理是不同的機構對各種各樣的元數據進行處理和分析的過程,如圖3所示。換句話說,無論何種主體以何種方式,只要圍繞數據安全、有序流動所采取的行動,就是數據治理的范疇。
圖2 宏觀層面的數據治理
圖3 微觀層面的數據治理