轉載本文需注明出處違者必究。
01數據中心發展的趨勢
信息技術應用創新發展是目前的一項國家戰略,也是當今形勢下國家經濟發展的新動能。發展信創是為了近年來保障核心技術自主可控解決安全的本質問題,目前,國家在全國范圍內各省、自治區、直轄市均建有大型或超大型數據中心。數據中心雖然用電量占全社會用電量的比例接近1%,卻拉動了36.2%的國內生產總值,數據中心建設成為經濟發展的新支點。
數據中心的建設是需要通過數據交換將各個地方的數據信息收集起來,解決數據的互通問題。這里面數據中心的核心任務是要將互相關聯的分布式異構數據源集成到一起。使用戶能夠以透明的方式訪問這些數據源達到數據共享的目的。
02數據中心與數據交換
隨著社會的發展科技的進步,近些年來政府和企業部門都已經建立起自己的業務系統,并在日常業務處理中發揮著重要的作用。由于受各種條件的限制,在建設初期各部門獨立建設自己的系統,導致信息孤島現象大量存在,嚴重制約了數字化業務的進一步發展。當今社會已經進入了數據驅動創新的發展階段,而大數據中心是支撐數字經濟發展的關鍵,在數據經濟時代,計算力已經與水、電一樣成為最基本的社會基礎設施之一,而大數據中心是集中存放計算、存儲以及網絡設備的場所,是承載計算力的關鍵基礎設施。
數據中心的建設離不開數據,數據交換平臺是數據中心與上下級部門或單位之間獲取數據的交換機。數據交換平臺是把不同來源、不同物理存儲中的數據經過抽取、轉換、清洗并將數據存儲到不同的目標數據源的數據處理過程。數據交換中主要包含了三類數據的交換包括文件交換、接口交換、ETL交換。根據交換業務的不同采用不同的方式進行交換。
文件交換這里指的是二進制形式的文件比如圖片、電影、壓縮文件等數據類型,通常是以文件方式進行的存儲。這種類型的數據通常適合采用文件交換,文件交換一般是不會解析文件的內容,采用拷貝的方式將文件復制到目標存儲中進行數據交換。
接口交換一般情況是數據來源是以http、webservice、restful形式發布的數據,這種類型的數據需要有請求對數據進行訪問從而獲取到數據,這種數據進行交換如果目標也是接口,則采用ESB總線的方式將來源接口和目標接口進行匹配交換。如果這種類型的數據進行數據交換的目標是其他類型的數據形式,比如:可以通過訪問來源接口的數據通過數據轉換存儲成文件數據,也可以存儲到數據庫中。這種情況下可采用ETL的方式進行交換。
ETL交換能夠將大部分結構化存儲的數據進行抽取,包括數據庫、excel、txt、xml等結構化存儲可解析的數據,ETL交換時是將數據源中的數據以行為單位,列為組成單元的形式解析出來,提供多種過濾清洗的組件對抽取出來的數據進行清洗轉換,最終將數據存放到目標存儲中。
這些看似簡單的過程,其實在真正實施數據中心建設的時候有很多工作要做。下面以數據中心建設為例進行講解。
03數據交換組織建設
在進行數據中心建設前需要考慮保障數據接入和數據交換工作的順利推進會先進行數據交換規范的制定。數據交換規范,明確數據交換平臺管理流程、各環節任務、參與者的職責以及各環節的輸入、輸出和產出物。
數據交換規范涵蓋數據服務定義、實現、上線、運行、變更和退役的過程,數據交換管理規范從這六個階段進行管理每個階段的主要工作內容、參與角色及其工作職責,以及需要遵循的規范和原則,進而保障數據交換管理活動都在規范的管理下受控。為了落實規范的執行由上級單位牽頭,下級單位和相關廠商配合進行組織建設,成立數據交換的管理層形成數據交換管理組。主要負責數據交換規范的制定和對執行情況的監督;操作層由數據交換平臺的數據管理員、開發人員、運維人員和外圍系統相關人員組成,主要負責交換平臺相關的技術操作工作。
數據交換管理組是數據交換規范的制定者、監督者,主要負責數據交換規范的制定、對數據交換執行過程進行管理和監控。推動數據交換管理活動,確保管理體系和系統工具的執行,定期了解數據交換作業的運行情況,評估數據交換和服務管理的績效,保證數據交換管理最終實現業務目標。
數據管理員是企業數據資源的管理人員,主要負責數據資源的注冊和維護,相關權限的審批,及相關評審工作。
開發人員負責數據資源交換任務的開發工作。
運維人員主要負責數據交換平臺的安裝部署以及日常的平臺運行狀態的監控,保證平臺穩定運行。
其他相關人員包括數據交換的各參與方人員,主要包括數據提供者和數據消費者,相關業務應用開發和管理人員。
建設管理工作涉及不同人和角色之間的管理和相互配合,這需要在許多不同的利益相關者之間達成共識。因此在數據交換平臺建設中成立專業化的項目管理組織是一項重要工作。
數據交換管理可以有效地保證項目管理組織目標的實現,有效地應付項目環境的變化,滿足項目組織成員的各種需求,使其具有凝聚力、組織力和向心力,以保證項目組織系統正常運轉,確保數據交換平臺建設工作順利完成。組織成立后需要進行相關管理規范和技術規范的制定,可根據自身企業的實際情況來制定這里就不展開討論。
04數據交換在數據中心建設
數據交換平臺是數據中心與其它應用系統溝通的橋梁,是進行數據交換的樞紐站。數據交換平臺負責從各個業務系統采集數據,對數據進行清洗與整合,按照數據中心建設標準規范化原始數據,最終形成各種主題庫。
數據中心建設包括這幾個步驟:
1、數據源:數據的來源,一般是由不同部門的各類來源數據,包括文件、數據庫、Http服務等2、數據匯聚:存放的是接入的原始數據。經過ETL之后裝入本層,大多是按照源頭業務系統的分類方式而分類的。為了考慮后續可能追溯數據為題,因此對這一層不建議做過多的數據清洗工作,原封不動接入源數據即可,至于數據的去噪,去重,異常值處理等過程可以放在后面的DW層3、數據處理:是對匯聚的原始數據進行初步的ETL處理,實現對數據的清洗、加工,補全各類信息(包括編碼字典解釋等),這個步驟的目的是實現數據的規范化,這里的數據也是落地存儲物理庫,作為抽取中間庫DWD層4、數據融合:是對規范化的原始數據進行融合處理,建立數據之間的關系模型。數據融合主要是按照主題或業務領域進行數據建模。5、數據集市:是對領域模型數據進行匯總統計分析,將統計分析的結果進行存儲,可以理解為報表決策數據所使用的統計表,結合大數據分析將分析結果在集市層存儲,為上層應用提供統計數據。
05數據交換平臺建設架構
數據中心離不開數據,數據中心的數據是將各個分部門中的數據通過數據交換到數據中心的,在分部門和數據中心進行數據交換時會建設數據交換的前置區進行數據隔離保障數據的安全。前置交換節點通過數據文件的方式和數據中心交換數據。前置機位于廣域網,通過Internet和交換中心相連。在和數據中心交換時只交換數據中心所需要的數據并不會將所有的業務數據都交換到數據中心。前置節點中會部署一套前置交換系統用于將業務系統中的數據交換到前置區中,數據中心會定期從前置區的固定目錄中獲取數據中心所需要的數據進行數據交換,交換采用安全加密的協議保障數據的安全。在數據交換到數據中心時會先進行數據質量檢核確保數據是符合規范的,如果檢核通過則由數據中心中的數據交換系統將數據存入中心庫,如果沒有通過檢核則會通知相關部門進行數據修正,解決數據問題后在進行數據交換。
數據同步到數據中心后就由數據中心的數據交換系統進行數據匯聚、數據處理、數據融合和數據集市的操作。以前的數據中心建設只是將數據集中管理起來進行了一些基本的數據統計和分析,沒有充分的發揮數據的價值。使得數據中心的建設又變成了一個新的數據孤島。隨著近些年來數據開放共享的呼聲越來越高,數據共享成為了數據中心建設的一個重要組成。
數據共享能夠以多種方式提供數據,用戶可根據自己的需要在數據交換平臺上進行數據的申請或訂閱獲取到想要的數據,數據管理方也能夠通過數據交換平臺對數據共享進行開放和管理。通過數據共享能夠將數據進行融合形成許多建立在數據共享開放之上的應用如雨后春筍一般迅速實現。
06數據交換功能
數據交換平臺的是實現數據中心建設重要的組成,數據交換平臺的功能主要有以下幾部分組成:
資源目錄管理:基于資源目錄管理規范,采用分級、分域的方式對需要交換的數據元數據進行管理,向數據交換開發人員、數據管理人員以目錄的形式提供元數據的展示。數據服務目錄管理主要功能包含:元數據管理、分類管理、目錄編目、目錄管理和目錄服務。
服務接口管理:數據交換平臺中提供了服務接口管理功能,通過分層的方法進行可視化的服務管理,像服務操作注釋,服務操作參數,服務操作返回值等都提供相應的用戶界面。服務接口管理主要功能包含:接口注冊、接口管理、接口構建、服務監控、調用關系管理和服務接口統計。
數據交換管理:支持服務接口開發、etl數據抽取以及文件傳輸數據交換的開發、運行和管理,主要功能包含:交換橋接、前置交換、數據處理、文件傳輸和數據統計。
系統支撐功能:支持按照分類、主題、應用等多個層次對數據進行分類管理、識別、定位和共享,開發完成的數據服務消費方可以平臺中瀏覽查看,如果消費方需要使用數據服務能夠在平臺中發起申請,審批通過后根據平臺中提供的服務信息使用數據。主要功能包含:主題管理、信息訂閱、數據審批和申請記錄。
系統管理與監控:支持按照角色、菜單劃分系統功能權限,能夠監控服務接口、etl數據抽取以及文件傳輸交換的運行進行統計和監控。主要功能包含組織管理、用戶管理、角色管理、安全管理和平臺監控。
6.1資源目錄
資源目錄體系與交換體系兩者密不可分。事實上,資源目錄的構建過程是對信息資源進行編目和分類的一體化過程,同時也是依托技術構建信息資源管理體系的過程。建成目錄體系和交換體系的同時,將形成內部信息資源的管理架構。資源目錄是數據交換的基礎,能夠為數據交換提供所需要的元數據信息。同時還是一套為信息資源檢索、定位和共享的應用服務體系。
根據相關標準定義,資源目錄可以分為部門資源目錄、基礎資源目錄和主題資源目錄,從實踐中來看,梳理部門的資源目錄是數據交換平臺的切入點。但由于下級部門眾多,各自對數據中心的期望和要求不一致,短期內數據中心的建設也不能支撐下級部門的業務,因此上報數據不積極,再加上每個下級部門都建設了數套業務系統,作為數據交換平臺的實施方,也難以對委辦局提出清晰、明確的數據需求。需要由數據交換管理組牽頭進行資源目錄梳理,也就是將要求各下級部門或單位、按照職責梳理其應該有的數據目錄和數據項,后續再通過資源目錄來接入各部門的數據,形成部門庫,進而建設基礎庫和主題庫,形成主題數據,去支撐各類上層應用,包括大屏分析、主題分析,甚至政務服務事項、一網通辦等。
利用資源目錄管理系統,可以通過在線錄入資源目錄,以信息化手段減輕資源目錄梳理的工作,通過技術手段提高梳理的效率。整個過程就像是開一個數據超市需要聯系各種供貨渠道,管理各個供貨渠道的供貨關系,最終形成一個貨物目錄放到貨架上。
6.2服務與接口
近些年來,隨著數據服務化的意識加強越來越多新上線的系統已經提供了相關數據服務的接口,這時服務接口的數據交換管理采用SOA松耦合的思想來進行數據交換,通過靈活的服務接口和Adapter,方便SOA應用和遺留應用的集成,這種松耦合、有效靈活的架構提供了更好的擴展性。
要點說明:
調用/推送:將服務注冊到數據交換平臺,可以主動調用接口拉取數據。下級部門如有服務集成需求,可以直接使用交換平臺提供的接口訪問服務。
數據寫入方式:根據數據交換邏輯的不同,可以直接寫入利用資源目錄管理系統,可以通過在線錄入資源目錄,以信息化手段減輕資源目錄梳理的工作,通過技術手段提高梳理的效率。數據中心再共享給各個系統,也可以直接把數據傳遞給業務系統。
松耦合的服務配置:服務配置過程中會對ip和端口、服務的URI、服務邏輯編排、響應報文處理等環節進行單獨配置,所以對于調用方來說,服務是透明的是非侵入的。
6.3交換管理
這里將交換管理分為兩部分一部分是ETL的交換,另一部分是文件傳輸。
ETL的交換用于大批量非實時低頻度的數據交換。不只是數據文件,包括ETL抽取上來的結構化數據、數據庫抽取上來的增量日志,都先生成文件放在文件緩存區,再通過批量數據管道進行傳輸。
要點說明:
三種類型數據的采集:各類數據文件、ETL抽取并經過加工的結構化數據、數據庫獲取的增量日志。
數據傳輸鏈路:實現應用單位前置交換信息庫與交換中心之間的信息處理及穩定可靠、不間斷地信息傳遞。
ETL邏輯一次性配置:ETL文件在傳輸的前后都有處理邏輯,這些邏輯可以在交換中心單點配置,并自動同步到相關前置節點。
三種觸發方式:可以通過定時任務調度、數據偵測、任務監控。數據庫新生的日志可以通過數據偵測感知并準實時傳送。
文件傳輸交換用于實現文件形式的數據傳輸。實現集團總部與成員單位之間的文件數據傳輸,對于大的文件,會自動對文件進行智能分割傳輸,支持斷點續傳、加密壓縮傳輸、文件并發傳輸以及傳輸流量控制。
要點說明:
文件傳輸:采用一對一、一對多的方式進行文件傳輸,用戶通過配置發送節點及發送目錄、接收節點及接收目錄,并配以調度策略,FTA發送節點會自動定期檢測發送目錄。
斷點續傳:在不穩定網絡狀態下保證數據的可靠高效傳輸。
加密壓縮傳輸:系統可對發送數據進行加密,目的節點接收到加密的數據后,會對接收數據自動進行解密。提供的壓縮機制,以便用戶進行大容量文件傳送時提高效率。
并發傳輸:支持并發傳輸,每個傳輸節點可以同時并發傳輸多個文件。
6.4數據使用
以前的數據中心建設是有什么數據就只能給什么數據,現在新一代的數據中心建設是想要什么數據就能獲取到想要的數據。而能夠做到這些需求的背后是數據交換技術的發展和進步。通過建立共享目錄服務等共享數據庫,以手工錄入或導入導出等方式,將數據、文檔等存入共享庫中,數據交換平臺實現對所需信息的快速服務發布以及便捷檢索和查詢。
發布后的服務能夠提供給用戶進行申請或訂閱,數據信息訂閱分為申請資源和訂閱資源兩種方式:
申請資源:提供消費方通過資源申請方式申請主題分類資源樹中的數據實體資源,相對平臺而言“拉”的方式,消費方申請資源后,向消費方開放Web服務信息、表格下載方式,由消費方主動獲取數據資源。
訂閱資源:提供消費方通過資源訂閱方式申請主題分類資源樹中的數據實體資源,相對平臺而言“推”的方式,消費方訂閱資源后,向平臺提供數據庫、文件目錄地址與連接方式,由平臺向消費方推送數據資源。
用戶的申請或訂閱是需要通過審批才能獲取到數據資源的,數據管理方能夠在數據交換平臺中對用戶所使用數據的情況進行監控。通過數據交換平臺來實現數據共享和路由。這種連接方式實現了數據的無縫交換和共享訪問,保證了各業務系統的有效協同,同時又能保證各應用系統的相互獨立性和低耦合性,從整體上提高了系統運作效率和安全性。
用戶在使用數據時就像進入了數據超市一樣,數據共享平臺里共享出來的各種主題就像是數據的貨架,貨架上擺滿了各種數據,用戶可以隨意挑選。在找到自己想要的數據后,只要發出申請或訂閱,通過審批后就能夠拿到所需的數據。
6.5系統管理與監控
在系統管理和監控中數據管理方能夠分配資源的使用權限,監控消費方對數據交換和數據共享的使用情況。
數據交換平臺支持告警監控,在平臺數據交換服務執行異常時,能夠觸發相關的告警服務,用戶可自定義服務監控指標與告警范圍,支持郵件、短信等告警方式。前面我們說了,提供的共享服務就像是開一個數據超市,那么數據交換平臺的監控就像是超市中裝的監控攝像頭,能夠監控數據交換的一舉一動。保障數據資產的安全。
07總結
普元的數據交換平融合了數據中心以及數據中臺的建設思路,結合了信創對國產化以及自主可控的要求,能夠適配國產化操作系統和數據庫的環境,數據交換平臺能夠將上下游的數據整合到數據中心,形成資源目錄中的各種業務主題庫。通過資源目錄對數據進行共享,打破數據孤島,實現各級部門間的數據資源共享、互聯互通,為數據中心的建設夯實基礎。
關于作者:光芒,普元項目經理,十多年的IT從業經驗,一直專注于企業數據交換和數據管理的工作。曾主持參與了Primeton DI和Primeton ESB的產品研發工作,致力于自服務的數據共享和數據交換研究,在數據治理領域不斷探索和研發。