導讀:集中式數(shù)據(jù)團隊對數(shù)據(jù)的了解程度無法與只專注于全部數(shù)據(jù)中特定部分的具體業(yè)務團隊相提并論。
組織多年來的一貫做法是將所有數(shù)據(jù)整合到單一位置,例如數(shù)據(jù)倉庫或近年來興起的數(shù)據(jù)湖。但是,集中式數(shù)據(jù)基礎架構的一些弊端已初現(xiàn)端倪:
集中式數(shù)據(jù)團隊對數(shù)據(jù)的了解程度無法與只專注于全部數(shù)據(jù)中特定部分的具體業(yè)務團隊相提并論。集中式數(shù)據(jù)基礎架構缺乏靈活性,難以滿足組織內(nèi)所有不同部門的需求。集中多個數(shù)據(jù)源的數(shù)據(jù)不僅會耗費大量時間,而且還會導致數(shù)據(jù)使用者無法按需訪問數(shù)據(jù)。
為了克服這些問題,技術顧問 Zhamak Dehghani 提議采用一種名為“數(shù)據(jù)網(wǎng)格”的分散式數(shù)據(jù)基礎架構。
在數(shù)據(jù)網(wǎng)格配置中,組織內(nèi)的不同部門或群組將擁有單獨的“數(shù)據(jù)域”,由中央自助式數(shù)據(jù)平臺提供支持,并按照一套總體標準進行管理,以確?;ゲ僮餍?。每個數(shù)據(jù)域都將提供“數(shù)據(jù)產(chǎn)品”,設計上方便目標受眾使用,且符合組織全局標準。
值得一提的是,盡管所有權分散,但預配和治理保持集中。此架構具有直觀意義,并有望克服完全集中式基礎架構的局限性,但組織如何在獲得中央數(shù)據(jù)平臺支持與保持域的獨立性之間實現(xiàn)一種微妙的平衡呢?
進入數(shù)據(jù)虛擬化
Denodo數(shù)據(jù)虛擬化作為一種數(shù)據(jù)集成技術,堪稱實現(xiàn)數(shù)據(jù)網(wǎng)格的完美選擇。與提取、轉換和加載 (ETL) 流程以及其他面向批處理的數(shù)據(jù)集成方法不同,數(shù)據(jù)虛擬化讓數(shù)據(jù)使用者無需先將數(shù)據(jù)復制到集中式存儲庫即可訪問數(shù)據(jù)。因此,數(shù)據(jù)虛擬化在本質上可以被視為一種“分散式”數(shù)據(jù)集成策略。
數(shù)據(jù)虛擬化是一個建立在組織內(nèi)不同數(shù)據(jù)源之上的企業(yè)范圍的層。要在不同數(shù)據(jù)源之間進行查詢時,數(shù)據(jù)使用者只需查詢數(shù)據(jù)虛擬化層,然后該層便會檢索所需數(shù)據(jù),讓使用者不必受困于訪問的復雜性。
數(shù)據(jù)虛擬化層不含實際數(shù)據(jù);但其存儲了訪問各種數(shù)據(jù)源所需的所有元數(shù)據(jù)。數(shù)據(jù)虛擬化提供單一位置來存儲元數(shù)據(jù),支持組織從單一控制點,在整個組織范圍內(nèi)自動實現(xiàn)基于角色的安全性和執(zhí)行數(shù)據(jù)治理協(xié)議。例如,組織可以自動脫敏處理薪資數(shù)據(jù),用戶必須擁有必要憑據(jù)才可查看此類信息。
數(shù)據(jù)虛擬化層提供數(shù)據(jù)網(wǎng)格架構中所需的“自助式數(shù)據(jù)平臺”的所有必要功能。組織可在數(shù)據(jù)虛擬化層之上實施多個語義層,由不同部門架構,并作為半自治數(shù)據(jù)域運行。每一個語義層都可以靈活地調整、更改或移除,而不會
改變或影響底層數(shù)據(jù)。此外,組織可以輕松地建立支持跨域重用的標準數(shù)據(jù)定義。
數(shù)據(jù)虛擬化和數(shù)據(jù)產(chǎn)品
數(shù)據(jù)虛擬化完全適用于數(shù)據(jù)產(chǎn)品開發(fā)。即使編碼能力有限,利益相關者也可利用數(shù)據(jù)虛擬化層創(chuàng)建虛擬模型,無需了解為之饋送信息的數(shù)據(jù)源的復雜性。隨后,他們可以利用一系列靈活的方法(例如 SQL、REST、OData、GraphQL 或 MDX),使這些虛擬模型作為數(shù)據(jù)產(chǎn)品被訪問,此過程同樣不需要編寫代碼。
“開箱即用”型數(shù)據(jù)虛擬化設置的初衷是為數(shù)據(jù)產(chǎn)品提供支持,使其兼容數(shù)據(jù)沿襲跟蹤、自主記錄、變更影響分析、身份管理和單點登錄 (SSO) 等功能。
此外,數(shù)據(jù)虛擬化還支持在組織范圍內(nèi)的數(shù)據(jù)產(chǎn)品目錄中注冊數(shù)據(jù)產(chǎn)品。通過集中存儲元數(shù)據(jù),數(shù)據(jù)虛擬化層可向組織中按域有序排列的數(shù)據(jù)資產(chǎn)提供全功能綜合目錄的所有必要成分。
數(shù)據(jù)虛擬化和數(shù)據(jù)域自治
數(shù)據(jù)虛擬化使組織能夠在不影響底層數(shù)據(jù)的情況下,在源數(shù)據(jù)之上構建視圖和語義模型,因此,數(shù)據(jù)虛擬化為數(shù)據(jù)域自治提供了現(xiàn)成的基礎。
在基于數(shù)據(jù)虛擬化的架構中,數(shù)據(jù)域利益相關者將能夠選擇為其產(chǎn)品饋送數(shù)據(jù)的數(shù)據(jù)源,并根據(jù)需要更改這一組合。許多業(yè)務部門已經(jīng)在運營自己的數(shù)據(jù)集市和滿足偏好的 SaaS 應用程序,并且在數(shù)據(jù)網(wǎng)格配置中重用這些內(nèi)容易如反掌。數(shù)據(jù)域可以通過數(shù)據(jù)虛擬化獨立擴展。
請務必注意,數(shù)據(jù)虛擬化不能取代數(shù)據(jù)倉庫和數(shù)據(jù)湖等單體存儲庫;數(shù)據(jù)虛擬化處理此類存儲庫的方式與任何其他數(shù)據(jù)源相同,在數(shù)據(jù)網(wǎng)格配置中,它們將成為網(wǎng)格中的節(jié)點。這意味著與現(xiàn)有數(shù)據(jù)倉庫或數(shù)據(jù)湖聯(lián)系緊密的數(shù)據(jù)域可以繼續(xù)通過這種方式為某些數(shù)據(jù)產(chǎn)品提供服務,例如需要機器學習的數(shù)據(jù)產(chǎn)品。在這種情況下,數(shù)據(jù)產(chǎn)品仍將通過虛擬層被訪問,管理數(shù)據(jù)產(chǎn)品的協(xié)議也與管理數(shù)據(jù)網(wǎng)格其余部分的協(xié)議相同。
編織網(wǎng)格
數(shù)據(jù)網(wǎng)格可以避開高度集中型數(shù)據(jù)基礎架構的許多陷阱,是一種前景廣闊的新架構。幸運的是,數(shù)據(jù)虛擬化作為一種現(xiàn)代數(shù)據(jù)集成和數(shù)據(jù)管理技術,有望以一種簡單明了的方式落實數(shù)據(jù)網(wǎng)格理念,而無需更換舊硬件。