雲顛覆了細節轉型
已發表: 2021-12-28提取、完全轉換和加載 (ETL) 的通用信息轉換方法目前正在以一種由雲系統支持的時尚方式迅速轉變。
雲的支出減少、適應性和可擴展性以及雲知識倉庫的巨大處理能力推動了一個主要變化:在轉換之前將所有事實加載到雲中的能力。 這一發展意味著單獨的 ETL 已被轉換為提取、加載和完全轉換或 ELT。
ELT 提供了許多獎勵,以及保留事實粒度,最大限度地減少對昂貴的應用程序工程師的需求,並顯著減少項目周轉情況。
信息轉換:
數據對於企業來說至關重要,他們使用它來識別客戶、確定新的前景並通過關鍵任務和最新數據幫助決策者。 但是,要評估數據,首先必須對其進行結構化。 它希望被理解,以便可以將其納入儀表板、體驗和預測風格。
挑戰在於,未經處理的事實並不能呈現為格式奇特、可用的數據。 這就是數據轉換的用武之地。凌亂的原始細節希望被重新加工成現實的表示,以幫助人們實現不同的抱負。
這種轉換可以在事實加載到它的位置之前進行,通常是一個細節倉庫,或者稍後
標準 ETL:
在傳統的 ETL 中,信息在加載之前就被重新建模為可供考試的知識模型。 正如 Fivetran 的 Charles Wang 所指出的,“將轉換與加載相結合可以保留存儲和計算手段,但會給信息工程工作流程帶來極大的脆弱性。 這也意味著用於轉換的軟件包通常是使用諸如 Python 和 Java 之類的腳本語言創建的。 此外,ETL 中的轉換可能需要提供出色的複雜編排服務,使用 Airflow 之類的工具。”
ETL 通常還包括提供非常棒的定制代碼。 因此,傳統 ETL 的主要問題是可訪問性。 稀缺、高價意味著工程師和科學家希望參與其中。
另一個困難涉及周轉時機。 涉及本地信息倉庫的傳統 ETL 處理通常特別耗時。 使用 ETL 還涉及定期的日常維護,並且會引入複雜性。
現代轉型技術:
存儲通常價格高得令人望而卻步。 ETL 對企業的回報是他們不必將所有知識加載到最終位置。 現在,雲系統已經改善了這一點。 我們看到南非的雲採用率有了巨大的提高,工程費用也在顯著下降。 較低的費用使企業可以將所有信息加載到雲中,而無需意識到存儲費用。
這表明,在當今的 ELT 工作流程中,原始知識在加載後立即被重新建模為完全準備好檢查的細節設計。 在倉庫中,可以使用 SQL 重新加工知識,由於其直觀的英語相關語法,可以被更廣泛的人應用。 因此,組織的懂 SQL 的用戶可以執行轉換,而不僅僅是具有編碼知識的用戶。
如今的信息轉換利用了基於雲的資源和系統。 這些共同構成了所謂的現代事實堆棧(MDS)。

這個 MDS 的核心是一個高效的雲知識系統,通常是一個雲倉庫,也可能涉及細節湖。 知識是從包括數據庫、Web 程序和 API 在內的一系列資源程序加載到其中的。 為此,使用信譽良好的轉換層將未經處理的知識轉換為查詢所有集合的數據集。 最後,協作式小型商業智能和可視化解決方案允許企業與知識進行交互,並為信息公司的結論得出可操作的見解。
在他的短文中,Wang 指出 MDS 通過以下階段匯集信息:
- 資源——來自運營數據庫、SaaS 應用程序、事件跟踪的詳細信息
- 知識管道——從資源中提取事實並將其集中到信息倉庫中,有時對其進行規範化
- 數據倉庫——將事實存儲在為分析優化的關係數據庫中
- 知識轉換設備——一種依賴於 SQL 的軟件,它利用源數據在信息倉庫中建立新的事實模型
- 分析資源——用於生成故事和可視化的工具,例如小型商業智能平台
細節倉庫內的改造:
轉換是定制的,以生成組織必須用於分析的某些信息設計。 現代 ELT 將提取和加載與轉換分開。 這可以使公司自動化和外包數據集成方法的提取和加載階段。 然後,當詳細信息已經在倉庫中時,他們可以使用基於 SQL 的重點轉換設備。
ELT 的一個關鍵優勢是事實基本上保持在粒度類型,因為它在加載之前沒有經過大的轉換。 使用通用 ETL,企業可能在加載之前已經聚合了不同的知識,因此完全放棄了第一個粒度。
新的 ELT 架構還提供了大量的功能、靈活性和價格優勢。 加載速度很快,組織可以將他們所有的知識保存在信息倉庫中,即使是他們目前可能不需要的知識。
“粗略地說,僅在信息倉庫中重新設計的信息樣式可以是視圖或物化視圖,”Wang 指出。 他繼續明確表示,每次有人訪問結賬時,數據倉庫都會運行查詢以返回相關信息。 這些視圖未保存。 “在一個零延遲和不受限制的計算手段的理想地球上,所有的轉換基本上都是視圖,”他補充道。
相比之下,物化的景像被保存在磁盤上,因為從一張巨大的桌子或複雜的問題中動態創建的視圖可能會導致細節倉庫阻塞。
乙肝:
在大多數情況下,ELT 可能應該被稱為 EtLT,因為一些輕量級的轉換或規範化通常在加載知識之前進行。 這消除了冗餘、重複和派生值。 它還將表格從事實組織成最清晰可行的相互關係集,以便分析師可以方便地解釋資源應用程序的基礎數據產品,並相應地構建新的評估準備信息類型。
“如果外包,則提取和裝載管道的輸出需要標準化,自動 ELT 才能完成工作,”王說。 “為了有效地規範來自資源的信息,您必須對供應應用程序的基本操作和細節模型有深刻的了解。 規避這一挑戰的理想方法是將提取和加載外包給一個與該特定資源的信息工程進行密集接觸的團隊。”
IT 專家, Keyrus