Cloud stellt die Transformation von Details auf den Kopf
Veröffentlicht: 2021-12-28Die gängige Informationstransformationsmethode des Extrahierens, vollständigen Transformierens und Ladens (ETL) wird derzeit in einer modischen Wendung, die durch Cloud-Systeme ermöglicht wird, schnell auf den Kopf gestellt.
Die geringeren Ausgaben der Cloud, ihre Anpassungsfähigkeit und Skalierbarkeit und die enorme Verarbeitungskapazität von Cloud-Wissensspeichern haben eine wesentliche Änderung vorangetrieben: die Fähigkeit, alle Fakten in die Cloud zu laden, unmittelbar bevor sie umgewandelt wird. Diese Entwicklung bedeutet, dass nur ETL transformiert wurde – in Extract, Load und Complete Transform oder ELT.
ELT bietet eine Reihe von Vorteilen, zusammen mit der Beibehaltung der Datengranularität, der Minimierung des Aufwands für teure Anwendungstechniker und merklich verringerten Projektdurchlaufzeiten.
Info-Transformation:
Daten sind für Unternehmen von entscheidender Bedeutung, die sie verwenden, um ihre Kunden zu erkennen, neue Interessenten zu ermitteln und Entscheider mit unternehmenswichtigen und aktuellen Daten zu unterstützen. Um Daten jedoch auszuwerten, müssen diese zunächst strukturiert werden. Es möchte verstanden werden, damit es in Dashboards, Erfahrungen und Vorhersagestile integriert werden kann.
Die Herausforderung besteht darin, dass ungekochte Fakten keine fantastisch formatierten, nutzbaren Daten darstellen. Das ist der Ort, an dem die Datentransformation ankommt. Unordentliche Rohdetails müssen in Darstellungen der Realität umgearbeitet werden, die Menschen dabei helfen, bestimmte Ziele zu erreichen.
Diese Umwandlung kann einfach erfolgen, bevor die Daten an ihren Standort geladen werden, im Allgemeinen ein Detaillager, oder später
Standard-ETL:
In herkömmlichem ETL werden Informationen unmittelbar vor dem Laden in prüfungsreife Wissensmodelle umgewandelt. Wie Charles Wang von Fivetran anmerkt: „Die Kombination von Transformation mit Laden in den exakten Schritt kann Speicher- und Rechenmittel einsparen, führt aber zu einer erheblichen Brüchigkeit des Info-Engineering-Workflows. Dies bedeutet auch, dass das für Transformationen verwendete Softwarepaket normalerweise unter Verwendung von Skriptsprachen wie Python und Java erstellt wird. Darüber hinaus erfordern Veränderungen in ETL möglicherweise ein großartiges Angebot an ausgefeilter Orchestrierung unter Verwendung von Instrumenten wie Airflow.“
ETL beinhaltet normalerweise auch ein großartiges Angebot an kundenspezifischem Code. Einer der Hauptpunkte des traditionellen ETL ist daher die Zugänglichkeit. Knapp, hochpreisig bedeutet so etwas wie Ingenieure und Naturwissenschaftler miteinbezogen werden wollen.
Eine zusätzliche Schwierigkeit betrifft Turnaround-Gelegenheiten. Herkömmliche ETL-Behandlungen, die mit On-Premise-Info-Warehouses verbunden sind, sind normalerweise besonders zeitaufwändig. Die Arbeit mit ETL beinhaltet auch regelmäßige routinemäßige Wartung und kann zu Komplexität führen.
Moderne Techniken zur Transformation:
Die Speicherung war üblicherweise unerschwinglich teuer. Der Vorteil von ETL für Unternehmen bestand darin, dass sie nicht ihr gesamtes Wissen an den endgültigen Standort laden mussten. Das wurde jetzt durch Cloud-Systeme verbessert. Wir sehen eine enorme Verbesserung der Cloud-Akzeptanz in Südafrika und die Engineering-Gebühren sinken merklich. Niedrigere Kosten machen es für Unternehmen möglich, alle ihre Daten in die Cloud zu laden, ohne sich der Speicherkosten bewusst sein zu müssen.
Dies deutet darauf hin, dass im heutigen ELT-Workflow Rohwissen direkt nach dem Laden in prüfungsfertige Detaildesigns umgeformt wird. Im Lager kann Wissen mit SQL nachbearbeitet werden, das dank seiner intuitiven englisch-abhängigen Syntax von einem deutlich breiteren Personenkreis angewendet werden kann. Die Transformation kann dadurch von SQL-kundigen Benutzern der Organisation durchgeführt werden und nicht nur von diesen mit Codierungs-Know-how.
Die Informationstransformation nutzt heutzutage also hauptsächlich Cloud-basierte Ressourcen und Systeme. Diese bilden zusammen den sogenannten Modern Day Facts Stack (MDS).
Im Mittelpunkt dieses MDS steht ein hochwirksames Cloud-Wissenssystem, normalerweise ein Cloud-Warehouse, das auch Detail Lakes beinhalten kann. Es wird Wissen aus einer Reihe von Ressourcenprogrammen geladen, darunter Datenbanken, Webprogramme und APIs. Zu diesem Zweck wird eine seriöse Transformationsschicht verwendet, um ungekochtes Wissen in Query-All-Set-Datensätze umzuwandeln. Und schließlich ermöglicht eine kollaborative Intelligence- und Visualisierungslösung für kleine Unternehmen dem Unternehmen, mit dem Wissen zu interagieren und umsetzbare Erkenntnisse aus den Schlussfolgerungen des Informationsunternehmens zu ziehen.

In seinem kurzen Artikel, der als Details Transformation Spelled Out bezeichnet wird, führt Wang aus, dass das MDS Informationen über die folgenden Phasen trichtert:
- Ressourcen – Details aus Betriebsdatenbanken, SaaS-Anwendungen, Ereignisverfolgung
- Wissenspipeline – extrahiert Fakten aus Ressourcen und füllt sie in das Informationslager, wobei sie manchmal normalisiert werden
- Data Warehouse – speichert Fakten in relationalen Datenbanken, die für Analysen optimiert sind
- Wissenstransformationsgerät – eine SQL-abhängige Software, die Daten aus der Quelle verwendet, um neue Faktenmodelle innerhalb des Informationslagers zu erstellen
- Analytics-Ressource – Tools zum Generieren von Geschichten und Visualisierungen, wie kleine Business-Intelligence-Plattformen
Transformation innerhalb des Detaillagers:
Transformationen werden angepasst, um die bestimmten Info-Designs zu generieren, die Unternehmen für Analysen benötigen. Zeitgenössische ELT trennt Extraktion und Beladung von Transformation. Dies kann es Unternehmen ermöglichen, die Extraktions- und Ladephasen der Datenintegrationsmethode zu automatisieren und auszulagern. Sie können dann ein fokussiertes primär auf SQL basierendes Transformationsgerät verwenden, sobald die Details bereits im Lager sind.
Ein entscheidender Vorteil von ELT ist, dass die Fakten im Grunde in granularer Form bleiben, da sie vor dem Laden keine große Transformation durchlaufen haben. Mit herkömmlichem ETL hat ein Unternehmen möglicherweise vor dem Laden deutliches Wissen gesammelt und verliert daher seine erste Granularität vollständig.
Die neue ELT-Architektur bietet auch erhebliche Funktionalität, Flexibilität und positive Aspekte beim Preis. Das Laden erfolgt schnell, und Unternehmen können ihr gesamtes Wissen im Informationslager aufbewahren, sogar das, was sie derzeit möglicherweise nicht benötigen.
„Grob gesagt können überarbeitete Informationsstile nur im Information Warehouse Ansichten oder materialisierte Ansichten sein“, bemerkt Wang. Er macht weiter deutlich, dass das Data Warehouse jedes Mal, wenn eine Person auf eine Kasse zugreift, eine Abfrage ausführt, um die relevanten Informationen zurückzugeben. Diese Ansichten werden nicht gespeichert. „In einer idealen Erde ohne Latenz und uneingeschränkten Rechenmitteln wären alle Transformationen im Grunde Views“, fügt er hinzu.
Im Gegensatz dazu werden materialisierte Ansichten auf der Festplatte gespeichert, da Ansichten, die spontan von einem großen Tisch oder einer anspruchsvollen Frage erstellt werden, dazu führen können, dass Detaillager ersticken.
EtLT:
ELT sollte in den meisten Szenarien wahrscheinlich als EtLT bezeichnet werden, da häufig eine leichtgewichtige Transformation oder Normalisierung durchgeführt wird, bevor das Wissen geladen wird. Dadurch werden Redundanzen, Duplikate und abgeleitete Werte eliminiert. Es organisiert auch Tabellen aus den Fakten in den klarsten machbaren Satz von Wechselbeziehungen, sodass Analysten das zugrunde liegende Datenprodukt der Ressourcen-App bequem interpretieren und entsprechend neue, für die Bewertung vorbereitete Informationstypen erstellen können.
„Die Ausgänge der Extraktions- und Verladeleitungen müssen standardisiert werden, wenn ein ausgelagertes, automatisches ELT die Arbeit erledigen soll“, erklärt Wang. „Um die Informationen einer Ressource effektiv zu normalisieren, müssen Sie über genaue Kenntnisse des grundlegenden Betriebs- und Detailmodells der Versorgungsanwendung verfügen. Der ideale Weg, um diese Herausforderung zu umgehen, besteht darin, das Extrahieren und Laden an ein Team auszulagern, das sich intensiv mit der Informationstechnik für diese bestimmte Ressource befasst.“
IT-Spezialisten, Keyrus