Chmura stawia na głowie transformację detali
Opublikowany: 2021-12-28Powszechna metoda przetwarzania informacji polegająca na wyodrębnianiu, całkowitym przekształcaniu i ładowaniu (ETL) jest obecnie szybko stawiana na głowie w modnym wydaniu, które umożliwiają systemy chmurowe.
Zmniejszone wydatki na chmurę, jej adaptacyjność i skalowalność, a także ogromne możliwości przetwarzania chmurowych hurtowni wiedzy, spowodowały główną zmianę: możliwość załadowania wszystkich faktów do chmury tuż przed jej przekształceniem. Ten rozwój oznacza, że sam ETL został przekształcony — w wyodrębnianie, ładowanie i całkowite przekształcenie, czyli ELT.
ELT zapewnia szereg nagród, wraz z zachowaniem szczegółowości faktów, zminimalizowaną potrzebą kosztownych inżynierów aplikacji i zauważalnie zmniejszonych sytuacji w zakresie realizacji projektu.
Transformacja informacji:
Dane mają kluczowe znaczenie dla korporacji, które wykorzystują je do rozpoznawania swoich klientów, określania nowych perspektyw i wspomagania decydentów za pomocą kluczowych i aktualnych danych. Jednak aby ocenić dane, należy je najpierw uporządkować. Chce być rozumiany, aby można go było przeciągnąć do pulpitów nawigacyjnych, doświadczeń i stylów przewidywania.
Wyzwanie polega na tym, że nieprzetworzone fakty nie przedstawiają się jako fantastycznie sformatowane, użyteczne dane. To jest miejsce, w którym pojawia się transformacja danych. Nieuporządkowane, surowe szczegóły chcą zostać przerobione na reprezentacje rzeczywistości, które pomagają ludziom realizować różne ambicje.
Ta transformacja może po prostu trwać, zanim fakty zostaną załadowane do jego lokalizacji, zwykle do magazynu detali, lub później
Standardowy ETL:
W konwencjonalnym ETL informacje są przemodelowywane w gotowe do egzaminu modele wiedzy tuż przed ich załadowaniem. Jak zauważa Charles Wang z firmy Fivetran, „połączenie transformacji z ładowaniem w dokładnym kroku może zachować pamięć i środki obliczeniowe, ale wprowadza ogromną kruchość do przepływu pracy w inżynierii informacyjnej. Oznacza to również, że pakiet oprogramowania wykorzystywany do transformacji jest zwykle tworzony przy użyciu języków skryptowych, takich jak Python i Java. Ponadto transformacje w ETL mogą wymagać wspaniałej oferty wyrafinowanej orkiestracji z wykorzystaniem instrumentów takich jak Airflow”.
ETL zwykle obejmuje również świetną ofertę kodu na zamówienie. Dlatego też jednym z podstawowych problemów tradycyjnego ETL jest dostępność. Rzadkie, drogie oznacza, że inżynierowie i naukowcy chcą być zaangażowani.
Dodatkowa trudność dotyczy okazji do zmiany sytuacji. Konwencjonalne zabiegi ETL związane z lokalnymi magazynami informacji są zwykle szczególnie czasochłonne. Praca z ETL obejmuje również regularną konserwację rutynową i może wprowadzać złożoność.
Współczesne techniki transformacji:
Przechowywanie jest zwyczajowo wygórowane. Nagrodą ETL dla firm było to, że nie musieli ładować całej swojej wiedzy do ostatecznej lokalizacji. Zostało to teraz ulepszone przez systemy w chmurze. Widzimy ogromną poprawę we wdrażaniu chmury w Republice Południowej Afryki, a opłaty za inżynierię wyraźnie spadają. Niższe wydatki umożliwiają firmom ładowanie wszystkich informacji do chmury, bez konieczności zwracania uwagi na koszty przechowywania.
Sugeruje to, że w dzisiejszym przepływie pracy ELT, surowa wiedza jest przekształcana w gotowe do badania projekty detali zaraz po załadowaniu. W hurtowni wiedza może zostać przerobiona przy użyciu języka SQL, który dzięki intuicyjnej składni zależnej od języka angielskiego może być stosowany przez znacznie większą liczbę osób. Transformacja może w rezultacie zostać przeprowadzona przez użytkowników organizacji znających język SQL, a nie tylko przez tych, którzy mają know-how w zakresie kodowania.
Transformacja informacji w dzisiejszych czasach wykorzystuje głównie zasoby i systemy oparte na chmurze. Łącznie składają się one na to, co określa się mianem współczesnego stosu faktów (MDS).
Centralnym elementem tego MDS jest wysoce skuteczny system wiedzy w chmurze, zwykle magazyn w chmurze, który może również obejmować jeziora szczegółów. Wiedza jest do niego ładowana z szeregu programów zasobów, w tym baz danych, programów internetowych i interfejsów API. W tym celu wykorzystywana jest renomowana warstwa transformacji do przekształcania nieprzetworzonej wiedzy w zestawy danych obejmujące wszystkie zapytania. I wreszcie, rozwiązanie do analizy i wizualizacji opartej na współpracy dla małych firm umożliwia firmie interakcję z wiedzą i wyciąganie praktycznych spostrzeżeń we wnioskach firmy informacyjnej.

W swoim krótkim artykule określanym jako Szczegóły Transformacja Przekształcona, Wang bierze pod uwagę, że MDS przekazuje informacje w następujących etapach:
- Zasoby – szczegóły z operacyjnych baz danych, aplikacji SaaS, śledzenie okazji
- Potok wiedzy – wydobywa fakty z zasobów i gromadzi je w hurtowni informacji, czasem je normalizując
- Hurtownia danych – przechowuje fakty w relacyjnych bazach danych zoptymalizowanych pod kątem analityki
- Urządzenie do transformacji wiedzy – oprogramowanie zależne od SQL, które wykorzystuje dane ze źródła do tworzenia nowych modeli faktów w hurtowni informacji
- Zasób analityczny – narzędzia do generowania historii i wizualizacji, takie jak małe platformy Business Intelligence
Transformacja w ramach magazynu detali:
Transformacje są dostosowywane w celu wygenerowania określonych projektów informacji, które organizacje muszą mieć do analizy. Współczesne ELT oddziela ekstrakcję i ładowanie od transformacji. Może to umożliwić firmom zautomatyzowanie i outsourcing faz ekstrakcji i ładowania metody integracji danych. Następnie mogą użyć skoncentrowanego urządzenia do transformacji opartego głównie na języku SQL, gdy szczegóły znajdują się już w magazynie.
Kluczową przewagą ELT jest to, że fakty zasadniczo pozostają w postaci granularnej, ponieważ nie przeszły dużej transformacji przed załadowaniem. W przypadku zwykłego ETL firma może zebrać odrębną wiedzę przed załadowaniem, a zatem całkowicie porzucić swoją pierwszą szczegółowość.
Nowa architektura ELT zapewnia również znaczną funkcjonalność, elastyczność i pozytywne aspekty cenowe. Ładowanie jest szybkie, a organizacje mogą zachować całą swoją wiedzę w magazynie informacji, nawet tę, której być może obecnie nie muszą mieć.
„Z grubsza mówiąc, przerobione style informacji w samej hurtowni informacji mogą być widokami lub widokami zmaterializowanymi” — zauważa Wang. Dalej wyjaśnia, że za każdym razem, gdy dana osoba uzyskuje dostęp do kasy, hurtownia danych uruchamia zapytanie, aby zwrócić odpowiednie informacje. Te widoki nie są zapisywane. „Na idealnej ziemi z zerową latencją i nieograniczonymi środkami obliczeniowymi wszystkie transformacje byłyby w zasadzie widokami” – dodaje.
W przeciwieństwie do tego, zmaterializowane widoki są zapisywane na dysku, ponieważ widoki tworzone w locie z ogromnego stołu lub wyrafinowanego pytania mogą spowodować zatkanie magazynów szczegółów.
EtLT:
ELT powinien być prawdopodobnie określany jako EtLT w większości scenariuszy, ponieważ niektóre lekkie transformacje lub normalizacje są często przeprowadzane przed załadowaniem wiedzy. Eliminuje to nadmiarowość, duplikaty i wartości pochodne. Organizuje również tabele z faktów w możliwie najjaśniejszy zestaw wzajemnych relacji, dzięki czemu analitycy mogą wygodnie interpretować bazowy produkt danych aplikacji zasobów i odpowiednio konstruować nowe typy informacji przygotowane do oceny.
„Wyjścia rurociągów wydobywczych i załadunkowych muszą być ustandaryzowane, jeśli zlecone na zewnątrz, automatyczny ELT ma wykonać zadanie”, stwierdza Wang. „Aby skutecznie znormalizować informacje z zasobu, trzeba mieć dogłębną wiedzę na temat fundamentalnego modelu działania i szczegółów aplikacji zaopatrzeniowej. Idealnym sposobem na obejście tego wyzwania jest zlecenie wydobycia i załadowania na zewnątrz zespołu, który intensywnie zetknął się z inżynierią informatyczną dla tego określonego zasobu”.
Specjaliści IT, Keyrus