Cloud transformă detaliile pe cap
Publicat: 2021-12-28Metoda comună de transformare a informațiilor de extragere, transformare completă și încărcare (ETL) este în prezent transformată rapid într-o întorsătură la modă, activată de sistemele cloud.
Cheltuielile reduse ale Cloud-ului, adaptabilitatea și scalabilitatea sa și capacitatea uriașă de procesare a depozitelor de cunoștințe din cloud au determinat o schimbare principală: capacitatea de a încărca toate faptele în cloud, chiar înainte de a-l transforma. Această dezvoltare înseamnă că numai ETL a fost transformat – în extracție, încărcare și transformare completă sau ELT.
ELT oferă o serie de recompense, împreună cu păstrarea granularității faptelor, necesități minime pentru inginerii de aplicații costisitoare și situații de execuție a proiectelor reduse considerabil.
Transformarea informațiilor:
Datele sunt esențiale pentru corporații, care le folosesc pentru a-și recunoaște clienții, pentru a determina noi perspective și pentru a-i ajuta pe factorii de decizie cu date vitale pentru misiune și actuale. Cu toate acestea, pentru a evalua datele, acestea trebuie mai întâi structurate. Dorește să fie înțeles, astfel încât să poată fi tras în tablouri de bord, experiențe și stiluri predictive.
Provocarea este că faptele negătite nu se prezintă ca date fantastic formatate, utilizabile. Acesta este locul în care ajunge transformarea datelor. Detaliile brute dezordonate doresc să fie reproiectate în reprezentări ale realității care îi ajută pe oameni să atingă ambiții distincte.
Această transformare poate avea loc fie înainte ca faptele să fie încărcate în locația sa, în general un depozit de detalii, fie mai târziu.
ETL standard:
În ETL convențional, informațiile sunt remodelate în modele de cunoștințe pregătite pentru examinare chiar înainte de a fi încărcate. După cum notează Charles Wang de la Fivetran, „combinarea transformării cu încărcarea în pasul exact poate păstra stocarea și mijloacele de calcul, dar introduce o cantitate excelentă de fragilitate în fluxul de lucru de inginerie a informațiilor. Acest lucru înseamnă, de asemenea, că pachetul software utilizat pentru transformări este de obicei creat utilizând limbaje de scriptare precum Python și Java. În plus, transformările în ETL ar putea necesita o ofertă grozavă de orchestrație sofisticată, folosind instrumente de tipul Airflow.”
ETL implică în mod normal și o ofertă grozavă de cod personalizat. O persoană din problemele principale ale ETL tradițional este, prin urmare, accesibilitatea. Rare, cu preț ridicat înseamnă că inginerii și oamenii de știință doresc să fie implicați.
O dificultate suplimentară se referă la ocaziile de întoarcere. Tratamentele ETL convenționale implicate în depozitele de informații la sediu sunt în mod normal consumatoare de timp. Lucrul cu ETL implică, de asemenea, întreținere regulată de rutină și poate introduce complexitate.
Tehnici moderne de transformare:
De obicei, stocarea a fost la un preț prohibitiv. Recompensa ETL pentru companii a fost că nu trebuiau să-și încarce toate cunoștințele în locația finală. Acest lucru a fost îmbunătățit acum de sistemele cloud. Observăm o îmbunătățire enormă a adoptării cloud-ului în Africa de Sud, iar taxele de inginerie scad considerabil. Cheltuielile mai mici fac posibil ca companiile să își încarce toate informațiile în cloud, fără a fi la fel de conștiente de cheltuielile de stocare.
Acest lucru sugerează că în fluxul de lucru ELT actual, cunoștințele brute sunt remodelate în proiecte de detalii complet gata de examinare imediat după ce au fost încărcate. Când se află în depozit, cunoștințele pot fi reluate utilizând SQL, care, datorită sintaxei intuitive dependente de engleză, poate fi aplicat de o varietate semnificativ mai largă de oameni. Ca rezultat, transformarea poate fi efectuată de utilizatorii organizației cu cunoștințe SQL și nu numai de aceștia cu cunoștințe de codare.
Transformarea informațiilor în zilele noastre, astfel încât să folosească în mare parte resurse și sisteme bazate pe cloud. Acestea alcătuiesc împreună ceea ce se numește stiva de fapte moderne (MDS).
Centrul acestui MDS este un sistem de cunoștințe în cloud extrem de eficient, de obicei un depozit în cloud care poate implica și detalii lacuri. Cunoștințele sunt încărcate în el dintr-o serie de programe de resurse, inclusiv baze de date, programe web și API-uri. Pentru a face acest lucru, se folosește un strat de transformare de renume pentru a transforma cunoștințele neprelucrate în seturi de date de interogare. Și, în cele din urmă, o soluție colaborativă de vizualizare și inteligență pentru afaceri mici permite companiei să interacționeze cu cunoștințele și să tragă informații utile pentru concluziile companiei de informare.

În scurtul său articol identificat ca Detalii Transformare explicată, Wang a subliniat că MDS-ul canalizează informațiile prin următoarele etape:
- Resurse – detalii din baze de date operaționale, aplicații SaaS, urmărire ocazie
- Conducta de cunoștințe – extrage fapte din resurse și le pune în masă în depozitul de informații, uneori normalizându-le
- Depozit de date – stochează fapte într-o bază de date relațională optimizată pentru analiză
- Dispozitiv de transformare a cunoștințelor – un software dependent de SQL care utilizează date de la sursă pentru a realiza noi modele de fapte în depozitul de informații
- Resurse de analiză – instrumente pentru generarea de povești și vizualizări, astfel de platforme de inteligență pentru afaceri mici
Transformare in cadrul depozitului de detalii:
Transformările sunt personalizate pentru a genera anumite modele de informații pe care organizațiile trebuie să le aibă pentru analiză. ELT contemporan separă extracția și încărcarea de transformare. Acest lucru poate face posibil pentru companii să automatizeze și să externalizeze fazele de extracție și încărcare ale metodei de integrare a datelor. Ei pot folosi apoi un dispozitiv de transformare bazat în principal pe SQL în momentul în care detaliile sunt deja în depozit.
Un avantaj cheie al ELT este că faptele rămân practic de tip granular datorită faptului că nu au trecut printr-o mare transformare înainte de a fi încărcate. Cu ETL obișnuit, este posibil ca o afacere să fi acumulat cunoștințe distincte înainte de încărcare, renunțând astfel complet la prima granularitate.
Noua arhitectură ELT oferă, de asemenea, funcționalitate substanțială, flexibilitate și aspecte pozitive legate de preț. Încărcarea este rapidă, iar organizațiile își pot păstra toate cunoștințele în depozitul de informații, chiar și cele pe care este posibil să nu le aibă în prezent.
„În linii mari, stilurile de informații reelaborate doar în depozitul de informații pot fi vizualizări sau vederi materializate”, notează Wang. El continuă să precizeze că de fiecare dată când o persoană accesează o casă de plată, depozitul de date execută o interogare pentru a returna informațiile relevante. Aceste vizualizări nu sunt salvate. „Într-un pământ ideal cu latență zero și mijloace de calcul nerestricționate, toate transformările ar fi practic vederi”, adaugă el.
În schimb, punctele de vedere materializate sunt salvate pe disc din motivul că vizualizările create din mers dintr-o masă uriașă sau dintr-o întrebare sofisticată pot induce detaliile depozitelor să se sufoce.
EtLT:
ELT ar trebui probabil să fie denumit EtLT în majoritatea scenariilor, deoarece o transformare sau normalizare cu greutate redusă este adesea efectuată înainte de încărcarea cunoștințelor. Acest lucru elimină redundanțele, duplicatele și valorile derivate. De asemenea, organizează tabele din fapte în cel mai clar set fezabil de interrelații, astfel încât analiștii să poată interpreta în mod convenabil produsul de date subiacent al aplicației de resurse și să construiască noi tipuri de informații pregătite pentru evaluare în consecință.
„Ieșirile conductelor de extracție și încărcare trebuie să fie standardizate dacă sunt externalizate, ELT automat este pentru a duce treaba la bun sfârșit”, afirmă Wang. „Pentru a normaliza în mod eficient informațiile dintr-o resursă, trebuie să aveți o cunoaștere aprofundată a modului de funcționare și a detaliilor fundamentale ale aplicației de furnizare. Modul ideal de a evita această provocare este de a externaliza extracția și încărcarea unei echipe care are o întâlnire intensivă cu ingineria informațiilor pentru resursa respectivă.”
Specialiști IT, Keyrus