Le cloud bouleverse la transformation des détails
Publié: 2021-12-28La méthode commune de transformation de l'information d'extraction, de transformation complète et de chargement (ETL) est en train d'être rapidement renversée dans une tournure à la mode rendue possible par les systèmes cloud.
La diminution des dépenses du cloud, son adaptabilité et son évolutivité, ainsi que l'énorme capacité de traitement des entrepôts de connaissances cloud, ont entraîné un changement majeur : la capacité de charger tous les faits dans le cloud, juste avant de le transformer. Ce développement signifie que seul l'ETL a été transformé en extrait, chargement et transformation complète, ou ELT.
L'ELT offre un certain nombre de récompenses, y compris la conservation de la granularité des faits, un besoin minimisé pour les ingénieurs d'application coûteux et des situations d'exécution de projet sensiblement réduites.
Transformation d'informations :
Les données sont essentielles pour les entreprises, qui les utilisent pour reconnaître leurs clients, identifier de nouveaux prospects et aider les décideurs avec des données vitales et à jour. Cependant, pour évaluer des données, il faut d'abord qu'elles soient structurées. Il souhaite être compris afin de pouvoir être intégré dans des tableaux de bord, des expériences et des styles prédictifs.
Le défi est que les faits bruts ne se présentent pas comme des données utilisables au format fantastique. C'est là que la transformation des données arrive. Les détails bruts désordonnés doivent être retravaillés en représentations de la réalité qui aident les gens à réaliser des ambitions distinctes.
Cette transformation peut simplement être effectuée soit avant que les faits ne soient chargés à leur emplacement, généralement un entrepôt de détails, soit plus tard
ETL standard :
Dans l'ETL classique, les informations sont transformées en modèles de connaissances prêts pour l'examen juste avant d'être chargées. Comme le note Charles Wang de Fivetran, « combiner la transformation avec le chargement à l'étape exacte peut préserver les moyens de stockage et de calcul, mais introduit une grande fragilité dans le flux de travail d'ingénierie de l'information. Cela signifie également que le progiciel utilisé pour les transformations est généralement créé à l'aide de langages de script tels que Python et Java. De plus, les transformations d'ETL pourraient nécessiter une formidable offre d'orchestration sophistiquée utilisant des instruments tels que Airflow.
ETL implique normalement également une offre formidable de code personnalisé. L'un des principaux enjeux de l'ETL traditionnel est donc l'accessibilité. Rare, coûteux signifie que les ingénieurs et les scientifiques veulent être impliqués.
Une difficulté supplémentaire concerne les occasions de retournement. Les traitements ETL conventionnels impliqués dans les entrepôts d'informations sur site prennent normalement beaucoup de temps. Travailler avec ETL implique également une maintenance de routine régulière et peut introduire de la complexité.
Techniques modernes de transformation :
Le stockage a toujours été à un prix prohibitif. La récompense d'ETL pour les entreprises était qu'elles n'avaient pas à charger toutes leurs connaissances à l'emplacement final. Cela a maintenant été amélioré par les systèmes cloud. Nous constatons une énorme amélioration de l'adoption du cloud en Afrique du Sud et les frais d'ingénierie diminuent sensiblement. Des coûts réduits permettent aux entreprises de charger toutes leurs informations dans le cloud, sans avoir à être aussi conscientes des coûts de stockage.
Cela suggère que dans le flux de travail ELT actuel, les connaissances brutes sont transformées en conceptions détaillées prêtes pour l'examen juste après leur chargement. Une fois dans l'entrepôt, les connaissances peuvent être retravaillées à l'aide de SQL, qui, grâce à sa syntaxe intuitive dépendant de l'anglais, peut être appliqué par un éventail beaucoup plus large de personnes. La transformation peut donc être effectuée par des utilisateurs de l'organisation maîtrisant le SQL et pas seulement par ceux qui ont un savoir-faire en matière de codage.
De nos jours, la transformation de l'information exploite donc principalement les ressources et les systèmes basés sur le cloud. Celles-ci constituent collectivement ce que l'on appelle la pile des faits modernes (MDS).
Au centre de ce MDS se trouve un système de connaissances cloud très efficace, généralement un entrepôt cloud qui peut également impliquer des lacs de détails. Les connaissances y sont chargées à partir d'une gamme de programmes de ressources, notamment des bases de données, des programmes Web et des API. Pour ce faire, une couche de transformation réputée est utilisée pour transformer les connaissances brutes en ensembles de données d'ensemble de requêtes. Et enfin, une solution collaborative d'intelligence d'affaires et de visualisation pour petites entreprises permet à l'entreprise d'interagir avec les connaissances et de tirer des informations exploitables sur les conclusions de l'entreprise d'information.

Dans son court article intitulé Details Transformation Spelled out, Wang souligne que le MDS canalise les informations au moyen des étapes suivantes :
- Ressources - détails des bases de données opérationnelles, applications SaaS, suivi des occasions
- Pipeline de connaissances - extrait les faits des ressources et les rassemble dans l'entrepôt d'informations, en les normalisant parfois
- Entrepôt de données - stocke les faits dans des bases de données relationnelles optimisées pour l'analyse
- Dispositif de transformation des connaissances - un logiciel dépendant de SQL qui utilise les données de la source pour créer de nouveaux modèles de faits dans l'entrepôt d'informations
- Ressource d'analyse - outils pour générer des histoires et des visualisations, telles que des plates-formes d'intelligence d'affaires pour petites entreprises
Transformation au sein de l'entrepôt de détails :
Les transformations sont personnalisées pour générer certaines conceptions d'informations dont les organisations ont besoin pour l'analyse. L'ELT contemporain sépare l'extraction et le chargement de la transformation. Cela peut permettre aux entreprises d'automatiser et d'externaliser les phases d'extraction et de chargement de la méthode d'intégration de données. Ils peuvent ensuite utiliser un outil de transformation basé principalement sur SQL au moment où les détails sont déjà dans l'entrepôt.
Un avantage clé de l'ELT est que les faits restent essentiellement sous forme granulaire car ils n'ont pas subi de transformation importante avant d'être chargés. Avec l'ETL commun, une entreprise peut avoir agrégé des connaissances distinctes avant le chargement, abandonnant ainsi complètement sa première granularité.
La nouvelle architecture ELT offre également des fonctionnalités, une flexibilité et des aspects positifs en termes de prix. Le chargement est rapide et les organisations peuvent conserver toutes leurs connaissances dans l'entrepôt d'informations, même celles dont elles n'ont peut-être pas besoin actuellement.
"En gros, les styles d'information retravaillés dans l'entrepôt d'informations uniquement peuvent être des vues ou des vues matérialisées", note Wang. Il poursuit en précisant que chaque fois qu'une personne accède à une caisse, l'entrepôt de données exécute une requête pour renvoyer les informations pertinentes. Ces vues ne sont pas enregistrées. "Dans une Terre idéale avec une latence nulle et des moyens de calcul illimités, toutes les transformations seraient essentiellement des vues", ajoute-t-il.
En revanche, les vues matérialisées sont enregistrées sur disque car les vues créées à la volée à partir d'un grand tableau ou d'une question sophistiquée peuvent étouffer les entrepôts de détails.
EtLT :
ELT devrait probablement être appelé EtLT dans la plupart des scénarios, car une transformation légère, ou normalisation, est souvent effectuée avant que les connaissances ne soient chargées. Cela élimine les redondances, les doublons et les valeurs dérivées. Il organise également des tableaux à partir des faits dans l'ensemble d'interrelations le plus clair possible afin que les analystes puissent facilement interpréter le produit de données sous-jacent de l'application de ressources et construire en conséquence de nouveaux types d'informations préparés pour l'évaluation.
"Les sorties des pipelines d'extraction et de chargement doivent être standardisées si elles sont externalisées, l'ELT automatique doit faire le travail", déclare Wang. « Pour normaliser efficacement les informations d'une ressource, vous devez avoir une connaissance approfondie du fonctionnement fondamental et du modèle de détails de l'application d'approvisionnement. Le moyen idéal pour contourner ce défi est de sous-traiter l'extraction et le chargement à une équipe qui a une rencontre intensive avec l'ingénierie de l'information pour cette certaine ressource.
Informaticiens, Keyrus