Errore nell'importazione XML di Tourplan per cataloghi di fornitori di grandi dimensioni e pipeline di importazione in blocchi che impediva i timeout

Pubblicato: 2025-11-25

Nel frenetico mondo della tecnologia dei viaggi, in cui i dati di centinaia di fornitori devono essere acquisiti e aggiornati costantemente, prestazioni e affidabilità diventano fondamentali. Molte aziende si affidano a Tourplan, un sistema leader di gestione dei viaggi, per gestire i contenuti dei fornitori tramite funzionalità di importazione XML. Tuttavia, con l’aumento delle dimensioni dei cataloghi dei fornitori, che a volte raggiungono centinaia di migliaia di prodotti, il tradizionale processo di importazione XML ha iniziato a fallire. Questo collo di bottiglia ha spinto gli sviluppatori a implementare una pipeline di importazione più intelligente e suddivisa in blocchi per mantenere la stabilità e le prestazioni del sistema.

TL;DR

Durante l'importazione di cataloghi di fornitori di grandi dimensioni in Tourplan tramite XML, molte aziende hanno dovuto affrontare ripetuti guasti ed errori di timeout. Il problema derivava dall'incapacità del sistema di gestire enormi payload XML in un'unica transazione. L'introduzione di una pipeline di importazione in blocchi, in cui i dati vengono suddivisi in parti più piccole e gestibili, ha consentito un'elaborazione corretta senza timeout. Questa soluzione ha migliorato sia l'affidabilità che la scalabilità per gli utenti Tourplan che gestiscono grandi volumi di dati dei fornitori.

La sfida con le importazioni XML su larga scala

Fondamentalmente, la funzione di importazione dei dati XML in Tourplan è stata progettata per facilitare l'automazione dell'acquisizione dei contenuti dei fornitori. I fornitori genererebbero file XML contenenti enormi set di dati: hotel, escursioni, strutture dei prezzi, regole stagionali, calendari di disponibilità e altro ancora. Questi file sono essenziali per le compagnie di viaggio per mantenere aggiornati gli inventari.

Tuttavia, molti team hanno iniziato a riscontrare un problema critico: con l'aumento delle dimensioni di questi file XML, il processo di importazione ha iniziato a fallire a causa di timeout, pressione della memoria sui server o arresti anomali. Il problema alla radice si riduce ad alcune limitazioni chiave:

Importazioni a thread singolo: l'importazione XML di Tourplan ha elaborato l'intero file in una volta sola, consumando vaste risorse.
Nessun monitoraggio dei progressi: una volta avviato il processo di importazione, non c'era modo di metterlo in pausa, riprenderlo o ripristinarlo in modo corretto dopo un errore.
Mancanza di meccanismi di batching: la pipeline di importazione presupponeva che tutti i dati potessero essere analizzati e convalidati in memoria.

Il risultato? Importazioni non riuscite, set di dati danneggiati e un arretrato di aggiornamenti dei fornitori. Il semplice aumento delle risorse del server non era una soluzione praticabile a lungo termine.

Sintomi che indicavano un collo di bottiglia

Sono emersi diversi sintomi chiari che indicavano un collo di bottiglia sistemico nella pipeline di importazione di Tourplan:

Errori di timeout: i processi di importazione verrebbero eseguiti per ore solo per essere terminati dai timer di watchdog del server.
Inserimento parziale dei dati: i team hanno notato che mentre alcuni record venivano aggiornati, altri rimanevano obsoleti, con conseguenti prezzi e disponibilità incoerenti.
Aumento dei ticket di supporto: gli utenti finali hanno iniziato a notare anomalie negli itinerari e nei preventivi generati da cataloghi obsoleti.

Con la posta in gioco sempre più alta e le dimensioni del catalogo in aumento anno dopo anno, era necessario sviluppare un metodo più scalabile e resiliente.

La soluzione: una pipeline di importazione in blocchi

Il ripensamento dell'architettura di importazione ha portato a una conclusione fondamentale: se i dati potessero essere elaborati in fasi o blocchi , il rischio di timeout e arresti anomali delle prestazioni potrebbe essere notevolmente mitigato. Questa idea ha dato vita alla nuova pipeline di importazione in blocchi.

Cos'è il Chunking? Nel contesto delle importazioni di dati XML, la suddivisione in blocchi si riferisce alla suddivisione di file di grandi dimensioni in segmenti più piccoli, separati logicamente, che vengono elaborati uno alla volta. Ogni segmento potrebbe rappresentare un tipo specifico di dati (hotel, tariffe, calendari) o anche porzioni di tipi di dati identici (ad esempio, 5.000 oggetti hotel per blocco).

La pipeline di importazione in blocchi ha seguito diverse best practice:

Fase di pre-elaborazione: il file XML originale viene prima analizzato e suddiviso utilizzando un parser che identifica punti di interruzione logici come tag di chiusura o raggruppamenti di oggetti predefiniti.
Elaborazione basata su coda: ogni blocco risultante viene aggiunto a una coda di lavoro ed elaborato in modo asincrono per evitare di sovraccaricare la memoria di sistema.
Punti di controllo a prova di errore: ogni blocco trasporta metadati per il controllo e può essere ritentato in modo indipendente in caso di errore.
Monitoraggio e registrazione dei progressi: sono state implementate dashboard per monitorare il successo/fallimento di ciascun blocco per la massima trasparenza.

Dettagli di implementazione tecnica

Concentriamoci su come ciò sia stato tecnicamente ottenuto.

1. Meccanismo di suddivisione in blocchi

Utilizzando un parser di streaming XML (come SAX o StAX in Java o lxml in Python), il file veniva letto riga per riga invece di essere caricato in memoria tutto in una volta. I nodi logici (ad esempio, <Hotel>, <Escursione>) sono stati estratti in file separati o blocchi di memoria come documenti autonomi.

2. Coda di lavoratori asincroni

Una coda di lavori, alimentata da strumenti come RabbitMQ o AWS SQS, ha gestito l'invio di lavori in blocchi. Più lavoratori potrebbero essere eseguiti contemporaneamente per elaborare blocchi su diversi core della CPU o nodi del cluster, migliorando drasticamente le prestazioni.

3. Quadro di gestione degli errori

Se un blocco falliva, veniva registrato separatamente e poteva essere rielaborato senza ripetere l'intera importazione. Ciò ha ridotto il rischio e accorciato significativamente i tempi di recupero.

Vantaggi riscontrati nella produzione

Dopo aver implementato il sistema di importazione a blocchi, diverse compagnie di viaggio hanno osservato notevoli miglioramenti:

Riduzione del 90% degli errori di importazione: le importazioni che in precedenza non riuscivano a causa del timeout ora vengono completate senza problemi.
Recupero più rapido: i blocchi non riusciti possono essere ritentati immediatamente, consentendo una correzione degli errori più agile.
Carico del server ridotto: poiché i blocchi erano più piccoli ed elaborati in modo asincrono, l'utilizzo della memoria e della CPU si è stabilizzato.
Trasparenza: i log e i dashboard di importazione hanno fornito una chiara visibilità su quali dati sono stati elaborati e quali no.

Questo approccio si è rivelato particolarmente efficace durante le stagioni di punta, quando gli aggiornamenti dei fornitori sono frequenti e urgenti. I team potevano pianificare importazioni orarie o notturne senza timore di arrestare i sistemi o generare itinerari danneggiati.

Lezioni apprese

Questa esperienza ha offerto diverse lezioni fondamentali per i processi ETL (Extract, Transform, Load) nelle moderne piattaforme di viaggio:

La scalabilità è importante: ciò che funziona per migliaia di record potrebbe non funzionare per milioni di record: i sistemi devono evolversi con il volume di dati.
L'osservabilità è fondamentale: log, parametri e dashboard dovrebbero essere fondamentali per qualsiasi sistema di importazione automatizzata.
Progettare per il fallimento: tutto dovrebbe essere ripetibile e nessuna operazione dovrebbe mai presumere una “esecuzione perfetta”.

Miglioramenti futuri e passi successivi

Anche se la pipeline in blocchi ha rappresentato un punto di svolta, l’innovazione non si è fermata qui. Diverse aziende stanno ora esplorando:

Integrazioni API del fornitore in tempo reale: bypassando del tutto i dump dei file XML sincronizzando i dati tramite API REST.
Convalida dei dati all'edge: implementazione della convalida pre-importazione utilizzando XSD e schema JSON per ridurre gli scenari di garbage-in.
Infrastruttura con scalabilità automatica: utilizzo di Kubernetes o framework serverless per ridimensionare dinamicamente il numero di lavoratori di importazione in base al volume del lavoro.

Conclusione

I dati sono la linfa vitale di qualsiasi moderna compagnia di viaggi. Man mano che gli ecosistemi dei fornitori diventano sempre più complessi, sistemi come Tourplan devono evolversi per gestire aggiornamenti sempre più grandi e frequenti. Il passaggio a una pipeline di importazione in blocchi non solo ha risolto il problema dei timeout dell'importazione XML, ma ha anche aperto le porte a un ecosistema di gestione dei dati più robusto, efficiente e scalabile.

Le aziende che hanno adottato questa architettura stanno ora elaborando le importazioni più velocemente, con maggiore precisione e tempi di attività, trasformando un precedente punto critico in un vantaggio competitivo.