{"id":8710,"date":"2026-06-17T08:00:00","date_gmt":"2026-06-17T06:00:00","guid":{"rendered":"https:\/\/blog.besharp.it\/?p=8710"},"modified":"2026-06-17T11:19:04","modified_gmt":"2026-06-17T09:19:04","slug":"telemetria-enterprise-su-aws-gestire-backfill-di-dati-massivi-con-ecs-e-databricks-senza-far-esplodere-i-costi","status":"publish","type":"post","link":"https:\/\/blog.besharp.it\/it\/telemetria-enterprise-su-aws-gestire-backfill-di-dati-massivi-con-ecs-e-databricks-senza-far-esplodere-i-costi\/","title":{"rendered":"Telemetria Enterprise su AWS: Gestire backfill di dati massivi con ECS e Databricks senza far esplodere i costi"},"content":{"rendered":"\n
Quando si progetta un’architettura di data ingestion per grandi volumi di dati, la teoria e la pratica spesso si scontrano. Sulla carta, i servizi cloud nativi offrono soluzioni pronte all’uso per qualsiasi scenario; nel mondo reale, ci si trova invece a fare i conti con limiti di throughput, eccezioni impreviste e, soprattutto, con l’impatto economico delle risorse configurate.<\/p>\n\n\n\n
In questo articolo voglio raccontarvi il dietro le quinte di un progetto di ingestion e trasformazione dei dati che abbiamo completato di recente per un nostro cliente, concentrandoci su una sfida architetturale specifica: il recupero dello storico dei dati e la gestione dei costi di AWS Kinesis Firehose.<\/p>\n\n\n\n
Il contesto e l’architettura iniziale<\/h2>\n\n\n\n
Il cliente aveva l’esigenza di centralizzare i dati di telemetria della propria flotta di veicoli aziendali. Questi dati venivano raccolti da un provider esterno e messi a disposizione tramite REST API. L’obiettivo era creare una pipeline capace di catturare questi dati in modalit\u00e0 quasi real-time (una sorta di CDC via API) e standardizzarli per l’analisi avanzata su Databricks.<\/p>\n\n\n\n
La strategia adottata per lo scarico consisteva nell’implementare una serie di servizi logici configurati per effettuare polling continuo sugli endpoint del provider: una volta avviati, questi componenti effettuavano chiamate cicliche per scaricare i dati a flusso continuo, mettendosi in attesa solo quando non risultavano nuovi record da recuperare.<\/p>\n\n\n\n
Per contestualizzare meglio il processo, ecco lo schema dell’architettura che illustra la pipeline descritta nei paragrafi seguenti.<\/p>\n\n\n\n
<\/p>\n\n\n
\n<\/figure>\n<\/div>\n\n\n
<\/p>\n\n\n\n
Per l’infrastruttura di calcolo abbiamo deciso di sfruttare le ECS Managed Instances<\/strong>, allora appena uscite.<\/p>\n\n\n\n
Questa funzionalit\u00e0 di Amazon ECS permette di orchestrare ed eseguire container Docker sfruttando una capacit\u00e0 di calcolo dedicata e ottimizzata, integrata direttamente all’interno di un cluster gestito da AWS. Per noi \u00e8 stata la soluzione ideale: ci ha permesso di isolare i microservizi di polling in un ambiente sicuro e circoscritto, mantenendo tutta la flessibilit\u00e0, la scalabilit\u00e0 e la semplicit\u00e0 di gestione tipiche dell’ecosistema AWS.<\/p>\n\n\n\n