{"id":1966,"date":"2020-11-26T16:51:14","date_gmt":"2020-11-26T15:51:14","guid":{"rendered":"https:\/\/blog.besharp.it\/?p=1966"},"modified":"2021-03-17T15:30:58","modified_gmt":"2021-03-17T14:30:58","slug":"etl-orchestration-su-aws-con-aws-step-functions","status":"publish","type":"post","link":"https:\/\/blog.besharp.it\/it\/etl-orchestration-su-aws-con-aws-step-functions\/","title":{"rendered":"ETL Orchestration su AWS con AWS Step Functions"},"content":{"rendered":"\n<p>Negli ultimi anni data engineering, data governance e data analysis sono diventati importanti argomenti di discussione.<\/p>\n\n\n\n<p>La necessit\u00e0 di effettuare decisioni scaturite dall\u2019analisi dei dati, infatti, ha fatto crescere l\u2019esigenza di collezionare e analizzare dati in diversi modi ed AWS ha dimostrato un particolare interesse in questo campo, sviluppando diversi strumenti per raggiungere questi obiettivi di business.<\/p>\n\n\n\n<p>Prima di poter permettere a figure come i data analysts di esplorare e visualizzare i dati, \u00e8 necessario eseguire un passaggio cruciale. Questo processo \u00e8 generalmente chiamato <strong>ETL<\/strong> (<strong>extract<\/strong>, <strong>transform<\/strong>, and <strong>load<\/strong>) e, solitamente, \u00e8 molto lontano dall\u2019essere semplice da eseguire.<\/p>\n\n\n\n<p>Chi svolge queste operazioni ha la responsabilit\u00e0 dei seguenti compiti:<\/p>\n\n\n\n<ul class=\"wp-block-list\"><li><strong>Estrazione<\/strong>: i dati arrivano solitamente da numerose ed eterogenee fonti, come database, web spidering, flussi di dati, dati semi-strutturati eccetera.<br>Data la potenziale diversit\u00e0 delle sorgenti, una validazione dei dati che arrivano nel nostro dominio \u00e8 necessaria. In questo modo si eviter\u00e0 di introdurre informazioni con formati o schemi disomogenei.<\/li><li><strong>Trasformazione<\/strong>: dopo l\u2019estrazione dei file validi in uno storage intermedio, un insieme di trasformazioni vengono generalmente applicate sui dati ricevuti. Tipicamente, questo passaggio \u00e8 anche identificato come preparazione dei dati e comporta la rimozione di dati incompleti o inesatti, l\u2019aggregazione con altri dati, la deduplicazione dei record e tutti gli step di normalizzazione e codifica.<\/li><li><strong>Caricamento<\/strong>: infine, i dati in precedenza validati e trasformati vengono salvati nei data store persistenti. Questi data store possono essere di diversa natura in base alle necessit\u00e0 di business. Due dei pi\u00f9 comuni tipi di data storage per l&#8217;ETL sono i data warehouse e i data lake. I primi sono generalmente utilizzati per salvare dati con uno schema rigoroso in database relazionali come Amazon Redshift, mentre gli altri, molto utilizzati per machine learning, analisi esplorativa, analisi di big data e visualizzazione, sono comunemente formati da dati semi-strutturati. L\u2019abbinamento di Amazon S3 (per lo storage a basso costo) ed Amazon Athena (per le veloci query sui file con tecnologia serverless), permette un eccellente sviluppo di data lake su AWS.<\/li><\/ul>\n\n\n\n<div class=\"wp-block-image\"><figure class=\"aligncenter size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"929\" height=\"293\" src=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2020\/11\/etl.png\" alt=\"ETL process\" class=\"wp-image-1967\" srcset=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2020\/11\/etl.png 929w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2020\/11\/etl-400x126.png 400w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2020\/11\/etl-768x242.png 768w\" sizes=\"auto, (max-width: 929px) 100vw, 929px\" \/><\/figure><\/div>\n\n\n\n<h2 class=\"wp-block-heading\">ETL su AWS<\/h2>\n\n\n\n<p>Nell&#8217;introduzione abbiamo gi\u00e0 citato alcuni servizi AWS considerati importanti componenti di una infrastruttura dedicata al processo di ETL.<\/p>\n\n\n\n<p>Oltre a quelli visti, ne esistono altri diventati lo stato dell\u2019arte nella costruzione di pipeline di ingestion di dati. <\/p>\n\n\n\n<p>Vediamoli insieme all&#8217;inetrno di ciascuna fase del processo:<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">L&#8217;estrazione dei dati<\/h3>\n\n\n\n<p>L&#8217;estrazione efficace dei dati da cui un&#8217;azienda pu\u00f2 trarre vantaggio pu\u00f2 avvenire con diversi ritmi e dimensioni. Da centinaia di ordini al secondo inviati da un e-commerce durante il black Friday, all\u2019ingestion di report di business mensili. L\u2019infrastruttura che ospita il flusso di ETL deve essere sempre pronta ad accogliere le nuove informazioni nello storage intermedio.&nbsp;<\/p>\n\n\n\n<p>Alcuni servizi AWS possono aiutare ad assecondare le diverse necessit\u00e0 di business facendo convogliare tutti i dati in uno stesso posto, comunemente identificato con i bucket S3.<\/p>\n\n\n\n<p>In base alla mole dei dati che ci si aspetta, \u00e8 possibile incaricare diversi servizi AWS per la validazione dei file: per il miglior rapporto costo\/performance in caso di event-driven e piccoli file, sceglieremo AWS Lambda. Al contrario, quando ci si aspetta che i dati da gestire possano causare il superamento dei limiti computazionali del primo, sceglieremo AWS Glue con dei batch job schedulati.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">La trasformazione <\/h3>\n\n\n\n<p>La trasformazione dei dati in ingresso nella pipeline \u00e8 generalmente un lavoro pesante ed \u00e8, pertanto, eseguito in batch. Per questa ragione, i migliori candidati sono le risorse di Glue. AWS Glue \u00e8 basato su cluster serverless in grado di scalare i worker in maniera trasparente fino a raggiungere terabyte di RAM e migliaia di core.<\/p>\n\n\n\n<p>Per una scalabilit\u00e0 ottimale \u00e8 possibile far girare script Python o codice PySpark e Spark. Ricordiamo che i job di tipo PythonShell sono maggiormente indicati per carichi di grandezza medio-bassa perch\u00e9 non possono scalare oltre un solo worker (4 vCPU e 16 GB di RAM).<\/p>\n\n\n\n<p>Sebbene con Spark, Glue Job, e Glue Studio sia possibile creare job di trasformazione in maniera molto meticolosa, \u00e8 possibile che il nuovo servizio AWS Glue DataBrew possa soddisfare meglio queste necessit\u00e0 grazie anche alla sua interfaccia web completa e chiara.<\/p>\n\n\n\n<p>\u00c8 importante notare, per\u00f2, che per permettere ai Glue Job di avere accesso ai dati da un singolo punto, AWS Glue incorporer\u00e0 nella sua interfaccia il Data Catalog. Il Glue Data Catalog \u00e8 l\u2019archivio dei dati presenti nei nostri data store che \u00e8 poi usato per l\u2019ingestion. Per far s\u00ec che questo catalogo resti aggiornato, verr\u00e0 utilizzato un altro componente di AWS Glue: il Crawler. Sar\u00e0 quest&#8217;ulimo a dare la visibilit\u00e0 sui nuovi file e partizioni ai job che tenteranno di raggiungere i dati dalle sorgenti.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Il caricamento nelle destinazioni<\/h3>\n\n\n\n<p>Dopo il processo di trasformazione, uno specifico Glue Job, o lo stesso componente utilizzato nello step precedente, pu\u00f2 salvare i dati validati, puliti e trasformati nelle destinazioni per analisi e visualizzazione attraverso, per esempio, Amazon QuickSight.<\/p>\n\n\n\n<p>Per preservare la privacy sui dati sensibili che passano attraverso la pipeline, \u00e8 importante effettuare il set-up di misure di sicurezza come la cifratura con KMS per i dati at rest nei bucket e database e la protezione con SSL dei trasferimenti di dati in transit. In pi\u00f9, \u00e8 una buona pratica procedere con l&#8217;offuscazione delle informazioni personali salvate nel nostro dominio.<\/p>\n\n\n\n<div class=\"wp-block-image\"><figure class=\"aligncenter size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"975\" height=\"333\" src=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2020\/11\/etl1.png\" alt=\"ETL process on AWS\" class=\"wp-image-1969\" srcset=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2020\/11\/etl1.png 975w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2020\/11\/etl1-400x137.png 400w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2020\/11\/etl1-768x262.png 768w\" sizes=\"auto, (max-width: 975px) 100vw, 975px\" \/><\/figure><\/div>\n\n\n\n<h2 class=\"wp-block-heading\">Orchestrazione del processo di ETL su AWS<\/h2>\n\n\n\n<p>La gestione dei bit e byte che scorrono nella pipeline di ETL, non \u00e8 banale.<\/p>\n\n\n\n<p>Per applicare una corretta governance sui dati prodotti dal processo, occorre effettuare dei controlli di qualit\u00e0 ad-hoc. \u00c8 importante, infatti, controllare eventuali inadempimenti dei requisiti di business, come la mancanza di dati necessari nel data lake causati da errori di validazione.<\/p>\n\n\n\n<p>Con gli strumenti di AWS Glue \u00e8 possibile creare flussi e trigger per poter costruire delle pipeline di ingestion di dati. In questo caso, per\u00f2, le soluzioni possibili che si possono raggiungere sono molto limitate dalla mancanza di direttive che permettano i cicli, retries, gestione dell\u2019errore, e invocazione di altri servizi AWS al di fuori di AWS Glue.<\/p>\n\n\n\n<div class=\"wp-block-image\"><figure class=\"aligncenter size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"827\" height=\"467\" src=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2020\/11\/etl2.png\" alt=\"deduplicate and fix etl\" class=\"wp-image-1971\" srcset=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2020\/11\/etl2.png 827w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2020\/11\/etl2-400x226.png 400w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2020\/11\/etl2-768x434.png 768w\" sizes=\"auto, (max-width: 827px) 100vw, 827px\" \/><\/figure><\/div>\n\n\n\n<p>Non tutto per\u00f2 \u00e8 perduto: in AWS uno strumento che permette l\u2019orchestrazione scrupolosa di servizi serverless esiste. Parliamo di AWS Step Functions. Questo strumento permette la gestione di logiche di retry e gestione di errori, facilitando la reazione delle nostre applicazioni distribuite in caso di comportamenti inaspettati. <\/p>\n\n\n\n<p>Nelle sezioni seguenti, scopriremo e utilizzeremo le Step Functions per l\u2019orchestrazione di un caso realistico di ETL.<\/p>\n\n\n\n<p>Cominciamo!<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">AWS Step Functions<\/h3>\n\n\n\n<p>AWS Step Functions permette la costruzione di macchine a stati finiti altamente scalabili che, nel caso della configurazione express, pu\u00f2 gestire fino ad un centinaio di migliaia di cambi di stato al secondo.<\/p>\n\n\n\n<p>Un workflow costruito con questo servizio \u00e8 principalmente composto da:<\/p>\n\n\n\n<ul class=\"wp-block-list\"><li>Stati: gli step per cui si passa durante il workflow.<\/li><li>Direttive: branching, retries, gestione degli errori, elaborazione parallela e cicli.<\/li><li>Integrazioni con altri servizi: grazie a diverse <a href=\"https:\/\/docs.aws.amazon.com\/step-functions\/latest\/dg\/concepts-service-integrations.html\">integrazioni delle Step Functions con altri servizi AWS<\/a>, \u00e8 possibile invocare alcuni dei tanti servizi AWS serverless. Le quasi inevitabili funzioni Lambda sono una di questi e possono agire da invoker degli altri servizi AWS che non sono direttamente integrati con le Step Functions.<\/li><\/ul>\n\n\n\n<p>Tutti questi componenti, poi, sono collegati tramite Amazon State Language, un linguaggio basato sul JSON per generare la definizione di una Step Function.<\/p>\n\n\n\n<p>Inoltre, un aspetto molto importante di quest\u2019ultimo \u00e8 la possibilit\u00e0 di monitorare in tempo reale ogni esecuzione dalla console.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Il caso d\u2019uso<\/h2>\n\n\n\n<p>Mettiamoci ora nei panni di un architetto che deve sviluppare un flusso di ETL orchestrato. <\/p>\n\n\n\n<p>Analizziamo i requisiti di business del nostro cliente immaginario per poi creare una soluzione adatta.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Requisiti del cliente<\/h3>\n\n\n\n<p>Per il caso d\u2019uso che andremo ad architettare, faremo finta che il cliente abbia i seguenti requisiti di business in modo da guidare le nostre decisioni:<\/p>\n\n\n\n<ul class=\"wp-block-list\"><li>\u00c8 necessaria una tabella di audit in modo da essere sempre a conoscenza dello stato di ogni dataset. Questa potr\u00e0 essere in futuro utilizzata per la creazione di una interfaccia web utilizzata per fini di controllo.<\/li><li>In questo momento, i dati in ingresso possono essere divisi in:<ul><li>Dataset di tipo A: file giornalieri con dimensioni da 1 MB a 20 MB<\/li><li>Dataset di tipo B: report mensili con dimensioni da 15 MB a 50 MB<\/li><\/ul><\/li><li>I file non validi devono essere spostati in un bucket dei file invalidi per permettere una conseguente analisi<\/li><li>Una email di notifica deve essere inviata immediatamente in caso di fallimento di uno step<\/li><li>Le fasi di trasformazione e caricamento sono gestite con codice Spark fornito dagli analisti dell\u2019organizzazione cliente<\/li><\/ul>\n\n\n\n<h3 class=\"wp-block-heading\">Analisi dei requisiti<\/h3>\n\n\n\n<p>Per avere un audit trail dello stato di ogni dataset che passa nella pipeline, possiamo utilizzare una tabella DynamoDB. Questa tabella sar\u00e0 poi automaticamente popolata all\u2019inserimento di un nuovo file nel bucket di input tramite una funzione Lambda e la gestione dei Cloudwatch Event.<\/p>\n\n\n\n<p>Grazie alle direttive permesse da Step Functions per interfacciarsi con DynamoDB, \u00e8 possibile effettuare <em>get<\/em>, <em>insert<\/em>, <em>update<\/em> e <em>delete<\/em> dei record nelle tabelle dal flusso di orchestrazione. In questo modo sar\u00e0 possibile aggiornare direttamente lo stato di ogni file quando viene validato, trasformato o caricato.<br>La tabella sar\u00e0 strutturata nel seguente modo:<\/p>\n\n\n\n<ul class=\"wp-block-list\"><li>Tipo di dataset (giornaliero o mensile) come partition key<\/li><li>Nome del bucket e key del file come sort key<\/li><li>Stato dell\u2019ingestion impostato a NEW quando il file \u00e8 appena creato<\/li><li>Dimensione del file &#8211; pu\u00f2 essere utilizzato in futuro nel caso fosse necessario gestire dataset pi\u00f9 grandi. La nostra Step Function potr\u00e0 essere aggiornata per indirizzare questi dataset verso un Glue Job piuttosto che una Lambda.<\/li><\/ul>\n\n\n\n<div class=\"wp-block-image\"><figure class=\"aligncenter size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"225\" src=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2020\/11\/etl3-1024x225.png\" alt=\"DynamoDB Table for etl orchestration\" class=\"wp-image-1973\" srcset=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2020\/11\/etl3-1024x225.png 1024w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2020\/11\/etl3-400x88.png 400w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2020\/11\/etl3-768x169.png 768w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2020\/11\/etl3.png 1518w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/figure><\/div>\n\n\n\n<p>Guardando la dimensione dei due tipi di dataset che il cliente si aspetta, comunque, le funzioni Lambda sono il migliore candidato per raggiungere il miglior rapporto costo\/performance.<\/p>\n\n\n\n<p>Inoltre, le funzioni lambda possono essere adottate per reperire inizialmente la lista dei dataset che devono essere gestiti ed anche per muovere quelli scartati nella validazione nel bucket dei file invalidi.<\/p>\n\n\n\n<p>\u00c8 possibile impiegare l\u2019integrazione delle AWS Step Functions con SNS per notificare prontamente il cliente quando un stato di errore \u00e8 raggiunto a causa di un fallimento di uno degli step di ETL.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">La macchina a stati finiti<\/h3>\n\n\n\n<p>\u00c8 stato deciso di eseguire la Step Function in maniera schedulata, in modo da ridurre i costi di AWS Glue, gestendo i file in batch ad ogni run.<\/p>\n\n\n\n<p>Per poter validare tutti i nuovi file arrivati dopo l\u2019ultima esecuzione della Step Function, una funzione Lambda reperir\u00e0 i record che hanno ingestion_state impostato a NEW. In questo modo, il workflow sar\u00e0 capace di iterare attraverso la lista dei file appena reperita da Dynamo per eseguire le fasi di estrazione e validazione per ognuno di essi.<\/p>\n\n\n\n<p>Come \u00e8 possibile vedere dal diagramma degli stati, il risultato della lambda di validazione viene salvato nella tabella dynamo e poi usato per distinguere i file validi da quelli non validi.<\/p>\n\n\n\n<div class=\"wp-block-image\"><figure class=\"alignright size-large is-resized\"><img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2020\/11\/etl4.png\" alt=\"state diagram etl orchestration\" class=\"wp-image-1975\" width=\"548\" height=\"853\" srcset=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2020\/11\/etl4.png 651w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2020\/11\/etl4-193x300.png 193w\" sizes=\"auto, (max-width: 548px) 100vw, 548px\" \/><\/figure><\/div>\n\n\n\n<p>Nel caso la lambda di validazione dovesse andare nello stato di errore, ma il meccanismo di retry non si verifichi, il file sar\u00e0 comunque categorizzato come non valido ed automaticamente spostato nel bucket dei file non validi insieme all\u2019invio della notifica al cliente.<\/p>\n\n\n\n<p>Quando tutte le iterazioni sono completate e i file non validi sono stati scartati per una analisi aggiuntiva, sar\u00e0 eseguito il Crawler di Glue per poter permettere l\u2019aggiornamento del data catalog con i nuovi file.<\/p>\n\n\n\n<p>Al momento della scrittura di questo articolo, non esiste ancora una integrazione che permetta l\u2019esecuzione diretta del Crawler dalle Step Functions. Pertanto, spetter\u00e0 ad una funzione Lambda effettuare questa operazione. Attraverso uno stato di tipo wait, \u00e8 possibile specificare dopo quanto tempo verr\u00e0 controllato nuovamente lo stato del crawler in modalit\u00e0 polling.<\/p>\n\n\n\n<p>A questo punto, i dati sono validati e catalogati e siamo pronti per trasformarli e caricarli nel data lake.<\/p>\n\n\n\n<p>Le Step Function sono state recentemente arricchite con la possibilit\u00e0 di eseguire i Glue Job grazie ad una integrazione con AWS Glue. Questo ci permetter\u00e0 di eseguire gli script di trasformazione dei data analyst senza la necessit\u00e0 di una funzione Lambda nel mezzo per l\u2019invocazione.&nbsp;<\/p>\n\n\n\n<p>Infatti, l\u2019esecuzione sincrona dei servizi partendo da una Step Function permette alla macchina a stati finiti di fermarsi nello stato corrente finch\u00e9 il servizio chiamato non ha terminato il suo lavoro. In questo modo, avremo la possibilit\u00e0 di distinguere i Job eseguiti con successo da quelli falliti. Nel primo caso \u00e8 possibile proseguire nel workflow di ETL mentre, nel secondo, una notifica sar\u00e0 mandata nuovamente al cliente.<\/p>\n\n\n\n<p>Il prossimo passaggio \u00e8 necessario solo per permettere l\u2019auditing del processo di trasformazione e caricamento, infatti la Step Function gestir\u00e0 l\u2019aggiornamento della tabella Dynamo impostando l\u2019ingestion_state a INGESTED per tutti i file che sono stati caricati durante questa esecuzione.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Tips and tricks<\/h3>\n\n\n\n<p>Abbiamo visto che le funzioni Lambda impiegate nelle Step Functions sono molto spesso utilizzate semplicemente per invocare altri servizi, reperire liste ed effettuare controlli sullo stato di altre risorse AWS.<\/p>\n\n\n\n<p>Per questo motivo, infatti, \u00e8 possibile mantenere una singola codebase ed una singola funzione Lambda per eseguire questi compiti piuttosto semplici, selezionando i metodi da eseguire in base allo stato con il quale la lambda \u00e8 stata invocata.<\/p>\n\n\n\n<p>Un esempio di questo comportamento \u00e8 lo stato che reperisce la lista dei nuovi file dalla tabella dynamo, la quale definizione \u00e8 la seguente:<\/p>\n\n\n\n<pre> \n\"Get New List\": {\n   \"Type\": \"Task\",\n   \"Resource\": \"arn:aws:states:::lambda:invoke.sync\",\n   \"Parameters\": {\n       \"FunctionName\": \"arn:aws:lambda:eu-west-1:XXXXXXXXXXXXX:function:glue-orc-sfn-lambda\",\n       \"Payload\": {\n           \"NeededState\": \"NEW\",\n           \"DatasetName.$\": \"$.DatasetName\",\n           \"SFNState.$\": \"$$.State.Name\"\n       }\n   },\n   \"ResultPath\": \"$.NewFilesList\",\n   \"Next\": \"New Files Loop\"\n}\n<\/pre>\n\n\n\n<p>Questo snippet di codice Amazon State Language definisce lo stato <em>Get New List<\/em>. Ai parametri necessari alla funzione Lambda \u00e8 stato aggiunto, per\u00f2, il nome dello stato corrente della Step Function in modo da eseguire il metodo Python necessario.<\/p>\n\n\n\n<pre> \ndef action_switcher(sfn_state: str) -&gt; function:\n   switcher = {\n       \"Get New List\": get_new_list,\n       \"Run Crawler State\": run_crawler,\n       \"Move Invalid File To Failed Bucket\": move_file_to_bucket\n   }\n   return switcher.get(sfn_state, lambda: None)\n \n<\/pre>\n\n\n\n<p>Questo \u00e8 stato possibile grazie alla capacit\u00e0 di accedere ai <a href=\"https:\/\/docs.aws.amazon.com\/step-functions\/latest\/dg\/input-output-contextobject.html\">context object delle Step Function<\/a> che possono essere molto utili in molte definizioni.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Conclusioni<\/h2>\n\n\n\n<p>In questo articolo abbiamo esplorato il mondo dell\u2019ETL ed abbiamo visto come pu\u00f2 essere complesso orchestrare una data pipeline resistente, scalabile e facilmente controllabile.<\/p>\n\n\n\n<p>Con le Step Functions abbiamo visto, poi, come un singolo servizio sia sufficiente per architettare una soluzione resiliente permettendo il business analytics in qualsiasi scala.<\/p>\n\n\n\n<p>E voi? Come gestite l&#8217;ETL su AWS? <\/p>\n\n\n\n<p>Molte gemme nascoste sono ancora disponibili per lavorare ogni giorno meglio con i dati.<\/p>\n\n\n\n<p>Continuate a seguirci per scoprirle tutte \ud83d\ude42 <\/p>\n\n\n\n<p>Ci vediamo tra 14 giorni qui su <strong>#Proud2beCloud<\/strong> con un nuovo articolo!<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Negli ultimi anni data engineering, data governance e data analysis sono diventati importanti argomenti di discussione. La necessit\u00e0 di effettuare [&hellip;]<\/p>\n","protected":false},"author":15,"featured_media":1993,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[474],"tags":[263,410,267],"class_list":["post-1966","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-data-analytics","tag-aws-lambda","tag-data-analytics","tag-serverless"],"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v24.7 - https:\/\/yoast.com\/wordpress\/plugins\/seo\/ -->\n<title>ETL Orchestration su AWS con AWS Step Functions - Proud2beCloud Blog<\/title>\n<meta name=\"description\" content=\"Orchestrazione del processo di ETL su Amazon Web Services con AWS Step Functions.\" \/>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/blog.besharp.it\/it\/etl-orchestration-su-aws-con-aws-step-functions\/\" \/>\n<meta property=\"og:locale\" content=\"it_IT\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"ETL Orchestration su AWS con AWS Step Functions\" \/>\n<meta property=\"og:description\" content=\"Orchestrazione del processo di ETL su Amazon Web Services con AWS Step Functions.\" \/>\n<meta property=\"og:url\" content=\"https:\/\/blog.besharp.it\/it\/etl-orchestration-su-aws-con-aws-step-functions\/\" \/>\n<meta property=\"og:site_name\" content=\"Proud2beCloud Blog\" \/>\n<meta property=\"article:published_time\" content=\"2020-11-26T15:51:14+00:00\" \/>\n<meta property=\"article:modified_time\" content=\"2021-03-17T14:30:58+00:00\" \/>\n<meta property=\"og:image\" content=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2020\/11\/facebook-link-image-1.png\" \/>\n\t<meta property=\"og:image:width\" content=\"1200\" \/>\n\t<meta property=\"og:image:height\" content=\"628\" \/>\n\t<meta property=\"og:image:type\" content=\"image\/png\" \/>\n<meta name=\"author\" content=\"Christian Calabrese\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:title\" content=\"ETL Orchestration su AWS con AWS Step Functions\" \/>\n<meta name=\"twitter:description\" content=\"Orchestrazione del processo di ETL su Amazon Web Services con AWS Step Functions.\" \/>\n<meta name=\"twitter:image\" content=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2020\/11\/twitter-shared-link-1.png\" \/>\n<meta name=\"twitter:label1\" content=\"Scritto da\" \/>\n\t<meta name=\"twitter:data1\" content=\"Christian Calabrese\" \/>\n\t<meta name=\"twitter:label2\" content=\"Tempo di lettura stimato\" \/>\n\t<meta name=\"twitter:data2\" content=\"12 minuti\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\/\/schema.org\",\"@graph\":[{\"@type\":\"WebPage\",\"@id\":\"https:\/\/blog.besharp.it\/it\/etl-orchestration-su-aws-con-aws-step-functions\/\",\"url\":\"https:\/\/blog.besharp.it\/it\/etl-orchestration-su-aws-con-aws-step-functions\/\",\"name\":\"ETL Orchestration su AWS con AWS Step Functions - Proud2beCloud Blog\",\"isPartOf\":{\"@id\":\"https:\/\/blog.besharp.it\/it\/#website\"},\"primaryImageOfPage\":{\"@id\":\"https:\/\/blog.besharp.it\/it\/etl-orchestration-su-aws-con-aws-step-functions\/#primaryimage\"},\"image\":{\"@id\":\"https:\/\/blog.besharp.it\/it\/etl-orchestration-su-aws-con-aws-step-functions\/#primaryimage\"},\"thumbnailUrl\":\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2020\/11\/copertine-blog_60-60.png\",\"datePublished\":\"2020-11-26T15:51:14+00:00\",\"dateModified\":\"2021-03-17T14:30:58+00:00\",\"author\":{\"@id\":\"https:\/\/blog.besharp.it\/it\/#\/schema\/person\/b426de7cb01c2be795d117ac34ed15f7\"},\"description\":\"Orchestrazione del processo di ETL su Amazon Web Services con AWS Step Functions.\",\"breadcrumb\":{\"@id\":\"https:\/\/blog.besharp.it\/it\/etl-orchestration-su-aws-con-aws-step-functions\/#breadcrumb\"},\"inLanguage\":\"it-IT\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\/\/blog.besharp.it\/it\/etl-orchestration-su-aws-con-aws-step-functions\/\"]}]},{\"@type\":\"ImageObject\",\"inLanguage\":\"it-IT\",\"@id\":\"https:\/\/blog.besharp.it\/it\/etl-orchestration-su-aws-con-aws-step-functions\/#primaryimage\",\"url\":\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2020\/11\/copertine-blog_60-60.png\",\"contentUrl\":\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2020\/11\/copertine-blog_60-60.png\",\"width\":1667,\"height\":1251,\"caption\":\"ETL orchestration on aws\"},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\/\/blog.besharp.it\/it\/etl-orchestration-su-aws-con-aws-step-functions\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Home\",\"item\":\"https:\/\/blog.besharp.it\/it\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"ETL Orchestration su AWS con AWS Step Functions\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\/\/blog.besharp.it\/it\/#website\",\"url\":\"https:\/\/blog.besharp.it\/it\/\",\"name\":\"Proud2beCloud Blog\",\"description\":\"il blog di beSharp\",\"alternateName\":\"Proud2beCloud Blog\",\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\/\/blog.besharp.it\/it\/?s={search_term_string}\"},\"query-input\":{\"@type\":\"PropertyValueSpecification\",\"valueRequired\":true,\"valueName\":\"search_term_string\"}}],\"inLanguage\":\"it-IT\"},{\"@type\":\"Person\",\"@id\":\"https:\/\/blog.besharp.it\/it\/#\/schema\/person\/b426de7cb01c2be795d117ac34ed15f7\",\"name\":\"Christian Calabrese\",\"image\":{\"@type\":\"ImageObject\",\"inLanguage\":\"it-IT\",\"@id\":\"https:\/\/blog.besharp.it\/it\/#\/schema\/person\/image\/\",\"url\":\"https:\/\/secure.gravatar.com\/avatar\/fd7c6025dc1878a6b0d719e7095fc761?s=96&d=mm&r=g\",\"contentUrl\":\"https:\/\/secure.gravatar.com\/avatar\/fd7c6025dc1878a6b0d719e7095fc761?s=96&d=mm&r=g\",\"caption\":\"Christian Calabrese\"},\"description\":\"DevOps Engineer and Cloud-native Applications Developer @ beSharp. HiFi enthusiast and hardened videogames player!\",\"url\":\"https:\/\/blog.besharp.it\/it\/author\/christian-calabrese\/\"}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"ETL Orchestration su AWS con AWS Step Functions - Proud2beCloud Blog","description":"Orchestrazione del processo di ETL su Amazon Web Services con AWS Step Functions.","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/blog.besharp.it\/it\/etl-orchestration-su-aws-con-aws-step-functions\/","og_locale":"it_IT","og_type":"article","og_title":"ETL Orchestration su AWS con AWS Step Functions","og_description":"Orchestrazione del processo di ETL su Amazon Web Services con AWS Step Functions.","og_url":"https:\/\/blog.besharp.it\/it\/etl-orchestration-su-aws-con-aws-step-functions\/","og_site_name":"Proud2beCloud Blog","article_published_time":"2020-11-26T15:51:14+00:00","article_modified_time":"2021-03-17T14:30:58+00:00","og_image":[{"width":1200,"height":628,"url":"https:\/\/blog.besharp.it\/wp-content\/uploads\/2020\/11\/facebook-link-image-1.png","type":"image\/png"}],"author":"Christian Calabrese","twitter_card":"summary_large_image","twitter_title":"ETL Orchestration su AWS con AWS Step Functions","twitter_description":"Orchestrazione del processo di ETL su Amazon Web Services con AWS Step Functions.","twitter_image":"https:\/\/blog.besharp.it\/wp-content\/uploads\/2020\/11\/twitter-shared-link-1.png","twitter_misc":{"Scritto da":"Christian Calabrese","Tempo di lettura stimato":"12 minuti"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"WebPage","@id":"https:\/\/blog.besharp.it\/it\/etl-orchestration-su-aws-con-aws-step-functions\/","url":"https:\/\/blog.besharp.it\/it\/etl-orchestration-su-aws-con-aws-step-functions\/","name":"ETL Orchestration su AWS con AWS Step Functions - Proud2beCloud Blog","isPartOf":{"@id":"https:\/\/blog.besharp.it\/it\/#website"},"primaryImageOfPage":{"@id":"https:\/\/blog.besharp.it\/it\/etl-orchestration-su-aws-con-aws-step-functions\/#primaryimage"},"image":{"@id":"https:\/\/blog.besharp.it\/it\/etl-orchestration-su-aws-con-aws-step-functions\/#primaryimage"},"thumbnailUrl":"https:\/\/blog.besharp.it\/wp-content\/uploads\/2020\/11\/copertine-blog_60-60.png","datePublished":"2020-11-26T15:51:14+00:00","dateModified":"2021-03-17T14:30:58+00:00","author":{"@id":"https:\/\/blog.besharp.it\/it\/#\/schema\/person\/b426de7cb01c2be795d117ac34ed15f7"},"description":"Orchestrazione del processo di ETL su Amazon Web Services con AWS Step Functions.","breadcrumb":{"@id":"https:\/\/blog.besharp.it\/it\/etl-orchestration-su-aws-con-aws-step-functions\/#breadcrumb"},"inLanguage":"it-IT","potentialAction":[{"@type":"ReadAction","target":["https:\/\/blog.besharp.it\/it\/etl-orchestration-su-aws-con-aws-step-functions\/"]}]},{"@type":"ImageObject","inLanguage":"it-IT","@id":"https:\/\/blog.besharp.it\/it\/etl-orchestration-su-aws-con-aws-step-functions\/#primaryimage","url":"https:\/\/blog.besharp.it\/wp-content\/uploads\/2020\/11\/copertine-blog_60-60.png","contentUrl":"https:\/\/blog.besharp.it\/wp-content\/uploads\/2020\/11\/copertine-blog_60-60.png","width":1667,"height":1251,"caption":"ETL orchestration on aws"},{"@type":"BreadcrumbList","@id":"https:\/\/blog.besharp.it\/it\/etl-orchestration-su-aws-con-aws-step-functions\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Home","item":"https:\/\/blog.besharp.it\/it\/"},{"@type":"ListItem","position":2,"name":"ETL Orchestration su AWS con AWS Step Functions"}]},{"@type":"WebSite","@id":"https:\/\/blog.besharp.it\/it\/#website","url":"https:\/\/blog.besharp.it\/it\/","name":"Proud2beCloud Blog","description":"il blog di beSharp","alternateName":"Proud2beCloud Blog","potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/blog.besharp.it\/it\/?s={search_term_string}"},"query-input":{"@type":"PropertyValueSpecification","valueRequired":true,"valueName":"search_term_string"}}],"inLanguage":"it-IT"},{"@type":"Person","@id":"https:\/\/blog.besharp.it\/it\/#\/schema\/person\/b426de7cb01c2be795d117ac34ed15f7","name":"Christian Calabrese","image":{"@type":"ImageObject","inLanguage":"it-IT","@id":"https:\/\/blog.besharp.it\/it\/#\/schema\/person\/image\/","url":"https:\/\/secure.gravatar.com\/avatar\/fd7c6025dc1878a6b0d719e7095fc761?s=96&d=mm&r=g","contentUrl":"https:\/\/secure.gravatar.com\/avatar\/fd7c6025dc1878a6b0d719e7095fc761?s=96&d=mm&r=g","caption":"Christian Calabrese"},"description":"DevOps Engineer and Cloud-native Applications Developer @ beSharp. HiFi enthusiast and hardened videogames player!","url":"https:\/\/blog.besharp.it\/it\/author\/christian-calabrese\/"}]}},"_links":{"self":[{"href":"https:\/\/blog.besharp.it\/it\/wp-json\/wp\/v2\/posts\/1966","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/blog.besharp.it\/it\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/blog.besharp.it\/it\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/blog.besharp.it\/it\/wp-json\/wp\/v2\/users\/15"}],"replies":[{"embeddable":true,"href":"https:\/\/blog.besharp.it\/it\/wp-json\/wp\/v2\/comments?post=1966"}],"version-history":[{"count":0,"href":"https:\/\/blog.besharp.it\/it\/wp-json\/wp\/v2\/posts\/1966\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/blog.besharp.it\/it\/wp-json\/wp\/v2\/media\/1993"}],"wp:attachment":[{"href":"https:\/\/blog.besharp.it\/it\/wp-json\/wp\/v2\/media?parent=1966"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/blog.besharp.it\/it\/wp-json\/wp\/v2\/categories?post=1966"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/blog.besharp.it\/it\/wp-json\/wp\/v2\/tags?post=1966"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}