{"id":2962,"date":"2021-04-02T11:31:44","date_gmt":"2021-04-02T09:31:44","guid":{"rendered":"https:\/\/blog.besharp.it\/?p=2962"},"modified":"2021-04-02T11:31:34","modified_gmt":"2021-04-02T09:31:34","slug":"orchestrare-pipeline-etl-su-aws-con-aws-glue-aws-stepfunctions-e-aws-cloudformation","status":"publish","type":"post","link":"https:\/\/blog.besharp.it\/it\/orchestrare-pipeline-etl-su-aws-con-aws-glue-aws-stepfunctions-e-aws-cloudformation\/","title":{"rendered":"Orchestrare pipeline ETL su AWS con AWS Glue, AWS StepFunctions e AWS Cloudformation"},"content":{"rendered":"\n<p>L&#8217;analisi dei Big Data sta diventando sempre pi\u00f9 importante per delineare le principali scelte di business in aziende di tutte le dimensioni. Tuttavia, raccogliere, aggregare, unire e analizzare (validare) enormi quantit\u00e0 di dati archiviati in diversi datastore con una struttura eterogenea (ad esempio database, CRM, testo non strutturato, ecc.) \u00e8 spesso un compito arduo e richiede molto tempo.<\/p>\n\n\n\n<p>Il cloud computing viene spesso in soccorso fornendo soluzioni di storage, computing e data lake economici e scalabili e, in particolare, AWS si pone come leader di settore grazie al servizio Glue \/ S3, molto versatile e che consente agli utenti di importare trasformazioni e normalizzare set di dati di tutte le dimensioni. Inoltre, Glue Catalog e Athena consentono agli utenti di eseguire facilmente query SQL basate su Presto su dati normalizzati presenti nei data lake S3, i cui risultati possono essere facilmente archiviati e analizzati mediante strumenti di business intelligence come QuickSight.<\/p>\n\n\n\n<p>Nonostante i grandi vantaggi offerti da Glue e S3, la creazione e il mantenimento di complessi flussi ETL multistadio di Glue \u00e8 spesso un&#8217;attivit\u00e0 che richiede molto tempo: i job di Glue sono, per loro natura, disaccoppiati e il loro codice \u00e8 memorizzato su S3. Ci\u00f2 rende molto difficile integrare diversi lavori e svilupparli in un progetto software ben strutturato e coeso.<\/p>\n\n\n\n<p>Un piccolo aiuto ci viene fornito dai Glue workflows: utilizzando queste pipeline integrate di Glue, \u00e8 possibile eseguire automaticamente diversi workflows e \/ o crawler in un determinato ordine. Tuttavia, a questo strumento, seppur molto utile, mancano diverse funzionalit\u00e0 molto comuni a molti strumenti di controllo del flusso, come diramazioni condizionali (if-else), loop, mappe dinamiche e step personalizzati.<\/p>\n\n\n\n<p>Un&#8217;alternativa migliore \u00e8 fornita da AWS StepFunctions. StepFunctions \u00e8 uno strumento di orchestrazione AWS molto potente e versatile in grado di gestire la maggior parte dei servizi AWS, direttamente o tramite integrazioni con funzioni lambda.<\/p>\n\n\n\n<p>Nelle sezioni seguenti spiegheremo come funzionano le StepFunctions e come integrare e sviluppare sia l&#8217;infrastruttura che il codice per Glue Jobs.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Perch\u00e8 dovremmo aver bisogno di StepFunctions?<\/h2>\n\n\n\n<p>Proviamo ad elaborare un job ETL molto semplice, ma allo stesso tempo realistico, per l&#8217;importazione e la trasformazione di dati, in modo da spiegare perch\u00e9 un servizio di orchestrazione in generale e, in particolare su AWS, StepFunctions, rappresenta una componente essenziale nella toolbox di un data engineer. Ecco i componenti logici per il nostro flusso di lavoro ETL di esempio:<\/p>\n\n\n\n<ol class=\"wp-block-list\"><li>I dati devono essere acquisiti da un database relazionale. Schemi e tabelle multipli.<\/li><li>I dati acquisiti devono essere caricati su S3 e sottoposti a scansione per estrarre un Glue DataCatalog per le query AWS Athena.<\/li><li>\u00c8 necessario unire diverse tabelle del catalogo dati, utilizzando regole non banali per creare un set di dati su S3 da utilizzare in un processo di Machine Learning per la segmentazione dei clienti.<\/li><li>L&#8217;output del lavoro di segmentazione dei dati deve essere archiviato sia nel data lake di S3, sia essere copiato, aggiornato, nel database relazionale per l&#8217;accesso da parte di altri strumenti aziendali.<\/li><\/ol>\n\n\n\n<p>Questi quattro passaggi descrivono un caso d&#8217;uso relativamente semplice ma molto comune. Ora proviamo a redigere un elenco di passaggi che dobbiamo eseguire in AWS Glue per completare il flusso di lavoro descritto finora:<\/p>\n\n\n\n<ol class=\"wp-block-list\"><li>Scansionare il database originale tramite una connessione JDBC.<\/li><li>Utilizzare un Glue Job per spostare i dati dal database a S3. Alcune tabelle possono utilizzare i segnalibri ma altre no.<\/li><li>Scansionare il bucket S3 di destinazione.<\/li><li>Eseguire un job di Glue Spark dedicato per operare una join sul data lake di S3. Scrivere i risultati su un&#8217;altra partizione o bucket S3.<\/li><li>Eseguire la scansione della partizione di destinazione per rendere facilmente interrogabili i risultati della join mediante AWS Athena.<\/li><li>Lanciare il job di ML (SageMaker o workflows di Glue ML).<\/li><li>Scansionare il set di dati risultante.<\/li><li>Eseguire un processo ETL finale di Glue per caricare il nuovo set di dati nel database originale.<\/li><\/ol>\n\n\n\n<p>Tutti questi passaggi devono essere eseguiti nell&#8217;ordine indicato e, in caso di problemi, sarebbe bello essere avvisati e avere un modo semplice per capire cos&#8217;\u00e8 andato storto.\n<\/p>\n\n\n\n<p>Senza utilizzare AWS StepFunctions, la gestione manuale di questi passaggi sarebbe estremamente difficoltosa e probabilmente avremmo bisogno di uno strumento di orchestrazione esterno o di creare uno script di orchestrazione personalizzato da eseguire su un\u2019istanza EC2 o su un container Fargate.<\/p>\n\n\n\n<p>Ma perch\u00e9 preoccuparsi? AWS StepFunctions fa tutto questo per noi, ed essendo in grado di interagire direttamente con molti servizi AWS, molte integrazioni sono un gioco da ragazzi: ad esempio, con poche righe di linguaggio Stepfunctions, possiamo catturare tutti gli errori in una pipe e inoltrarli a un topic SNS per ricevere un&#8217;e-mail in caso di errore (o una notifica slack, SMS o qualsiasi altra alternativa si preferisca)<\/p>\n\n\n\n<p>La gestione di flussi complessi diventa cos\u00ec sicura e relativamente facile. Ecco un esempio:<\/p>\n\n\n\n<div class=\"wp-block-image\"><figure class=\"aligncenter size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"625\" height=\"1024\" src=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/04\/image2-625x1024.png\" alt=\"AWS StepFunctions flow\" class=\"wp-image-2946\" srcset=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/04\/image2-625x1024.png 625w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/04\/image2-183x300.png 183w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/04\/image2-768x1258.png 768w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/04\/image2.png 830w\" sizes=\"auto, (max-width: 625px) 100vw, 625px\" \/><figcaption><em>StepFunctions flow<\/em><\/figcaption><\/figure><\/div>\n\n\n\n<p>Se uno di questi passaggi dovesse fallire, riceveremo una notifica tramite posta elettronica dal topic SNS, avremmo quindi, un feedback visivo del passaggio non riuscito e anche i log corrispondenti.<\/p>\n\n\n\n<div class=\"wp-block-image\"><figure class=\"aligncenter size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"490\" height=\"880\" src=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/04\/image3.png\" alt=\"Step di errore e relativi log\" class=\"wp-image-2949\" srcset=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/04\/image3.png 490w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/04\/image3-167x300.png 167w\" sizes=\"auto, (max-width: 490px) 100vw, 490px\" \/><figcaption>Step di errore e relativi log<\/figcaption><\/figure><\/div>\n\n\n\n<p>StepFunctions sembra quindi essere un jolly perfetto, con molte buone caratteristiche e nessun inconveniente significativo, tuttavia, come tutti sappiamo, questo non \u00e8 quasi mai vero nel mondo IT, quindi qual \u00e8 il trucco?\n<\/p>\n\n\n\n<p><span style=\"font-weight: 400;\">Il vero problema \u00e8 la gestione del codice: <a href=\"https:\/\/docs.aws.amazon.com\/step-functions\/latest\/dg\/concepts-amazon-states-language.htm\" target=\"_blank\" rel=\"noreferrer noopener\">il linguaggio di StepFunctions<\/a> \u00e8 basato su un modello JSON dichiarativo, risultando quindi non banale da scrivere e mantenere, anche utilizzando strumenti dedicati come <a href=\"https:\/\/aws.amazon.com\/blogs\/compute\/aws-step-functions-support-in-visual-studio-code\" target=\"_blank\" rel=\"noreferrer noopener\">plug-in specifici per Visual Studio<\/a>.<\/span><\/p>\n\n\n\n<p>Inoltre, sarebbe molto utile poter mantenere sia il codice StepFunctions che i Glue Jobs e l&#8217;eventuale codice Lambda in un unico progetto integrato.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Cloudformation con Troposphere o AWS CDK<\/h2>\n\n\n\n<p>Lo strumento pi\u00f9 ovvio che possiamo utilizzare per mantenere le StepFunctions, i Glue Jobs e il resto della nostra infrastruttura ETL, in modo coeso, \u00e8 Cloudformation, da integrare come strumento di distribuzione per tutto il progetto. Tuttavia, il codice Cloudformation \u00e8 un linguaggio YML \/ JSON dichiarativo non troppo diverso dal codice delli funzioni di StepFunctions, e includere tale codice in questi template, di solito \u00e8 piuttosto doloroso poich\u00e9 implica l&#8217;inclusione di stringhe JSON complesse nel nostro file YML di Cloud Formation.<\/p>\n\n\n\n<p><span style=\"font-weight: 400;\">Una soluzione molto pi\u00f9 efficace consiste nel creare un template di Cloudformation, utilizzando un linguaggio di programmazione di alto livello come <a href=\"https:\/\/aws.amazon.com\/cdk\/\" target=\"_blank\" rel=\"noreferrer noopener\">AWS CDK<\/a> che supporta molti linguaggi (TypeScript, Python, e Java).<\/span><\/p>\n\n\n\n<p>Optando per Python, che risulter\u00e0 spesso una buona scelta poich\u00e9 i lavori ETL saranno probabilmente scritti comunque in Python, si avr\u00e0 la possibilit\u00e0 di utilizzare Troposphere invece di AWS CDK come framework Cloudformation, che \u00e8 molto pi\u00f9 versatile in diverse situazioni.<\/p>\n\n\n\n<p><span style=\"font-weight: 400;\">Inoltre le StepFunctions possono essere generate a partire dal <a href=\"https:\/\/docs.aws.amazon.com\/step-functions\/latest\/dg\/concepts-python-sdk.html)\" target=\"_blank\" rel=\"noreferrer noopener\">python Step Functions Framework<\/a> come mostreremo nell&#8217;esempio seguente (Troposphere + Python step function SDK).<\/span><\/p>\n\n\n\n<p>In questo esempio molto semplice vogliamo dimostrare come creare un semplice workflow per scaricare un dataset sul Covid da un bucket AWS S3 OpenData pubblico, salvarne un piccolo sottoinsieme in un bucket S3 diverso e sottoporlo a scansione per prepararlo alle query mediante AWS Athena. Questo esempio di workflow base pu\u00f2 essere esteso a piacimento! Ecco uno schizzo di base dell&#8217;infrastruttura:<\/p>\n\n\n\n<div class=\"wp-block-image\"><figure class=\"aligncenter size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"576\" src=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/04\/image5-1024x576.png\" alt=\"Infrastruttura per il nostro esempio di flow\" class=\"wp-image-2952\" srcset=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/04\/image5-1024x576.png 1024w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/04\/image5-400x225.png 400w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/04\/image5-768x432.png 768w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/04\/image5-1536x864.png 1536w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/04\/image5.png 1999w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><figcaption><i><span style=\"font-weight: 400;\">Infrastruttura per il nostro esempio di flow<\/span><\/i><\/figcaption><\/figure><\/div>\n\n\n\n<p><span style=\"font-weight: 400;\">Prima di tutto procediamo <a href=\"https:\/\/docs.aws.amazon.com\/cli\/latest\/userguide\/install-cliv2.html\" target=\"_blank\" rel=\"noopener\">installando la CLI di AWS<\/a> <\/span><span style=\"font-weight: 400;\">e le librerie richieste da python:&nbsp;<\/span><\/p>\n\n\n\n<pre class=\"wp-block-preformatted\">pip install troposphere stepfunctions.<\/pre>\n\n\n\n<p><span style=\"font-weight: 400;\">Una volta completata l&#8217;installazione, <a href=\"https:\/\/github.com\/besharpsrl\/stepfunctions-troposphere-glue-example.git\" target=\"_blank\" rel=\"noopener\">scarichiamo il codice di esempio dal nostro repository<\/a><\/span><span style=\"font-weight: 400;\">&nbsp;e ci ritroveremo con un file <\/span><span style=\"font-weight: 400;\">troposphere_main.py<\/span><span style=\"font-weight: 400;\"> che contiene la <\/span><b>rappresentazione troposphere<\/b><span style=\"font-weight: 400;\"> dell&#8217;intera infrastruttura (vedi sketch) e altre cartelle contenenti il \u200b\u200bcodice python delle varie funzioni Lambda (start_crawler, check_crawler status), infine un file README che spiega come eseguire il progetto. Dopodich\u00e9 dovremo creare un bucket S3 come supporto per la distribuzione di Cloudformation con il nome che preferiamo.<\/span><\/p>\n\n\n\n<p>Seguendo le istruzioni presenti nel README, possiamo semplicemente eseguire il file principale, lanciando in una console python troposphere_main.py. Eseguendo questo script, compileremo il codice troposphere in un formato JSON compatibile con Cloudformation. Fatto ci\u00f2, siamo pronti per lanciare il nuovo template di AWS Cloudformation:<\/p>\n\n\n\n<p><span class=\"has-inline-color has-cyan-bluish-gray-color\">aws cloudformation package &#8211;template-file troposphere_main.json &#8211;s3-bucket &lt;YOUR CLOUDFORMATION S3 BUCKET&gt; &#8211;s3-prefix &#8216;&lt;THE PATH YOU PREFER&gt;&#8217; &#8211;output-template-file troposphere_main.yml<\/span><\/p>\n\n\n\n<p><span style=\"font-weight: 400;\">Questo comando prende come input il file JSON creato da Troposphere, carica su S3 il codice delle funzioni Glue e lambda, a cui si fa riferimento, come percorsi locali ed infine restituisce un altro modello di Cloudformation (questa volta in YML), in cui i riferimenti ai percorsi locali sono stati modificati nei corrispondenti riferimenti su S3 (<a href=\"https:\/\/docs.aws.amazon.com\/cli\/latest\/reference\/cloudformation\/package.html)\" target=\"_blank\" rel=\"noopener\">Qui ulteriori informazioni<\/a>).<\/span><\/p>\n\n\n\n<p>Finalmente siamo pronti per distribuire il modello Cloudformation utilizzando il comando:<\/p>\n\n\n\n<p><span class=\"has-inline-color has-cyan-bluish-gray-color\">aws cloudformation deploy &#8211;template-file .\/troposphere_main.yml &#8211;stack-name testStepfunctionsStack &#8211;capabilities CAPABILITY_NAMED_IAM CAPABILITY_AUTO_EXPAND<\/span><\/p>\n\n\n\n<p><span style=\"font-weight: 400;\">In questo modo creeremo il \u201c<\/span><b>testStepfunctionsStack<\/b><span style=\"font-weight: 400;\">\u201d che contiene l&#8217;infrastruttura descritta prima. Ora possiamo accedere alla console di AWS StepFunctions ed eseguire la nuova funzione (test-stepfunctions-glue), il workflow verr\u00e0 eseguito e noi vedremo importati i dati Covid.<\/span><\/p>\n\n\n\n<div class=\"wp-block-image\"><figure class=\"aligncenter size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"582\" height=\"826\" src=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/04\/image4.png\" alt=\"AWS Step Functions Our example flow completed\" class=\"wp-image-2951\" srcset=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/04\/image4.png 582w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/04\/image4-211x300.png 211w\" sizes=\"auto, (max-width: 582px) 100vw, 582px\" \/><figcaption><i><span style=\"font-weight: 400;\">Il nostro flow di esempio completato<\/span><\/i><\/figcaption><\/figure><\/div>\n\n\n\n<p>Sebbene questo sia solo un esempio molto basico, \u00e8 importante notare che tutto il codice presentato \u00e8 racchiuso nello stesso progetto e quindi facilmente estendibile a livello di flusso senza per\u00f2 perdere il controllo dei vari componenti: basta usare Git per il controllo di versione e Cloudformation per i deploy!<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Conclusioni<\/h2>\n\n\n\n<p>Abbiamo dimostrato che le funzioni di StepFunctions sono un ottimo modo per orchestrare i flussi basati su AWS in generale e in particolare le pipeline ETL! Inoltre, abbiamo condiviso un esempio di come utilizzare Troposphere e Python StepFunctions SDK per sviluppare, in un unico progetto python, sia una funzione di StepFunctions che il codice dei suoi vari componenti.<\/p>\n\n\n\n<p>Ed eccoci arrivati alla fine! Lasciateci un commento o <a href=\"proud2becloud@besharp.it\" target=\"_blank\" rel=\"noopener\">contattateci<\/a> per qualsiasi dubbio, domanda o idea!<\/p>\n\n\n\n<p>Ci vediamo puntuali tra due settimane con un nuovo articolo su <strong>#proud2becloud<\/strong>!<\/p>\n","protected":false},"excerpt":{"rendered":"<p>L&#8217;analisi dei Big Data sta diventando sempre pi\u00f9 importante per delineare le principali scelte di business in aziende di tutte [&hellip;]<\/p>\n","protected":false},"author":9,"featured_media":2955,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[474],"tags":[251,275,444,488,416],"class_list":["post-2962","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-data-analytics","tag-amazon-s3","tag-aws-cloudformation","tag-aws-glue","tag-aws-step-functions-it","tag-etl"],"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v26.2 - https:\/\/yoast.com\/wordpress\/plugins\/seo\/ -->\n<title>Orchestrare pipeline ETL su AWS con AWS Glue, AWS StepFunctions e AWS Cloudformation - Proud2beCloud Blog<\/title>\n<meta name=\"description\" content=\"Come orchestrare pipeline di ETL su Amazon Web Services con AWS Step Functions, AWS Glue, and AWS CloudFormation.\" \/>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/blog.besharp.it\/it\/orchestrare-pipeline-etl-su-aws-con-aws-glue-aws-stepfunctions-e-aws-cloudformation\/\" \/>\n<meta property=\"og:locale\" content=\"it_IT\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"Orchestrare pipeline di ETL su AWS con AWS Step Functions, AWS Glue, and AWS CloudFormation.\" \/>\n<meta property=\"og:description\" content=\"Come orchestrare pipeline di ETL su Amazon Web Services con AWS Step Functions, AWS Glue, and AWS CloudFormation.\" \/>\n<meta property=\"og:url\" content=\"https:\/\/blog.besharp.it\/it\/orchestrare-pipeline-etl-su-aws-con-aws-glue-aws-stepfunctions-e-aws-cloudformation\/\" \/>\n<meta property=\"og:site_name\" content=\"Proud2beCloud Blog\" \/>\n<meta property=\"article:published_time\" content=\"2021-04-02T09:31:44+00:00\" \/>\n<meta property=\"og:image\" content=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/04\/etl-social.jpg\" \/>\n<meta name=\"author\" content=\"Matteo Moroni\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:title\" content=\"Orchestrare pipeline di ETL su AWS con AWS Step Functions, AWS Glue, and AWS CloudFormation.\" \/>\n<meta name=\"twitter:description\" content=\"Come orchestrare pipeline di ETL su Amazon Web Services con AWS Step Functions, AWS Glue, and AWS CloudFormation.\" \/>\n<meta name=\"twitter:image\" content=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/04\/etl-social.jpg\" \/>\n<meta name=\"twitter:label1\" content=\"Scritto da\" \/>\n\t<meta name=\"twitter:data1\" content=\"Matteo Moroni\" \/>\n\t<meta name=\"twitter:label2\" content=\"Tempo di lettura stimato\" \/>\n\t<meta name=\"twitter:data2\" content=\"8 minuti\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\/\/schema.org\",\"@graph\":[{\"@type\":\"WebPage\",\"@id\":\"https:\/\/blog.besharp.it\/it\/orchestrare-pipeline-etl-su-aws-con-aws-glue-aws-stepfunctions-e-aws-cloudformation\/\",\"url\":\"https:\/\/blog.besharp.it\/it\/orchestrare-pipeline-etl-su-aws-con-aws-glue-aws-stepfunctions-e-aws-cloudformation\/\",\"name\":\"Orchestrare pipeline ETL su AWS con AWS Glue, AWS StepFunctions e AWS Cloudformation - Proud2beCloud Blog\",\"isPartOf\":{\"@id\":\"https:\/\/blog.besharp.it\/it\/#website\"},\"primaryImageOfPage\":{\"@id\":\"https:\/\/blog.besharp.it\/it\/orchestrare-pipeline-etl-su-aws-con-aws-glue-aws-stepfunctions-e-aws-cloudformation\/#primaryimage\"},\"image\":{\"@id\":\"https:\/\/blog.besharp.it\/it\/orchestrare-pipeline-etl-su-aws-con-aws-glue-aws-stepfunctions-e-aws-cloudformation\/#primaryimage\"},\"thumbnailUrl\":\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/04\/etl-pipeline.jpg\",\"datePublished\":\"2021-04-02T09:31:44+00:00\",\"author\":{\"@id\":\"https:\/\/blog.besharp.it\/it\/#\/schema\/person\/0b3e69eb2dcb125d58476b906ec1c7bc\"},\"description\":\"Come orchestrare pipeline di ETL su Amazon Web Services con AWS Step Functions, AWS Glue, and AWS CloudFormation.\",\"breadcrumb\":{\"@id\":\"https:\/\/blog.besharp.it\/it\/orchestrare-pipeline-etl-su-aws-con-aws-glue-aws-stepfunctions-e-aws-cloudformation\/#breadcrumb\"},\"inLanguage\":\"it-IT\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\/\/blog.besharp.it\/it\/orchestrare-pipeline-etl-su-aws-con-aws-glue-aws-stepfunctions-e-aws-cloudformation\/\"]}]},{\"@type\":\"ImageObject\",\"inLanguage\":\"it-IT\",\"@id\":\"https:\/\/blog.besharp.it\/it\/orchestrare-pipeline-etl-su-aws-con-aws-glue-aws-stepfunctions-e-aws-cloudformation\/#primaryimage\",\"url\":\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/04\/etl-pipeline.jpg\",\"contentUrl\":\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/04\/etl-pipeline.jpg\",\"width\":1200,\"height\":900},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\/\/blog.besharp.it\/it\/orchestrare-pipeline-etl-su-aws-con-aws-glue-aws-stepfunctions-e-aws-cloudformation\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Home\",\"item\":\"https:\/\/blog.besharp.it\/it\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"Orchestrare pipeline ETL su AWS con AWS Glue, AWS StepFunctions e AWS Cloudformation\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\/\/blog.besharp.it\/it\/#website\",\"url\":\"https:\/\/blog.besharp.it\/it\/\",\"name\":\"Proud2beCloud Blog\",\"description\":\"il blog di beSharp\",\"alternateName\":\"Proud2beCloud Blog\",\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\/\/blog.besharp.it\/it\/?s={search_term_string}\"},\"query-input\":{\"@type\":\"PropertyValueSpecification\",\"valueRequired\":true,\"valueName\":\"search_term_string\"}}],\"inLanguage\":\"it-IT\"},{\"@type\":\"Person\",\"@id\":\"https:\/\/blog.besharp.it\/it\/#\/schema\/person\/0b3e69eb2dcb125d58476b906ec1c7bc\",\"name\":\"Matteo Moroni\",\"image\":{\"@type\":\"ImageObject\",\"inLanguage\":\"it-IT\",\"@id\":\"https:\/\/blog.besharp.it\/it\/#\/schema\/person\/image\/\",\"url\":\"https:\/\/secure.gravatar.com\/avatar\/c3e618e428b657e0223e16b1ad4e416f66051d5b07a6f0591d46cc79991576b1?s=96&d=mm&r=g\",\"contentUrl\":\"https:\/\/secure.gravatar.com\/avatar\/c3e618e428b657e0223e16b1ad4e416f66051d5b07a6f0591d46cc79991576b1?s=96&d=mm&r=g\",\"caption\":\"Matteo Moroni\"},\"description\":\"DevOps e Solution Architect di beSharp, mi occupo di sviluppare soluzioni Saas, Data Analysis, HPC e di progettare architetture non convenzionali a complessit\u00e0 divergente. Appassionato di informatica e fisica, da sempre lavoro nella prima e ho un PhD nella seconda. Parlare di tutto ci\u00f2 che \u00e8 tecnico e nerd mi rende felice!\",\"url\":\"https:\/\/blog.besharp.it\/it\/author\/matteo-moroni\/\"}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"Orchestrare pipeline ETL su AWS con AWS Glue, AWS StepFunctions e AWS Cloudformation - Proud2beCloud Blog","description":"Come orchestrare pipeline di ETL su Amazon Web Services con AWS Step Functions, AWS Glue, and AWS CloudFormation.","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/blog.besharp.it\/it\/orchestrare-pipeline-etl-su-aws-con-aws-glue-aws-stepfunctions-e-aws-cloudformation\/","og_locale":"it_IT","og_type":"article","og_title":"Orchestrare pipeline di ETL su AWS con AWS Step Functions, AWS Glue, and AWS CloudFormation.","og_description":"Come orchestrare pipeline di ETL su Amazon Web Services con AWS Step Functions, AWS Glue, and AWS CloudFormation.","og_url":"https:\/\/blog.besharp.it\/it\/orchestrare-pipeline-etl-su-aws-con-aws-glue-aws-stepfunctions-e-aws-cloudformation\/","og_site_name":"Proud2beCloud Blog","article_published_time":"2021-04-02T09:31:44+00:00","og_image":[{"url":"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/04\/etl-social.jpg","type":"","width":"","height":""}],"author":"Matteo Moroni","twitter_card":"summary_large_image","twitter_title":"Orchestrare pipeline di ETL su AWS con AWS Step Functions, AWS Glue, and AWS CloudFormation.","twitter_description":"Come orchestrare pipeline di ETL su Amazon Web Services con AWS Step Functions, AWS Glue, and AWS CloudFormation.","twitter_image":"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/04\/etl-social.jpg","twitter_misc":{"Scritto da":"Matteo Moroni","Tempo di lettura stimato":"8 minuti"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"WebPage","@id":"https:\/\/blog.besharp.it\/it\/orchestrare-pipeline-etl-su-aws-con-aws-glue-aws-stepfunctions-e-aws-cloudformation\/","url":"https:\/\/blog.besharp.it\/it\/orchestrare-pipeline-etl-su-aws-con-aws-glue-aws-stepfunctions-e-aws-cloudformation\/","name":"Orchestrare pipeline ETL su AWS con AWS Glue, AWS StepFunctions e AWS Cloudformation - Proud2beCloud Blog","isPartOf":{"@id":"https:\/\/blog.besharp.it\/it\/#website"},"primaryImageOfPage":{"@id":"https:\/\/blog.besharp.it\/it\/orchestrare-pipeline-etl-su-aws-con-aws-glue-aws-stepfunctions-e-aws-cloudformation\/#primaryimage"},"image":{"@id":"https:\/\/blog.besharp.it\/it\/orchestrare-pipeline-etl-su-aws-con-aws-glue-aws-stepfunctions-e-aws-cloudformation\/#primaryimage"},"thumbnailUrl":"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/04\/etl-pipeline.jpg","datePublished":"2021-04-02T09:31:44+00:00","author":{"@id":"https:\/\/blog.besharp.it\/it\/#\/schema\/person\/0b3e69eb2dcb125d58476b906ec1c7bc"},"description":"Come orchestrare pipeline di ETL su Amazon Web Services con AWS Step Functions, AWS Glue, and AWS CloudFormation.","breadcrumb":{"@id":"https:\/\/blog.besharp.it\/it\/orchestrare-pipeline-etl-su-aws-con-aws-glue-aws-stepfunctions-e-aws-cloudformation\/#breadcrumb"},"inLanguage":"it-IT","potentialAction":[{"@type":"ReadAction","target":["https:\/\/blog.besharp.it\/it\/orchestrare-pipeline-etl-su-aws-con-aws-glue-aws-stepfunctions-e-aws-cloudformation\/"]}]},{"@type":"ImageObject","inLanguage":"it-IT","@id":"https:\/\/blog.besharp.it\/it\/orchestrare-pipeline-etl-su-aws-con-aws-glue-aws-stepfunctions-e-aws-cloudformation\/#primaryimage","url":"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/04\/etl-pipeline.jpg","contentUrl":"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/04\/etl-pipeline.jpg","width":1200,"height":900},{"@type":"BreadcrumbList","@id":"https:\/\/blog.besharp.it\/it\/orchestrare-pipeline-etl-su-aws-con-aws-glue-aws-stepfunctions-e-aws-cloudformation\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Home","item":"https:\/\/blog.besharp.it\/it\/"},{"@type":"ListItem","position":2,"name":"Orchestrare pipeline ETL su AWS con AWS Glue, AWS StepFunctions e AWS Cloudformation"}]},{"@type":"WebSite","@id":"https:\/\/blog.besharp.it\/it\/#website","url":"https:\/\/blog.besharp.it\/it\/","name":"Proud2beCloud Blog","description":"il blog di beSharp","alternateName":"Proud2beCloud Blog","potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/blog.besharp.it\/it\/?s={search_term_string}"},"query-input":{"@type":"PropertyValueSpecification","valueRequired":true,"valueName":"search_term_string"}}],"inLanguage":"it-IT"},{"@type":"Person","@id":"https:\/\/blog.besharp.it\/it\/#\/schema\/person\/0b3e69eb2dcb125d58476b906ec1c7bc","name":"Matteo Moroni","image":{"@type":"ImageObject","inLanguage":"it-IT","@id":"https:\/\/blog.besharp.it\/it\/#\/schema\/person\/image\/","url":"https:\/\/secure.gravatar.com\/avatar\/c3e618e428b657e0223e16b1ad4e416f66051d5b07a6f0591d46cc79991576b1?s=96&d=mm&r=g","contentUrl":"https:\/\/secure.gravatar.com\/avatar\/c3e618e428b657e0223e16b1ad4e416f66051d5b07a6f0591d46cc79991576b1?s=96&d=mm&r=g","caption":"Matteo Moroni"},"description":"DevOps e Solution Architect di beSharp, mi occupo di sviluppare soluzioni Saas, Data Analysis, HPC e di progettare architetture non convenzionali a complessit\u00e0 divergente. Appassionato di informatica e fisica, da sempre lavoro nella prima e ho un PhD nella seconda. Parlare di tutto ci\u00f2 che \u00e8 tecnico e nerd mi rende felice!","url":"https:\/\/blog.besharp.it\/it\/author\/matteo-moroni\/"}]}},"_links":{"self":[{"href":"https:\/\/blog.besharp.it\/it\/wp-json\/wp\/v2\/posts\/2962","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/blog.besharp.it\/it\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/blog.besharp.it\/it\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/blog.besharp.it\/it\/wp-json\/wp\/v2\/users\/9"}],"replies":[{"embeddable":true,"href":"https:\/\/blog.besharp.it\/it\/wp-json\/wp\/v2\/comments?post=2962"}],"version-history":[{"count":0,"href":"https:\/\/blog.besharp.it\/it\/wp-json\/wp\/v2\/posts\/2962\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/blog.besharp.it\/it\/wp-json\/wp\/v2\/media\/2955"}],"wp:attachment":[{"href":"https:\/\/blog.besharp.it\/it\/wp-json\/wp\/v2\/media?parent=2962"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/blog.besharp.it\/it\/wp-json\/wp\/v2\/categories?post=2962"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/blog.besharp.it\/it\/wp-json\/wp\/v2\/tags?post=2962"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}