{"id":2625,"date":"2021-02-19T11:05:48","date_gmt":"2021-02-19T10:05:48","guid":{"rendered":"https:\/\/blog.besharp.it\/?p=2625"},"modified":"2021-03-17T15:34:25","modified_gmt":"2021-03-17T14:34:25","slug":"come-orchestrare-una-pipeline-di-data-analytics-e-business-intelligence-via-step-function","status":"publish","type":"post","link":"https:\/\/blog.besharp.it\/it\/come-orchestrare-una-pipeline-di-data-analytics-e-business-intelligence-via-step-function\/","title":{"rendered":"Come orchestrare una pipeline di Data Analytics e Business Intelligence via Step Function"},"content":{"rendered":"\n<p>Le pipeline di ETL su AWS di solito hanno un comportamento lineare: si inizia da un servizio e si termina con un altro. Questa volta, tuttavia, vorremmo presentare una configurazione pi\u00f9 flessibile, in cui alcuni job ETL potrebbero essere saltati a seconda dei dati. Inoltre, alcuni dei dati trasformati nel nostro datalake verranno interrogati da AWS Athena per generare dashboard di BI in QuickSight, mentre altre partizioni di dati verranno utilizzate per addestrare un rilevamento di anomalie ad-hoc tramite Sagemaker.<\/p>\n\n\n\n<p>Un potente strumento per orchestrare questo tipo di pipeline ETL \u00e8 il servizio AWS StepFunctions.<\/p>\n\n\n\n<p>In questo articolo, vogliamo mostrarti alcuni dei passaggi coinvolti nella creazione della pipeline citata e quali servizi AWS per l&#8217;analisi dei dati si possano utilizzare in scenari quasi in tempo reale per gestire un volume elevato di dati in modo scalabile.<\/p>\n\n\n\n<p>In particolare, esamineremo i connettori e i crawler di AWS Glue, AWS Athena, QuickSight, Kinesis Data Firehose e infine una breve spiegazione su come utilizzare SageMaker per creare previsioni a partire dai dati raccolti. Per saperne di pi\u00f9 su Sagemaker puoi anche dare un&#8217;occhiata ai nostri altri <a href=\"https:\/\/blog.besharp.it\/category\/ai-ml\/\" target=\"_blank\" rel=\"noreferrer noopener\">articoli<\/a>.<\/p>\n\n\n\n<p>Iniziamo!<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Il nostro setup<\/h2>\n\n\n\n<p>In questo esempio, configureremo diversi sensori per inviare dati di temperatura e diagnostici alla nostra pipeline ed eseguiremo diverse analisi BI, per verificarne l&#8217;efficienza; useremo infine un modello di Sagemaker per ricercare la presenza di anomalie.<\/p>\n\n\n\n<p>Per mantenere le cose interessanti, vogliamo anche acquisire i dati storici da due posizioni diverse: un bucket S3 e un database che risiede su un&#8217;istanza EC2 in una VPC diversa da quella della nostra pipeline ETL.<\/p>\n\n\n\n<p>Useremo diversi job ETL per recuperare ed estrarre i dati puliti dalle tuple a disposizione e AWS Step Functions per orchestrare tutti i crawler e i job.<\/p>\n\n\n\n<p>Kinesis Data Firehose recuperer\u00e0 continuamente i dati dei sensori e con AWS Athena interrogheremo le informazioni, dai dati aggregati e per sensore, per mostrare le statistiche grafiche in Amazon Quicksight.<\/p>\n\n\n\n<p>Ecco un semplice schema che illustra i servizi coinvolti e il flusso completo.<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"658\" src=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image8-1-1024x658.png\" alt=\"La nostra infrastruttura\" class=\"wp-image-2652\" srcset=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image8-1-1024x658.png 1024w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image8-1-400x257.png 400w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image8-1-768x494.png 768w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image8-1.png 1400w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><figcaption><em>La nostra infrastruttura<\/em><\/figcaption><\/figure>\n\n\n\n<h2 class=\"wp-block-heading\">Kinesis Data Firehose&nbsp;<\/h2>\n\n\n\n<p>Kinesis Data Firehose pu\u00f2 essere utilizzato per ottenere dati quasi in tempo reale dai sensori, che sfruttano IoT Core SDK per connettersi ai dispositivi effettivi. Come visto in questo <a href=\"https:\/\/blog.besharp.it\/iot-ingestion-and-ml-analytics-pipeline-with-aws-iot-kinesis-and-sagemaker\/\" target=\"_blank\" rel=\"noreferrer noopener\">articolo<\/a>, possiamo creare una &#8220;Cosa&#8221;, generando cos\u00ec un <strong>topic<\/strong>. Collegandosi a tale <strong>topic<\/strong>, diversi dispositivi possono raccogliere le proprie metriche tramite Firehose inviando messaggi utilizzando il <a href=\"https:\/\/mqtt.org\/\" target=\"_blank\" rel=\"noreferrer noopener\">protocollo MQTT<\/a> e, se necessario, IoT Core pu\u00f2 anche gestire <strong>l&#8217;autenticazione<\/strong> del dispositivo.<\/p>\n\n\n\n<p>Per iniziare a inviare i dati dei sensori, dobbiamo scaricare il kit di connessione dalla pagina <a href=\"https:\/\/eu-west-1.console.aws.amazon.com\/iot\/home?region=eu-west-1#\/connectdevice\/\" target=\"_blank\" rel=\"noreferrer noopener\">AWS IoT<\/a> seguendo le istruzioni presentate.<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"392\" src=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image4-1-1024x392.png\" alt=\"Selezione OS e linguaggio\" class=\"wp-image-2644\" srcset=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image4-1-1024x392.png 1024w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image4-1-400x153.png 400w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image4-1-768x294.png 768w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image4-1-1536x588.png 1536w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image4-1.png 1600w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><figcaption><em>Seleziona OS e linguaggio di programmazione per scaricare il connection kit<\/em><br><\/figcaption><\/figure>\n\n\n\n<p>Una volta scaricato, inizializziamo un nuovo progetto Node.js e <strong>installiamo AWS-IoT-device-SDK<\/strong>. Dopodich\u00e9, \u00e8 possibile eseguire lo script <strong>start.sh<\/strong> incluso, assicurandosi che tutti i certificati, scaricati insieme al kit, siano nella stessa directory. Ora possiamo creare uno script locale per inviare dati a un topic, passando i moduli richiesti e utilizzando <strong>device.publish (&#8220;&lt;topic&gt;&#8221;, payload)<\/strong>:<\/p>\n\n\n\n<pre>const deviceModule = require('aws-iot-device-sdk').device;\nconst cmdLineProcess = require('aws-iot-device-sdk\/examples\/lib\/cmdline');\n\u2026\ndevice.publish('topic', JSON.stringify(payload));\n<\/pre>\n\n\n\n<p>I dati inviati sono strutturati in formato JSON con la seguente struttura:<\/p>\n\n\n\n<pre>{\t\n   \u201ctimestamp\u201d: \u201cYYYY-MM-DD HH:MM:SS\u201d,\n   \u201croom_id\u201d: \u201cXXXX\u201d,\n   \u201ctemperature\u201d: 99\n}\n<\/pre>\n\n\n\n<p>Per creare un flusso di consegna di Firehose, andiamo alla dashboard del servizio <strong>Kinesis Firehose<\/strong> nella console Web di AWS, facciamo clic su &#8220;Crea flusso di consegna&#8221;, selezioniamo un nome, quindi &#8220;Direct PUT or other sources&#8221; come in figura:<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"823\" src=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image7-1-1024x823.png\" alt=\"Delivery stream\" class=\"wp-image-2650\" srcset=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image7-1-1024x823.png 1024w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image7-1-373x300.png 373w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image7-1-768x618.png 768w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image7-1-1536x1235.png 1536w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image7-1.png 1716w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><figcaption><em>Creare una nuova delivery stream di Firehose<\/em><\/figcaption><\/figure>\n\n\n\n<p>Lasciamo \u201cData transformation\u201d e \u201cRecord format conversion\u201d come di default. Selezioniamo una destinazione di S3 come target. Ricordiamoci di definire anche una <strong>IoT Rule<\/strong> per inviare i messaggi IoT a Firehose mediante delivery stream.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Glue crawlers e connettori<\/h2>\n\n\n\n<p>AWS Glue pu\u00f2 essere utilizzato per estrarre e trasformare dati da una moltitudine di origini dati diverse, grazie alla possibilit\u00e0 di definire diversi tipi di connettori.<\/p>\n\n\n\n<p><strong>Database su istanza EC2<\/strong><\/p>\n\n\n\n<p>Vogliamo essere in grado di generare un Glue Data Catalog da un database Microsoft SQL Server, che risiede su un&#8217;istanza EC2 in un\u2019 altra VPC. Per fare ci\u00f2, dobbiamo creare una connessione JDBC, che pu\u00f2 essere eseguita facilmente accedendo alla pagina del servizio AWS Glue e aggiungendo una nuova connessione; questa si trova nella sezione &#8220;Catalogo dati &#8211; Database&#8221; del menu della barra laterale.<\/p>\n\n\n\n<p>Basta aggiungere un nome alla connessione (che verr\u00e0 utilizzata dal relativo Crawler Job), l&#8217;URL JDBC, seguendo la giusta convenzione per ORACLE DB, nome utente e password, VPC e sottorete richiesti.<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"956\" height=\"1024\" src=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image2-1-956x1024.png\" alt=\"JDBC - parametri di connessione\" class=\"wp-image-2640\" srcset=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image2-1-956x1024.png 956w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image2-1-280x300.png 280w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image2-1-768x822.png 768w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image2-1.png 1300w\" sizes=\"auto, (max-width: 956px) 100vw, 956px\" \/><figcaption><em>JDBC &#8211; parametri di connessione<\/em><\/figcaption><\/figure>\n\n\n\n<p>Per stabilire una connessione glue al database, dobbiamo creare una nuova VPC dedicata che verr\u00e0 utilizzata solo da Glue. La VPC \u00e8 connessa a quella che contiene il data-warehouse tramite <a href=\"https:\/\/docs.aws.amazon.com\/vpc\/latest\/peering\/what-is-vpc-peering.html\" target=\"_blank\" rel=\"noreferrer noopener\">peering VPC<\/a>, ma sono possibili anche altre opzioni, ad esempio avremmo potuto utilizzare AWS Transit Gateway. Una volta stabilito il peering, dobbiamo ricordarci di aggiungere le rotte corrette, sia alla sottorete Glue che a quella del DB, in modo che le VPC possano scambiare traffico e di aprire il security group del DB, per consentire il traffico in entrata sulla porta pertinente, al security group di Glue nella nuova VPC.<\/p>\n\n\n\n<p><strong>Dati su S3<\/strong><\/p>\n\n\n\n<p>I dati su S3 non richiedono un connettore e possono essere configurati direttamente dalla console di AWS Glue. Creiamo un nuovo crawler, selezionando &#8220;data stores&#8221; per il <strong>tipo di origine del crawler<\/strong>; quindi selezioniamo anche &#8220;Crawl all folder&#8221;. Dopodich\u00e9 \u00e8 solo questione di impostare il bucket S3, il ruolo IAM corretto e creare un nuovo Schema di GLue per questo crawler. Impostare anche &#8220;Run on demand&#8221;.<\/p>\n\n\n\n<p><strong>Glue Job<\/strong><\/p>\n\n\n\n<p>I Glue Jobs sono i passaggi della pipeline ETL. Consentono di estrarre, trasformare e salvare i dati in un datalake. Nel nostro esempio, vorremmo mostrare due diversi approcci: job <strong>gestiti da AWS Glue Studio<\/strong> e mediante l\u2019utilizzo di <strong>codice personalizzato<\/strong>. Entrambi i job verranno successivamente richiamati da AWS Step Function.<\/p>\n\n\n\n<p>Per i dati storici su S3, possiamo definire i job da Glue Studio. Per S3 selezionare le seguenti opzioni nell\u2019ordine:<\/p>\n\n\n\n<ol class=\"wp-block-list\"><li>Nella pagina <strong>Manage Jobs<\/strong>, selezioniamo sorgente e destinazione da aggiungere alle opzioni del nodo. Quindi, scegliamo S3 come Source e comeTarget.<\/li><li>Clicchiamo su \u201cS3 Data source\u201d, quindi selezioniamo il bucket di origine.<\/li><li>Nella tab \u201cNode Properties\u201d, inseriamo un nome. Clicchiamo poi sulla tab \u201cData source properties \u2013 S3\u201d nel pannello dei dettagli del nodo. Selezioniamo il nostro schema dalla lista di database nel Glue Data Catalog. Selezioniamo quindi la tabella corretta dal Catalogo.<\/li><li>Verifichiamo che il mapping sia corretto.<\/li><li>Nel Nodo \u201cS3 Data target\u201d, selezioniamo il bucket di destinazione, CSV come formato (parquet \u00e8 meglio, ma abbiamo bisogno di CSV per il Random Cut forest), nessuna compressione.<\/li><\/ol>\n\n\n\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"600\" src=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image1-1-1024x600.png\" alt=\"Propriet\u00e0 del nodo di destinazione\" class=\"wp-image-2638\" srcset=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image1-1-1024x600.png 1024w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image1-1-400x234.png 400w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image1-1-768x450.png 768w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image1-1.png 1400w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><figcaption><em>Propriet\u00e0 del nodo di destinazione<\/em><\/figcaption><\/figure>\n\n\n\n<p>Per estrarre i dati dalla nostra istanza EC2, invece, abbiamo bisogno di un custom job. Per crearlo, dobbiamo scrivere noi stessi uno script, ma non preoccupatevi: \u00e8 piuttosto semplice! Ecco i punti chiave che si devono conoscere per creare uno Spark Job con Glue: il processo ETL \u00e8 composto da 6 aree distinte nello script:<\/p>\n\n\n\n<p><strong>Import delle librerie<\/strong><\/p>\n\n\n\n<p>Set base necessario al funzionamento dello script:<\/p>\n\n\n\n<pre>import sys\nfrom awsglue.transforms import *\nfrom awsglue.utils import getResolvedOptions\nfrom pyspark.context import SparkContext\nfrom awsglue.context import GlueContext\nfrom awsglue.job import Job\nfrom awsglue.dynamicframe import DynamicFrame\n<\/pre>\n\n\n\n<p><strong>Prepariamo i connettori e altre variabili<\/strong><\/p>\n\n\n\n<p>Da usare all\u2019interno dello script:<\/p>\n\n\n\n<pre>args = getResolvedOptions(sys.argv, ['JOB_NAME'])\nsc = SparkContext()\nglueContext = GlueContext(sc)\nspark = glueContext.spark_session\njob = Job(glueContext)\njob.init(args['JOB_NAME'], args)\n<\/pre>\n\n\n\n<p><strong>Recuperate i Dynamic Frame dal Glue Catalog ottenuto tramite un Crawler<\/strong><\/p>\n\n\n\n<p>I dynamic frame vengono utilizzati per fare query e trasformare i dati<\/p>\n\n\n\n<pre>rooms_temperatures_df = glueContext.create_dynamic_frame.from_catalog(database = \"raw_temperatures\", table_name = \"temperatures\", transformation_ctx = \"temperature_transforms\").toDF()\nrooms_temperatures_df.createOrReplaceTempView(\"TEMPERATURES\")\n<\/pre>\n\n\n\n<p>L\u2019ultima linea di codice permette di modificare un dynamic frame.<\/p>\n\n\n\n<p><strong>Applichiamo le operazioni di SQL<\/strong><\/p>\n\n\n\n<p>Per estrarre informazioni specifiche<\/p>\n\n\n\n<pre>result = glueContext.sql(\"<query>\u201d)<\/pre>\n\n\n\n<p>Nel nostro caso, abbiamo bisogno di generare 3 risultati distinti, uno per ogni room, e per questo usiamo un semplice <strong>WHERE room_id = &lt;value&gt;<\/strong><\/p>\n\n\n\n<p><strong>Applichiamo il nostro mapping<\/strong><\/p>\n\n\n\n<p>Per generare uno schema di conversione<\/p>\n\n\n\n<pre>dynamicFrameResult = DynamicFrame.fromDF(result, glueContext, \"Result\")\napplymapping = ApplyMapping.apply(frame = dynamicFrameResult, mappings = [(\"temp\", \"bigint\", \"temp\",\"bigint\"), (\"room_id\", \"string\", \"room_id\",\"string\"), (\"timestamp\", \"string\", \"timestamp\",\"string\")])\n<\/pre>\n\n\n\n<p><strong>Salviamo di nuovo su S3<\/strong><\/p>\n\n\n\n<p>Per poter manipolare i dati in seguito<\/p>\n\n\n\n<pre>to_be_written = glueContext.write_dynamic_frame.from_options(frame = applymapping, connection_type = \"s3\", connection_options = {\"path\": \"s3:\/\/<path>\", \"partitionKeys\": [\"timestamp\"]}, format = \"csv\", transformation_ctx = \"to_be_written\")\njob.commit()\n<\/pre>\n\n\n\n<h2 class=\"wp-block-heading\">Step Function<\/h2>\n\n\n\n<p>La Step Function rappresenta il nucleo, la logica della nostra soluzione di esempio. Il suo scopo principale \u00e8 gestire tutti i lavori ETL, mantenerli sincronizzati e gestire gli errori. Un vantaggio \u00e8 che possiamo usare la Step Function per regolare i dati iniettati nel bucket S3 centrale, dove salviamo tutti i valori puliti.<\/p>\n\n\n\n<p>Per iniziare, questo \u00e8 lo schema della step function che abbiamo usato per questo esempio:<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"676\" height=\"699\" src=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image3-1.png\" alt=\"La nostra pipeline di esempio\" class=\"wp-image-2642\" srcset=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image3-1.png 676w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image3-1-290x300.png 290w\" sizes=\"auto, (max-width: 676px) 100vw, 676px\" \/><figcaption><em>La nostra pipeline di esempio<\/em><\/figcaption><\/figure>\n\n\n\n<p>Nel nostro esempio ci sono un paio di hint interessanti che vorremmo condividere su Step Function; in primo luogo, abbiamo 2 crawler loop principali: il primo, ha branch e gestisce 2 crawler contemporaneamente (uno standard per S3 e uno per il database EC2 che \u00e8 quello personalizzato); il secondo prende tutti i dati recuperati sia dalle sorgenti di dati storici che da quella in real-time (da Kinesis Firehose) ed estrae i set di dati per room, che verranno poi utilizzati con Amazon SageMaker.<\/p>\n\n\n\n<p>Poich\u00e9 i crawler sono asincroni, non possiamo aspettarli, quindi abbiamo dovuto creare 2 cicli di attesa per entrambi gli step di esecuzione.<\/p>\n\n\n\n<p>AWS Lambda viene utilizzato per chiamare le API di AWS Glue per avviare i job che abbiamo configurato in precedenza.<\/p>\n\n\n\n<p>Per darvi qualche spunto, ecco alcune parti interessanti descritte nel file JSON che rappresenta la macchina a stati.<\/p>\n\n\n\n<pre>\"Type\": \"Parallel\",\n  \"Branches\": [\n        {\n          \"StartAt\": \"Import Raw from EXTERNAL_DB\",\n          \"States\": {\n            \"Import Raw from EXTERNAL_DB\": {\n              \"Type\": \"Task\",\n              \"Resource\": \"arn:aws:states:::glue:startJobRun.sync\",\n<\/pre>\n\n\n\n<p>In AWS Step Function, possiamo avviare attivit\u00e0 in parallelo (per noi, i due processi glue sui dati storici) utilizzando &#8220;Type: Parallel&#8221; e &#8220;Branches&#8221;. Inoltre dopo la chiave \u201cBranches\u201d, vediamo come \u00e8 possibile recuperare il risultato dei job in parallelo.<\/p>\n\n\n\n<pre>\"ResultPath\": \"$.ParallelExecutionOutput\",\n\"Next\": \"Start LAKE_DATA Crawler\"\n<\/pre>\n\n\n\n<p>Possiamo eseguire un Glue Job sincrono definito nella console, passando il nome del job stesso e anche abilitando la generazione di un Glue catalog durante il processo.<\/p>\n\n\n\n<pre>\"Parameters\": {\n                \"JobName\": \"EXTERNAL_DB_IMPORT_TO_RAW\",\n                \"Arguments\": {\n                  \"--enable-glue-datacatalog\": \"true\",\n<\/pre>\n\n\n\n<p>Possiamo inoltre risolvere le eccezioni del codice direttamente in Step Function portandoci in uno step di errore mediante la chiave \u201cCatch\u201d:<\/p>\n\n\n\n<pre>\"Catch\": [\n        {\n          \"ErrorEquals\": [\n            \"States.TaskFailed\"\n          ],\n          \"Next\": \"Data Pipeline Failure\"\n        }\n],\n<\/pre>\n\n\n\n<p>Poich\u00e9 non abbiamo un modo standard per attendere il completamento dei lavori, utilizziamo l&#8217;output dei lavori paralleli e un ciclo di attesa di Step Functions per verificare se l&#8217;operazione \u00e8 stata eseguita; per questo, usiamo la chiave &#8220;Wait&#8221;:<\/p>\n\n\n\n<pre>\"Wait for LAKE_DATA Crawler\": {\n      \"Type\": \"Wait\",\n      \"Seconds\": 5,\n      \"Next\": \"Check LAKE_DATA Crawler\"\n},\n<\/pre>\n\n\n\n<p>Il resto del flusso \u00e8 praticamente una ripetizione di questi componenti.<\/p>\n\n\n\n<p>Il fatto interessante \u00e8 che possiamo applicare alcune condizioni di partenza per alterare l&#8217;esecuzione del flusso, come evitare alcuni lavori se non necessari al momento o anche eseguire un&#8217;altra macchina a stati da un passo preciso per prendere il nostro esempio e modularizzare le parti pi\u00f9 complicate.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Athena e Quicksight<\/h2>\n\n\n\n<p>Athena pu\u00f2 generare tabelle che possono essere interrogate utilizzando il linguaggio SQL standard, non solo: i risultati delle query Athena possono essere importati in Amazon QuickSight per generare rapidamente grafici e report, basati sui tuoi dati.<\/p>\n\n\n\n<p>Nel nostro flusso di lavoro, \u00e8 possibile eseguire query Athena sul bucket S3 di destinazione che contiene sia i dati della temperatura globale sia quelli specifici dei sensori. Vediamo rapidamente come fare:<\/p>\n\n\n\n<ol class=\"wp-block-list\"><li>Se abbiamo gi\u00e0 creato un Glue Crawler, avremo un Datasource e una table.<\/li><li>Selezioniamo il database e la tabella nella dashboard di Athena, nella sidebar a sinistra (abbiamo utilizzato temperatures_db e temperatures, ottenuti dai nostri crawlers).<\/li><li>Creiamo una semplice query che possa essere utilizzata poi in QuickSight per mostrare un grafico, ad esempio, una semplice \u201cSELECT * FROM temperatures\u201d.&nbsp;<\/li><\/ol>\n\n\n\n<p>Tramite questi 3 step, Athena generer\u00e0 il risultato della query come mostrato in figura:<\/p>\n\n\n\n<figure class=\"wp-block-image size-large is-resized\"><img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image5-1-1024x312.png\" alt=\"Athena - query di esempio\" class=\"wp-image-2646\" width=\"580\" height=\"176\" srcset=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image5-1-1024x312.png 1024w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image5-1-400x122.png 400w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image5-1-768x234.png 768w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image5-1-1536x468.png 1536w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image5-1.png 1999w\" sizes=\"auto, (max-width: 580px) 100vw, 580px\" \/><figcaption><em>Athena &#8211; query di esempio<\/em><\/figcaption><\/figure>\n\n\n\n<p>Un paio di trucchi interessanti quando si lavora con Athena:<\/p>\n\n\n\n<ul class=\"wp-block-list\"><li>Evitiamo di usare il carattere \u201c-\u201d nel nome del database, usiamo \u201c_\u201d invece.<\/li><li>Per quanto ci sia possibile evitiamo che i crawlers scansionino cartelle contenenti file con schema differenti, possiamo farlo solo con quelli che condividono lo stesso schema (ad esempio per generare delle partition).<\/li><\/ul>\n\n\n\n<p>Quicksight pu\u00f2 leggere query di Athena e presentare grafici e diagrammi da esse. \u00c8 molto semplice: andiamo alla pagina del servizio Quicksight e seguiamo uno dei tanti <a href=\"https:\/\/github.com\/mariojaspers\/QuicksightAthena01\" target=\"_blank\" rel=\"noreferrer noopener\">tutorial<\/a> a riguardo, tenendo presente alcune cose importanti:<\/p>\n\n\n\n<ul class=\"wp-block-list\"><li>Quicksight non \u00e8 <strong>direttamente incluso nelle risorse del proprio account, bisogna abilitare una subscription<\/strong> a pagamento (ci sono 60 giorni di trial per\u00f2).<\/li><li>Per poter accedere ad Athena, <strong>Quicksight necessita che il proprio ruolo ottenga accesso completo ad Athena.<\/strong><\/li><li>Un certificato SSL valido deve essere rilasciato e presente, per esempio utilizzando Amazon ACM.<\/li><\/ul>\n\n\n\n<p>Se non vogliamo, o non possiamo, utilizzare Quicksight, possiamo sempre chiamare direttamente le API di Athena e creare la nostra dashboard customizzata da zero.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">SageMaker: Random Cut Forest anomaly detection<\/h2>\n\n\n\n<p>L&#8217;algoritmo di apprendimento automatico che esploreremo in questo articolo si chiama Random Cut Forest. L&#8217;algoritmo prende un insieme di data point casuali (Random), li taglia allo <strong>stesso numero di punti<\/strong> e crea alberi (Cut). Infine, controlla tutti gli alberi insieme (Forest) per verificare se un particolare data point deve essere considerato un&#8217;anomalia.<\/p>\n\n\n\n<p>In generale, un albero \u00e8 un modo ordinato di memorizzare dati numerici e, per crearlo, suddividiamo casualmente i data point fino a quando \u00e8 possibile isolare il punto che stiamo testando per determinare se si tratta di un&#8217;anomalia. Ogni volta che suddividiamo i punti viene creato un nuovo livello dell&#8217;albero.<\/p>\n\n\n\n<p>SageMaker offre un&#8217;implementazione managed di Random Cut Forest che accetta data points in formato CSV. Possiamo recuperare facilmente i dataset con:<\/p>\n\n\n\n<pre>data_location = f\u201ds3:\/\/{bucket}\/{key}\u201d\ndf=pd.read_csv(data_location,delimiter=\u2019,\u2019)\n<\/pre>\n\n\n\n<p>I dati contengono un <strong>timestamp<\/strong>, il <strong>valore della temperatura<\/strong> in C \u00b0 e un <strong>room_id<\/strong>, che identifica una particolare stanza in cui \u00e8 stato installato il sensore. Abbiamo gi\u00e0 utilizzato la nostra Step Function per dividere i dati provenienti da stanze diverse in modo da poter passare direttamente il CSV all&#8217;Estimator.<\/p>\n\n\n\n<figure class=\"wp-block-image size-large is-resized\"><img loading=\"lazy\" decoding=\"async\" src=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image6-1.png\" alt=\"Sample data\" class=\"wp-image-2648\" width=\"579\" height=\"489\" srcset=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image6-1.png 474w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image6-1-356x300.png 356w\" sizes=\"auto, (max-width: 579px) 100vw, 579px\" \/><figcaption><em>Sample data<\/em><br><\/figcaption><\/figure>\n\n\n\n<p>Abbiamo fatto riferimento a questo <a href=\"https:\/\/docs.aws.amazon.com\/sagemaker\/latest\/dg\/randomcutforest.html\" target=\"_blank\" rel=\"noreferrer noopener\">articolo<\/a> per verificare come i dati possano essere passati all\u2019Estimator. Stando alla documentazione ufficiale, dobbiamo passare 3 iperparametri principali:<\/p>\n\n\n\n<ul class=\"wp-block-list\"><li><strong>num_samples_per_tree<\/strong> &#8211; il numero di punti estrapolati in modo casuale da passare ad ogni albero. <strong>1\/num_samples_per_tree<\/strong> dovrebbe approssimare il valore stimato di <strong>anomalies\/points<\/strong> nel dataset.<\/li><li><strong>num_trees<\/strong> &#8211; il numero di alberi creati nella foresta. Ogni albero impara da un modello differente, generato da sample di dati differenti.&nbsp;<\/li><li><strong>feature_dim<\/strong> &#8211; la dimensione di ogni data point.<\/li><\/ul>\n\n\n\n<p>L\u2019Estimator \u00e8 definito in questo modo:<\/p>\n\n\n\n<pre>import sagemaker\nfrom sagemaker import RandomCutForest\n \nexecution_role = sagemaker.get_execution_role()\nsagemaker_session = sagemaker.Session()\nbucket = \u201c<your_bucket>\u201d\nprefix = \u201c<your_prefix>\u201d\n \nrcf = RandomCutForest(\n    role=execution_role,\n    instance_count=1,\n    instance_type=\"ml.m4.xlarge\",\n    data_location=f\"s3:\/\/{bucket}\/{prefix}\",\n    output_path=f\"s3:\/\/{bucket}\/{prefix}\/output\",\n    num_samples_per_tree=512,\n    num_trees=50,\n)\nrcf.fit(rcf.record_set(df.value.to_numpy().reshape(-1, 1)))\n<\/pre>\n\n\n\n<p>Alcune informazioni da tenere in considerazione sono che generiamo <strong>execution_role<\/strong> e <strong>sagemaker_session<\/strong> utilizzando i metodi incorporati di SageMaker. Per il nostro training utilizziamo un&#8217;istanza <strong>ml.m4xlarge<\/strong>, mentre per l\u2019inferenza abbiamo utilizzato una <strong>ml.c5.xlarge <\/strong>come suggerito dalla documentazione. Non sprechiamo crediti per le istanze GPU poich\u00e9 l&#8217;algoritmo RCF non tiene conto della GPU.<\/p>\n\n\n\n<p>Per il deploy possiamo utilizzare l&#8217;approccio standard:<\/p>\n\n\n\n<pre>rcf.deploy(initial_instance_count=1, instance_type=\"ml.m4.xlarge\")\n<\/pre>\n\n\n\n<p>E cos\u00ec ci siamo! Abbiamo raggiunto la fine di questo workflow. Vediamo alcune referenze e riassumiamo quanto analizzato fin\u2019ora.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Referenze<\/h2>\n\n\n\n<ul>\n<li><a href=\"https:\/\/docs.aws.amazon.com\/step-functions\/latest\/dg\/create-sample-projects.html\" target=\"_blank\" rel=\"noopener\">https:\/\/docs.aws.amazon.com\/step-functions\/latest\/dg\/create-sample-projects.html<\/a><\/li>\n<li><a href=\"https:\/\/docs.aws.amazon.com\/glue\/latest\/dg\/connection-using.html\" target=\"_blank\" rel=\"noopener\">https:\/\/docs.aws.amazon.com\/glue\/latest\/dg\/connection-using.html<\/a><\/li>\n<li><a href=\"https:\/\/docs.aws.amazon.com\/glue\/latest\/dg\/connection-defining.html\" target=\"_blank\" rel=\"noopener\">https:\/\/docs.aws.amazon.com\/glue\/latest\/dg\/connection-defining.html<\/a><\/li>\n<li><a href=\"https:\/\/docs.aws.amazon.com\/glue\/latest\/dg\/populate-add-connection.html\" target=\"_blank\" rel=\"noopener\">https:\/\/docs.aws.amazon.com\/glue\/latest\/dg\/populate-add-connection.html<\/a><\/li>\n<li><a href=\"https:\/\/docs.aws.amazon.com\/athena\/latest\/ug\/glue-athena.html\" target=\"_blank\" rel=\"noopener\">https:\/\/docs.aws.amazon.com\/athena\/latest\/ug\/glue-athena.html<\/a><\/li>\n<li><a href=\"https:\/\/docs.aws.amazon.com\/quicksight\/latest\/user\/create-a-data-set-athena.html\" target=\"_blank\" rel=\"noopener\">https:\/\/docs.aws.amazon.com\/quicksight\/latest\/user\/create-a-data-set-athena.html<\/a><\/li>\n<li><a href=\"https:\/\/docs.aws.amazon.com\/sagemaker\/latest\/dg\/randomcutforest.html\" target=\"_blank\" rel=\"noopener\">https:\/\/docs.aws.amazon.com\/sagemaker\/latest\/dg\/randomcutforest.html<\/a><\/li>\n<li><a href=\"https:\/\/docs.aws.amazon.com\/vpc\/latest\/peering\/what-is-vpc-peering.html\" target=\"_blank\" rel=\"noopener\">https:\/\/docs.aws.amazon.com\/vpc\/latest\/peering\/what-is-vpc-peering.html<\/a><\/li>\n<li><a href=\"https:\/\/aws.amazon.com\/blogs\/big-data\/derive-insights-from-iot-in-minutes-using-aws-iot-amazon-kinesis-firehose-amazon-athena-and-amazon-quicksight\/\" target=\"_blank\" rel=\"noopener\">https:\/\/aws.amazon.com\/blogs\/big-data\/derive-insights-from-iot-in-minutes-using-aws-iot-amazon-kinesis-firehose-amazon-athena-and-amazon-quicksight\/<\/a><\/li>\n<\/ul>\n\n\n\n<h2 class=\"wp-block-heading\">Takeaways<\/h2>\n\n\n\n<p>In questo articolo, abbiamo visto molti servizi di AWS perfettamente adatti per l&#8217;analisi dei dati quando si tratta di scenari quasi in tempo reale. Abbiamo discusso di AWS Step Function e di come pu\u00f2 essere utilizzata per orchestrare flussi di lavoro non lineari, offrendo agli sviluppatori la possibilit\u00e0 di avere pi\u00f9 scelte nella manipolazione ed estrazione dei dati per diversi tipi di analisi.<\/p>\n\n\n\n<p>AWS Glue si \u00e8 dimostrato sufficientemente flessibile da prendersi cura di origini di dati residenti in luoghi diversi: istanze EC2, S3 e in account diversi. \u00c8 stata una scelta perfetta, anche per la semplicit\u00e0 di impostare Spark Job. Abbiamo visto in particolare come connettersi a un&#8217;origine dati utilizzando una connessione JDBC.<\/p>\n\n\n\n<p>Athena ha dimostrato di essere lo strumento perfetto per estrarre i risultati ETL per la fruizione da parte della Business Intelligence e Quicksight \u00e8 la scelta pi\u00f9 ovvia per mostrare i risultati, poich\u00e9 \u00e8 nativamente compatibile con le query di Athena.<\/p>\n\n\n\n<p>Come in molti altri scenari che abbiamo affrontato, Kinesis Data Firehose \u00e8 stato utilizzato anche per trasferire dati quasi in tempo reale a S3 da una fonte non AWS.<\/p>\n\n\n\n<p>Abbiamo anche visto come Amazon S3 sia sempre un must quando si tratta di flussi di lavoro di big data, problemi di machine learning e creazione di data lake. I suoi standard di durabilit\u00e0, oltre alla compatibilit\u00e0 con qualsiasi altro servizio AWS, lo rendono la scelta perfetta sia per l&#8217;archiviazione a lungo termine che per il buffer intermedio.<\/p>\n\n\n\n<p>Per concludere, abbiamo fornito alcuni suggerimenti su come manipolare i dati in SageMaker per eseguire inferenze per il rilevamento di anomalie.<\/p>\n\n\n\n<p>Questo conclude il nostro viaggio di oggi, come sempre sentitevi liberi di commentare e raggiungerci per discutere qualsiasi domanda, dubbio o idea che vi venga in mente. Saremo lieti di rispondere il prima possibile!<\/p>\n\n\n\n<p>Fino alla nostra prossima storia, stay safe e <a href=\"\" target=\"_blank\" rel=\"noreferrer noopener\">#Proud2beCloud!<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Le pipeline di ETL su AWS di solito hanno un comportamento lineare: si inizia da un servizio e si termina [&hellip;]<\/p>\n","protected":false},"author":9,"featured_media":2690,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[474],"tags":[414,261,446,444,410],"class_list":["post-2625","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-data-analytics","tag-amazon-athena","tag-amazon-kinesis-data-firehose","tag-amazon-quicksight","tag-aws-glue","tag-data-analytics"],"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v24.7 - https:\/\/yoast.com\/wordpress\/plugins\/seo\/ -->\n<title>Come orchestrare una pipeline di Data Analytics e Business Intelligence via Step Function - Proud2beCloud Blog<\/title>\n<meta name=\"description\" content=\"Un potente strumento per orchestrare pipeline ETL attraverso il servizio AWS Step Function.\" \/>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/blog.besharp.it\/it\/come-orchestrare-una-pipeline-di-data-analytics-e-business-intelligence-via-step-function\/\" \/>\n<meta property=\"og:locale\" content=\"it_IT\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"AWS Step Functions: Pipeline di Data Analytics e Business Intelligence\" \/>\n<meta property=\"og:description\" content=\"Un potente strumento per orchestrare pipeline ETL attraverso il servizio AWS Step Function.\" \/>\n<meta property=\"og:url\" content=\"https:\/\/blog.besharp.it\/it\/come-orchestrare-una-pipeline-di-data-analytics-e-business-intelligence-via-step-function\/\" \/>\n<meta property=\"og:site_name\" content=\"Proud2beCloud Blog\" \/>\n<meta property=\"article:published_time\" content=\"2021-02-19T10:05:48+00:00\" \/>\n<meta property=\"article:modified_time\" content=\"2021-03-17T14:34:25+00:00\" \/>\n<meta property=\"og:image\" content=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/beSharp_2021_19_02_social.png\" \/>\n\t<meta property=\"og:image:width\" content=\"1200\" \/>\n\t<meta property=\"og:image:height\" content=\"628\" \/>\n\t<meta property=\"og:image:type\" content=\"image\/png\" \/>\n<meta name=\"author\" content=\"Matteo Moroni\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:title\" content=\"AWS Step Functions: Pipeline di Data Analytics e Business Intelligence\" \/>\n<meta name=\"twitter:description\" content=\"Un potente strumento per orchestrare pipeline ETL attraverso il servizio AWS Step Function.\" \/>\n<meta name=\"twitter:image\" content=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/beSharp_2021_19_02_social.png\" \/>\n<meta name=\"twitter:label1\" content=\"Scritto da\" \/>\n\t<meta name=\"twitter:data1\" content=\"Matteo Moroni\" \/>\n\t<meta name=\"twitter:label2\" content=\"Tempo di lettura stimato\" \/>\n\t<meta name=\"twitter:data2\" content=\"14 minuti\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\/\/schema.org\",\"@graph\":[{\"@type\":\"WebPage\",\"@id\":\"https:\/\/blog.besharp.it\/it\/come-orchestrare-una-pipeline-di-data-analytics-e-business-intelligence-via-step-function\/\",\"url\":\"https:\/\/blog.besharp.it\/it\/come-orchestrare-una-pipeline-di-data-analytics-e-business-intelligence-via-step-function\/\",\"name\":\"Come orchestrare una pipeline di Data Analytics e Business Intelligence via Step Function - Proud2beCloud Blog\",\"isPartOf\":{\"@id\":\"https:\/\/blog.besharp.it\/it\/#website\"},\"primaryImageOfPage\":{\"@id\":\"https:\/\/blog.besharp.it\/it\/come-orchestrare-una-pipeline-di-data-analytics-e-business-intelligence-via-step-function\/#primaryimage\"},\"image\":{\"@id\":\"https:\/\/blog.besharp.it\/it\/come-orchestrare-una-pipeline-di-data-analytics-e-business-intelligence-via-step-function\/#primaryimage\"},\"thumbnailUrl\":\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/beSharp_2021_19_02.png\",\"datePublished\":\"2021-02-19T10:05:48+00:00\",\"dateModified\":\"2021-03-17T14:34:25+00:00\",\"author\":{\"@id\":\"https:\/\/blog.besharp.it\/it\/#\/schema\/person\/0b3e69eb2dcb125d58476b906ec1c7bc\"},\"description\":\"Un potente strumento per orchestrare pipeline ETL attraverso il servizio AWS Step Function.\",\"breadcrumb\":{\"@id\":\"https:\/\/blog.besharp.it\/it\/come-orchestrare-una-pipeline-di-data-analytics-e-business-intelligence-via-step-function\/#breadcrumb\"},\"inLanguage\":\"it-IT\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\/\/blog.besharp.it\/it\/come-orchestrare-una-pipeline-di-data-analytics-e-business-intelligence-via-step-function\/\"]}]},{\"@type\":\"ImageObject\",\"inLanguage\":\"it-IT\",\"@id\":\"https:\/\/blog.besharp.it\/it\/come-orchestrare-una-pipeline-di-data-analytics-e-business-intelligence-via-step-function\/#primaryimage\",\"url\":\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/beSharp_2021_19_02.png\",\"contentUrl\":\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/beSharp_2021_19_02.png\",\"width\":1668,\"height\":1250},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\/\/blog.besharp.it\/it\/come-orchestrare-una-pipeline-di-data-analytics-e-business-intelligence-via-step-function\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Home\",\"item\":\"https:\/\/blog.besharp.it\/it\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"Come orchestrare una pipeline di Data Analytics e Business Intelligence via Step Function\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\/\/blog.besharp.it\/it\/#website\",\"url\":\"https:\/\/blog.besharp.it\/it\/\",\"name\":\"Proud2beCloud Blog\",\"description\":\"il blog di beSharp\",\"alternateName\":\"Proud2beCloud Blog\",\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\/\/blog.besharp.it\/it\/?s={search_term_string}\"},\"query-input\":{\"@type\":\"PropertyValueSpecification\",\"valueRequired\":true,\"valueName\":\"search_term_string\"}}],\"inLanguage\":\"it-IT\"},{\"@type\":\"Person\",\"@id\":\"https:\/\/blog.besharp.it\/it\/#\/schema\/person\/0b3e69eb2dcb125d58476b906ec1c7bc\",\"name\":\"Matteo Moroni\",\"image\":{\"@type\":\"ImageObject\",\"inLanguage\":\"it-IT\",\"@id\":\"https:\/\/blog.besharp.it\/it\/#\/schema\/person\/image\/\",\"url\":\"https:\/\/secure.gravatar.com\/avatar\/acad790b9bb4c6d62e076ecdc1debb35?s=96&d=mm&r=g\",\"contentUrl\":\"https:\/\/secure.gravatar.com\/avatar\/acad790b9bb4c6d62e076ecdc1debb35?s=96&d=mm&r=g\",\"caption\":\"Matteo Moroni\"},\"description\":\"DevOps e Solution Architect di beSharp, mi occupo di sviluppare soluzioni Saas, Data Analysis, HPC e di progettare architetture non convenzionali a complessit\u00e0 divergente. Appassionato di informatica e fisica, da sempre lavoro nella prima e ho un PhD nella seconda. Parlare di tutto ci\u00f2 che \u00e8 tecnico e nerd mi rende felice!\",\"url\":\"https:\/\/blog.besharp.it\/it\/author\/matteo-moroni\/\"}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"Come orchestrare una pipeline di Data Analytics e Business Intelligence via Step Function - Proud2beCloud Blog","description":"Un potente strumento per orchestrare pipeline ETL attraverso il servizio AWS Step Function.","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/blog.besharp.it\/it\/come-orchestrare-una-pipeline-di-data-analytics-e-business-intelligence-via-step-function\/","og_locale":"it_IT","og_type":"article","og_title":"AWS Step Functions: Pipeline di Data Analytics e Business Intelligence","og_description":"Un potente strumento per orchestrare pipeline ETL attraverso il servizio AWS Step Function.","og_url":"https:\/\/blog.besharp.it\/it\/come-orchestrare-una-pipeline-di-data-analytics-e-business-intelligence-via-step-function\/","og_site_name":"Proud2beCloud Blog","article_published_time":"2021-02-19T10:05:48+00:00","article_modified_time":"2021-03-17T14:34:25+00:00","og_image":[{"width":1200,"height":628,"url":"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/beSharp_2021_19_02_social.png","type":"image\/png"}],"author":"Matteo Moroni","twitter_card":"summary_large_image","twitter_title":"AWS Step Functions: Pipeline di Data Analytics e Business Intelligence","twitter_description":"Un potente strumento per orchestrare pipeline ETL attraverso il servizio AWS Step Function.","twitter_image":"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/beSharp_2021_19_02_social.png","twitter_misc":{"Scritto da":"Matteo Moroni","Tempo di lettura stimato":"14 minuti"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"WebPage","@id":"https:\/\/blog.besharp.it\/it\/come-orchestrare-una-pipeline-di-data-analytics-e-business-intelligence-via-step-function\/","url":"https:\/\/blog.besharp.it\/it\/come-orchestrare-una-pipeline-di-data-analytics-e-business-intelligence-via-step-function\/","name":"Come orchestrare una pipeline di Data Analytics e Business Intelligence via Step Function - Proud2beCloud Blog","isPartOf":{"@id":"https:\/\/blog.besharp.it\/it\/#website"},"primaryImageOfPage":{"@id":"https:\/\/blog.besharp.it\/it\/come-orchestrare-una-pipeline-di-data-analytics-e-business-intelligence-via-step-function\/#primaryimage"},"image":{"@id":"https:\/\/blog.besharp.it\/it\/come-orchestrare-una-pipeline-di-data-analytics-e-business-intelligence-via-step-function\/#primaryimage"},"thumbnailUrl":"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/beSharp_2021_19_02.png","datePublished":"2021-02-19T10:05:48+00:00","dateModified":"2021-03-17T14:34:25+00:00","author":{"@id":"https:\/\/blog.besharp.it\/it\/#\/schema\/person\/0b3e69eb2dcb125d58476b906ec1c7bc"},"description":"Un potente strumento per orchestrare pipeline ETL attraverso il servizio AWS Step Function.","breadcrumb":{"@id":"https:\/\/blog.besharp.it\/it\/come-orchestrare-una-pipeline-di-data-analytics-e-business-intelligence-via-step-function\/#breadcrumb"},"inLanguage":"it-IT","potentialAction":[{"@type":"ReadAction","target":["https:\/\/blog.besharp.it\/it\/come-orchestrare-una-pipeline-di-data-analytics-e-business-intelligence-via-step-function\/"]}]},{"@type":"ImageObject","inLanguage":"it-IT","@id":"https:\/\/blog.besharp.it\/it\/come-orchestrare-una-pipeline-di-data-analytics-e-business-intelligence-via-step-function\/#primaryimage","url":"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/beSharp_2021_19_02.png","contentUrl":"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/beSharp_2021_19_02.png","width":1668,"height":1250},{"@type":"BreadcrumbList","@id":"https:\/\/blog.besharp.it\/it\/come-orchestrare-una-pipeline-di-data-analytics-e-business-intelligence-via-step-function\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Home","item":"https:\/\/blog.besharp.it\/it\/"},{"@type":"ListItem","position":2,"name":"Come orchestrare una pipeline di Data Analytics e Business Intelligence via Step Function"}]},{"@type":"WebSite","@id":"https:\/\/blog.besharp.it\/it\/#website","url":"https:\/\/blog.besharp.it\/it\/","name":"Proud2beCloud Blog","description":"il blog di beSharp","alternateName":"Proud2beCloud Blog","potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/blog.besharp.it\/it\/?s={search_term_string}"},"query-input":{"@type":"PropertyValueSpecification","valueRequired":true,"valueName":"search_term_string"}}],"inLanguage":"it-IT"},{"@type":"Person","@id":"https:\/\/blog.besharp.it\/it\/#\/schema\/person\/0b3e69eb2dcb125d58476b906ec1c7bc","name":"Matteo Moroni","image":{"@type":"ImageObject","inLanguage":"it-IT","@id":"https:\/\/blog.besharp.it\/it\/#\/schema\/person\/image\/","url":"https:\/\/secure.gravatar.com\/avatar\/acad790b9bb4c6d62e076ecdc1debb35?s=96&d=mm&r=g","contentUrl":"https:\/\/secure.gravatar.com\/avatar\/acad790b9bb4c6d62e076ecdc1debb35?s=96&d=mm&r=g","caption":"Matteo Moroni"},"description":"DevOps e Solution Architect di beSharp, mi occupo di sviluppare soluzioni Saas, Data Analysis, HPC e di progettare architetture non convenzionali a complessit\u00e0 divergente. Appassionato di informatica e fisica, da sempre lavoro nella prima e ho un PhD nella seconda. Parlare di tutto ci\u00f2 che \u00e8 tecnico e nerd mi rende felice!","url":"https:\/\/blog.besharp.it\/it\/author\/matteo-moroni\/"}]}},"_links":{"self":[{"href":"https:\/\/blog.besharp.it\/it\/wp-json\/wp\/v2\/posts\/2625","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/blog.besharp.it\/it\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/blog.besharp.it\/it\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/blog.besharp.it\/it\/wp-json\/wp\/v2\/users\/9"}],"replies":[{"embeddable":true,"href":"https:\/\/blog.besharp.it\/it\/wp-json\/wp\/v2\/comments?post=2625"}],"version-history":[{"count":0,"href":"https:\/\/blog.besharp.it\/it\/wp-json\/wp\/v2\/posts\/2625\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/blog.besharp.it\/it\/wp-json\/wp\/v2\/media\/2690"}],"wp:attachment":[{"href":"https:\/\/blog.besharp.it\/it\/wp-json\/wp\/v2\/media?parent=2625"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/blog.besharp.it\/it\/wp-json\/wp\/v2\/categories?post=2625"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/blog.besharp.it\/it\/wp-json\/wp\/v2\/tags?post=2625"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}