{"id":2625,"date":"2021-02-19T11:05:48","date_gmt":"2021-02-19T10:05:48","guid":{"rendered":"https:\/\/blog.besharp.it\/?p=2625"},"modified":"2021-03-17T15:34:25","modified_gmt":"2021-03-17T14:34:25","slug":"come-orchestrare-una-pipeline-di-data-analytics-e-business-intelligence-via-step-function","status":"publish","type":"post","link":"https:\/\/blog.besharp.it\/it\/come-orchestrare-una-pipeline-di-data-analytics-e-business-intelligence-via-step-function\/","title":{"rendered":"Come orchestrare una pipeline di Data Analytics e Business Intelligence via Step Function"},"content":{"rendered":"\n
Le pipeline di ETL su AWS di solito hanno un comportamento lineare: si inizia da un servizio e si termina con un altro. Questa volta, tuttavia, vorremmo presentare una configurazione pi\u00f9 flessibile, in cui alcuni job ETL potrebbero essere saltati a seconda dei dati. Inoltre, alcuni dei dati trasformati nel nostro datalake verranno interrogati da AWS Athena per generare dashboard di BI in QuickSight, mentre altre partizioni di dati verranno utilizzate per addestrare un rilevamento di anomalie ad-hoc tramite Sagemaker.<\/p>\n\n\n\n
Un potente strumento per orchestrare questo tipo di pipeline ETL \u00e8 il servizio AWS StepFunctions.<\/p>\n\n\n\n
In questo articolo, vogliamo mostrarti alcuni dei passaggi coinvolti nella creazione della pipeline citata e quali servizi AWS per l’analisi dei dati si possano utilizzare in scenari quasi in tempo reale per gestire un volume elevato di dati in modo scalabile.<\/p>\n\n\n\n
In particolare, esamineremo i connettori e i crawler di AWS Glue, AWS Athena, QuickSight, Kinesis Data Firehose e infine una breve spiegazione su come utilizzare SageMaker per creare previsioni a partire dai dati raccolti. Per saperne di pi\u00f9 su Sagemaker puoi anche dare un’occhiata ai nostri altri articoli<\/a>.<\/p>\n\n\n\n Iniziamo!<\/p>\n\n\n\n In questo esempio, configureremo diversi sensori per inviare dati di temperatura e diagnostici alla nostra pipeline ed eseguiremo diverse analisi BI, per verificarne l’efficienza; useremo infine un modello di Sagemaker per ricercare la presenza di anomalie.<\/p>\n\n\n\n Per mantenere le cose interessanti, vogliamo anche acquisire i dati storici da due posizioni diverse: un bucket S3 e un database che risiede su un’istanza EC2 in una VPC diversa da quella della nostra pipeline ETL.<\/p>\n\n\n\n Useremo diversi job ETL per recuperare ed estrarre i dati puliti dalle tuple a disposizione e AWS Step Functions per orchestrare tutti i crawler e i job.<\/p>\n\n\n\n Kinesis Data Firehose recuperer\u00e0 continuamente i dati dei sensori e con AWS Athena interrogheremo le informazioni, dai dati aggregati e per sensore, per mostrare le statistiche grafiche in Amazon Quicksight.<\/p>\n\n\n\n Ecco un semplice schema che illustra i servizi coinvolti e il flusso completo.<\/p>\n\n\n\nIl nostro setup<\/h2>\n\n\n\n