{"id":2517,"date":"2021-02-04T12:49:38","date_gmt":"2021-02-04T11:49:38","guid":{"rendered":"https:\/\/blog.besharp.it\/?p=2517"},"modified":"2021-03-17T15:33:44","modified_gmt":"2021-03-17T14:33:44","slug":"deploy-di-una-pipeline-di-real-time-data-ingestion-e-analytics-con-aws-iot-core-amazon-kinesis-e-amazon-sagemaker","status":"publish","type":"post","link":"https:\/\/blog.besharp.it\/it\/deploy-di-una-pipeline-di-real-time-data-ingestion-e-analytics-con-aws-iot-core-amazon-kinesis-e-amazon-sagemaker\/","title":{"rendered":"Deploy di una pipeline di real-time Data Ingestion e Analytics con AWS IoT Core, Amazon Kinesis e Amazon SageMaker"},"content":{"rendered":"\n<h2 class=\"wp-block-heading\">Introduzione<\/h2>\n\n\n\n<p>Il Machine Learning sta rapidamente entrando a far parte della nostra vita quotidiana. Sempre pi\u00f9 software e dispositivi sono oggi in grado di connettersi ad internet e di gestire autonomamente routine e attivit\u00e0 di tutti i giorni senza l&#8217;intervento umano. Si pensi ad esempio alla domotica, alle luci e ai riscaldamenti<em> smart <\/em>o ai robot che puliscono i pavimenti in autonomia senza difficolt\u00e0 alcuna anche in ambienti domestici complessi pieni di ostacoli.<\/p>\n\n\n\n<p>In questo contesto, le informazioni che possiamo raccogliere dai dispositivi connessi sono infinite. Il costo contenuto di acquisizione del dato e della potenza di calcolo necessaria ad elaborare grandi quantit\u00e0 di informazioni hanno reso accessibile l\u2019applicazione del Machine Learning ai pi\u00f9 diversi casi d\u2019uso. Uno dei pi\u00f9 interessanti riguarda sicuramente l\u2019ingestion e l\u2019analisi real-time dei dati provenienti da dispositivi connessi.<\/p>\n\n\n\n<p>In questo articolo, descriveremo una soluzione basata sui servizi gestiti di AWS per l\u2019elaborazione in tempo reale di elevati volumi di dati provenienti da uno o pi\u00f9 dispositivi connessi IoT e mostreremo come realizzare una pipeline completa di real-time Data Ingestion e Analytics.&nbsp;<\/p>\n\n\n\n<p>Esploreremo alcuni concetti chiave relativi all&#8217;apprendimento automatico, all\u2019ETL, alla pulizia dei dati e alla preparazione del data lake.<\/p>\n\n\n\n<p>Prima di passare alla progettazione del codice e dell&#8217;infrastruttura, per\u00f2, facciamo un breve riepilogo su alcuni concetti chiave relativi a Machine Learning, ETL, pulizia e preparazione dei dati, creazione dei data lake ed IoT. Partiamo!<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">IoT, Machine Learning e Data Transformation: concetti chiave<\/h2>\n\n\n\n<h3 class=\"wp-block-heading\">IoT<\/h3>\n\n\n\n<p>Internet of Things (IoT) \u00e8 la definizione utilizzata per descrivere un insieme di dispositivi fisici&nbsp; &#8211; &#8220;things&#8221; &#8211; interconnessi e dotati di sensori in grado di inviare dati e scambiare informazioni via internet.<\/p>\n\n\n\n<p>&nbsp;L&#8217;IoT si \u00e8 evoluto rapidamente grazie alla diminuzione dei costi dei sensori intelligenti e alla diffusione di metodologie come analisi in tempo reale, apprendimento automatico e sistemi integrati.<\/p>\n\n\n\n<p>Naturalmente, anche i settori tradizionali dei sistemi embedded, delle reti di sensori wireless, dei sistemi di controllo e dell&#8217;automazione contribuiscono al mondo dell&#8217;IoT.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Machine Learning<\/h3>\n\n\n\n<p>Il Machine Learning \u00e8 nato come un\u2019<strong>evoluzione dell&#8217;intelligenza artificiale<\/strong>. Il Machine Learning tradizionale richiede ai programmatori di scrivere euristiche complesse e difficili da mantenere per eseguire un compito tradizionalmente umano (ad esempio il riconoscimento del testo nelle immagini) utilizzando un computer.<\/p>\n\n\n\n<p>Grazie al ML, \u00e8 il sistema stesso che impara le relazioni tra i dati.<\/p>\n\n\n\n<p>Per esempio, in un\u2019ipotetica partita di scacchi, baster\u00e0 fornire un set di dati di caratteristiche riguardanti le partite di scacchi e il modello imparer\u00e0 a giocare da solo.&nbsp;<br>Tutto ci\u00f2 acquista ancora pi\u00f9 rilevanza se lo si pensa in un <strong>contesto distribuito<\/strong> dove la previsione <strong>dovr\u00e0 scalare<\/strong>.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Data Transformation<\/h3>\n\n\n\n<p>In una pipeline di Machine Learning, i dati devono essere uniformi, ovvero standardizzati. Le differenze nei dati possono derivare dalla loro provenienza da fonti eterogenee, da \u201cdatabase schema\u201d differenti o flussi di importazione dei dati diversi.<\/p>\n\n\n\n<p>La trasformazione dei dati o flusso di ETL (Estrazione, Trasformazione, Caricamento) \u00e8 quindi un passaggio essenziale in tutte le pipeline di ML. I dati standardizzati non sono solo essenziali nell&#8217;addestramento del modello di ML, ma sono anche molto pi\u00f9 facili da analizzare e visualizzare nella fase preliminare di <strong>data discovery<\/strong>.<\/p>\n\n\n\n<p>Per le attivit\u00e0 di pulizia e formattazione del dato sono generalmente utilizzate librerie come Scipy Pandas o simili.<\/p>\n\n\n\n<p>&#8211; <strong>NumPy<\/strong>:<em> <\/em>libreria utilizzata per la gestione di array multidimensionali. Generalmente utilizzata per le fasi di import e lettura di un dataset.<\/p>\n\n\n\n<p>&#8211; <strong>Pandas<\/strong> <strong>Dataframe<\/strong>: libreria utilizzata per la gestione di dati in formato tabulare. Colleziona data point da file di tipo <strong>CSV<\/strong>, <strong>JSON<\/strong>, <strong>Excel<\/strong>, e <strong>pickle <\/strong>e li trasforma in tabelle.<\/p>\n\n\n\n<p>&#8211; <strong>SciKit-Learn<\/strong>: libreria utilizzata per la manipolazione e il training finale dei dati.<\/p>\n\n\n\n<p>Pulire e formattare i dati \u00e8 essenziale per ottenere un modello performante <strong>in grado di convergere <\/strong>alla soluzione che si vuole ottenere.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">La Pipeline<\/h2>\n\n\n\n<p>Per la soluzione che andremo a realizzare faremo largo uso dei servizi gestiti messi a disposizione da AWS. Ecco un semplice schema infrastrutturale raffigurante gli attori principali nella nostra Pipeline di ML:<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"887\" height=\"147\" src=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image18.png\" alt=\"La pipeline\" class=\"wp-image-2554\" srcset=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image18.png 887w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image18-400x66.png 400w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image18-768x127.png 768w\" sizes=\"auto, (max-width: 887px) 100vw, 887px\" \/><\/figure>\n\n\n\n<p>Entriamo nel merito di ciascun servizio. <\/p>\n\n\n\n<p>La pipeline sar\u00e0 organizzata in 5 fasi principali:&nbsp; <strong>ingestion<\/strong>, preparazione del <strong>data lake<\/strong>, <strong>trasformazione<\/strong>, <strong>training<\/strong> e <strong>inferenza<\/strong>.<br>Per la <strong>fase di ingestion<\/strong>, i dati saranno raccolti dai dispositivi connessi utilizzando <strong>AWS IoT Core<\/strong>, un servizio che permette di connettere i dispositivi ad AWS <a href=\"https:\/\/aws.amazon.com\/it\/iot-core\/\" target=\"_blank\" rel=\"noreferrer noopener\">senza dover gestire server o complessit\u00e0 di comunicazione<\/a>. I dati collezionati saranno poi inviati utilizzando il <a href=\"https:\/\/mqtt.org\/\" target=\"_blank\" rel=\"noreferrer noopener\">protocollo MQTT<\/a> per minimizzare il code da scrivere e la banda richiesta. Con IoT Core \u00e8 possibile anche gestire l\u2019<strong>autenticazione dei device<\/strong>.<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"317\" src=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image2-1024x317.png\" alt=\"AWS Iot Core\" class=\"wp-image-2522\" srcset=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image2-1024x317.png 1024w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image2-400x124.png 400w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image2-768x238.png 768w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image2.png 1166w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><figcaption><em>AWS IoT Core &#8211; Per concessione di AWS<\/em><\/figcaption><\/figure>\n\n\n\n<p>Per mandare le informazioni al nostro data lake su Amazon S3, utilizzeremo <a href=\"https:\/\/docs.aws.amazon.com\/iot\/latest\/developerguide\/kinesis-firehose-rule-action.html\" target=\"_blank\" rel=\"noreferrer noopener\">Amazon Kinesis Data Firehose<\/a> e la feature che permette la lettura di messaggi IoT Core.<\/p>\n\n\n\n<p>Per trasformare i dati e renderli disponibili per Amazon SageMaker, utilizzeremo invece <a href=\"https:\/\/aws.amazon.com\/glue\" target=\"_blank\" rel=\"noreferrer noopener\">AWS Glue<\/a>, il servizio di ETL managed in grado di trovare, preparare e combinare tra di loro i dati, per l\u2019analisi, il machine learning e il deploy dell\u2019applicativo. Mettendo a disposizione tutti questi strumenti, esso permette di analizzare grandi moli di dati in pochi minuti, anzich\u00e9 in mesi.<br>Infine, vedremo come utilizzare gli algoritmi di Amazon SageMaker, in particolare <strong>DeepAR,<\/strong> per \u201cistruire\u201d e deployare il modello per l\u2019inferenza.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Ingestion: da IoT Core a Kinesis Firehose<\/h2>\n\n\n\n<p>\u00c8 il momento di connettere i nostri dispositivi di test attraverso le feature di AWS IoT Core.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">AWS IoT Core<\/h3>\n\n\n\n<p>Accediamo al nostro account AWS ed entriamo nella pagina del servizio. Clicchiamo su \u201cGet started\u201d e poi procediamo con \u201cOnboard a device\u201d.<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"845\" src=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image4-1024x845.png\" alt=\"Ingestion: da IoT Core a Kinesis Firehose\" class=\"wp-image-2526\" srcset=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image4-1024x845.png 1024w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image4-364x300.png 364w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image4-768x634.png 768w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image4.png 1280w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><figcaption><em>Connettere un nuovo dispositivo<\/em><\/figcaption><\/figure>\n\n\n\n<p>Seguiamo i passaggi descritti nel wizard per connettere i dispositivi.&nbsp;<\/p>\n\n\n\n<p>Gli obiettivi di questa fase sono:<\/p>\n\n\n\n<ol class=\"wp-block-list\"><li>Creare un <strong>AWS IoT Thing<\/strong><\/li><li>Scaricare il codice richiesto direttamente sul nostro dispositivo per permettere la connessione con AWS.<\/li><\/ol>\n\n\n\n<p>Stabilire una connessione con AWS \u00e8 importante anche per permettere a Kinesis Firehose di leggere i messaggi mandati da AWS IoT Core. Ricordiamo che il dispositivo che stiamo connettendo necessiter\u00e0 di una connessione TCP pubblica sulla porta 8883.<\/p>\n\n\n\n<p>Dal wizard, selezioniamo Linux come sistema operativo e un SDK (nel nostro caso Node.js):<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"392\" src=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image1-1024x392.png\" alt=\"Platform Choise\" class=\"wp-image-2520\" srcset=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image1-1024x392.png 1024w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image1-400x153.png 400w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image1-768x294.png 768w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image1-1536x588.png 1536w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image1.png 1600w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/figure>\n\n\n\n<p>A questo punto, diamo un nome al nostro dispositivo e otteniamo il nostro kit di connessione contenente:<\/p>\n\n\n\n<ul class=\"wp-block-list\"><li>L\u2019SDK selezionata<\/li><li>Un programma di esempio<\/li><li>I certificati necessari per stabilire la connessione con il dispositivo.<\/li><\/ul>\n\n\n\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"619\" src=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image9-1024x619.png\" alt=\"AWS Resources Creation\" class=\"wp-image-2536\" srcset=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image9-1024x619.png 1024w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image9-400x242.png 400w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image9-768x464.png 768w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image9.png 1532w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><figcaption><em>Riassunto delle propriet\u00e0 di un \u201cThing\u201d<\/em><\/figcaption><\/figure>\n\n\n\n<p>Una volta scaricato il kit, inizializziamo un nuovo progetto Node.js e installiamo <strong>AWS-IoT-device-SDK.<\/strong> In questo modo, i node module richiesti verranno installati. Dopodich\u00e9 sar\u00e0 possibile lanciare lo script <strong>start.sh<\/strong> incluso, aggiungendo tutti i certificati scaricati nel kit nella stessa directory del progetto.<\/p>\n\n\n\n<p>Abbiamo sviluppato il nostro esempio partendo dal codice di <strong>device-example.js<\/strong> come semplice base per capire come connettere un dispositivo ad AWS IoT:<\/p>\n\n\n\n<pre>const deviceModule = require('aws-iot-device-sdk').device;\nconst cmdLineProcess = require('aws-iot-device-sdk\/examples\/lib\/cmdline');\n\nprocessPollutionData = (args) => {\n\n   \/\/ Device properties which are needed\n   const device = deviceModule({\n       keyPath: args.privateKey,\n       certPath: args.clientCert,\n       caPath: args.caCert,\n       clientId: args.clientId,\n       region: args.region,\n       baseReconnectTimeMs: args.baseReconnectTimeMs,\n       keepalive: args.keepAlive,\n       protocol: args.Protocol,\n       port: args.Port,\n       host: args.Host,\n       debug: args.Debug\n   });\n\n   const minimumDelay = 250; \/\/ ms\n   const interval = Math.max(args.delay, minimumDelay);\n\n   \/\/ Send device information\n   setInterval(function() {\n       \/\/ Prepare Data to be sent by the device\n       const payload = {\n           ozone: Math.round(Math.random() * 100),\n           particullate_matter: Math.round(Math.random() * 100),\n           carbon_monoxide: Math.round(Math.random() * 100),\n           sulfure_dioxide: Math.round(Math.random() * 100),\n           nitrogen_dioxide: Math.round(Math.random() * 100),\n           longitude: 10.250786139881143,\n           latitude: 56.20251117218925,\n           timestamp: new Date()\n       };\n\n       device.publish('<YOUR_TOPIC>', JSON.stringify(payload));\n   }, interval);\n\n   \/\/ Device callbacks, for the purpose of this example we have put\n   \/\/ some simple console logs\n   device.on('connect', () => { console.log('connect'); });\n   device.on('close', () => { console.log('close'); });\n   device.on('reconnect', () => { console.log('reconnect'); });\n   device.on('offline', () => { console.log('offline'); });\n   device.on('error', (error) => { console.log('error', error); });\n   device.on('message', (topic, payload) => { \nconsole.log('message', topic, payload.toString()); \n   });\n}\n\n\/\/ this is a precooked module from aws to launch\n\/\/ the script with arguments\nmodule.exports = cmdLineProcess;\n\n\/\/ Start App\nif (require.main === module) {\n   cmdLineProcess('connect to the AWS IoT service using MQTT',\n       process.argv.slice(2), processPollutionData);<\/pre>\n\n\n\n<p>Importiamo i moduli di Node.js necessari a connettere i nostri dispositivi ad AWS e di pubblicare su un canale a noi rilevante. \u00e8 possibile leggere i dati dai sensori dei dispositivi in qualunque modo, ad esempio, nel caso in cui un device possa scrivere le informazioni in una specifica destinazione sul disco, baster\u00e0 leggere e rendere i dati una stringa utilizzando <strong>device.publish(&#8216;&lt;YOUR_TOPIC&gt;&#8217;, JSON.stringify(payload))<\/strong>.<\/p>\n\n\n\n<p>L\u2019ultima parte di codice chiama semplicemente la funzione principale al fine di mandare le informazioni alla console.<\/p>\n\n\n\n<p>Per eseguire lo script, utilizziamo lo script start.sh incluso nel development kit <strong>assicurandoci di puntare al nostro codice e non al codice di esempio fornito da AWS<\/strong><\/p>\n\n\n\n<p><em>Nota: per la natura esemplificativa dell\u2019articolo, il codice del dispositivo che utilizziamo \u00e8 semplificato. Consigliamo di non utilizzarlo per un ambiente di produzione.<\/em><br><br>Per testare il funzionamento di ci\u00f2 che abbiamo realizzato fin qui, accediamo alla console AWS IoT, entriamo nella sezione <strong>Test<\/strong> dalla sidebar sulla sinistra e inseriamo il nome del nostro topic. Clicchiamo su \u201cSubscribe to topic\u201d e, se tutto \u00e8 correttamente setuppato, dovremmo vedere qualcosa di simile a questo screenshot:<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"417\" src=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image13-1024x417.png\" alt=\"Topic\" class=\"wp-image-2544\" srcset=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image13-1024x417.png 1024w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image13-400x163.png 400w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image13-768x313.png 768w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image13.png 1214w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/figure>\n\n\n\n<p>\u00e8 il momento di connettere Kinesis Firehose per cominciare a&nbsp; inviare i dati ad Amazon S3.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Kinesis Firehose<\/h3>\n\n\n\n<p>Trasferire i dati raccolti dai dispositivi, arricchire il data lake e migliorare il modello \u00e8 estremamente importante per evitare il problema chiamato <a href=\"https:\/\/machinelearningmastery.com\/gentle-introduction-concept-drift-machine-learning\/\" target=\"_blank\" rel=\"noreferrer noopener\">Concept Drift<\/a><strong>,<\/strong> un problema che si&nbsp; verifica al <strong>graduale disallineamento del modello deployato rispetto ai dati reali<\/strong>. Questo succede in quando i dati storici non sarebbero in grado di rappresentare un problema nel frattempo evoluto.<\/p>\n\n\n\n<p>Per risolvere il problema dobbiamo assicurare un logging efficiente e capire quando intervenire sul modello, ad esempio effettuando nuovamente il training o aggiornando la versione per poi rideployarla. Definiamo quindi una \u201caction\u201d di Kinesis Firehose specifica per registrare automaticamente e trasportare ciascun messaggio MQTT distribuito dal dispositivo, direttamente su Amazon S3, in modo da alimentare il nostro data lake con dati sempre aggiornati.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Creiamo lo stream di Firehose<\/h3>\n\n\n\n<p>Per creare lo stream di Firehose, cerchiamo \u201cKinesis firehose\u201d nella search bar, selezioniamolo e clicchiamo su \u201cCreate delivery stream\u201d, come mostrato in figura:<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"994\" height=\"82\" src=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image8.png\" alt=\"Firehose Stream\" class=\"wp-image-2534\" srcset=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image8.png 994w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image8-400x33.png 400w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image8-768x63.png 768w\" sizes=\"auto, (max-width: 994px) 100vw, 994px\" \/><\/figure>\n\n\n\n<p><br>Selezioniamo un nome valido in \u201cDelivery stream name\u201d, \u201cDirect PUT or other sources\u201d nella sezione \u201cSources\u201d e, nella pagina successiva, lasciamo tutto come da default. Convertiremo i dati in S3 pi\u00f9 tardi. Infine, nell\u2019ultima pagina, selezioniamo <strong>S3<\/strong> come destinazione e aggiungiamo eventualmente un prefisso ai dati inseriti nel bucket. Clicchiamo su \u201cNext\u201d per creare lo stream.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Creiamo la IoT Rule<\/h3>\n\n\n\n<p>Per utilizzare lo stream creato, occorre prima connetterlo con AWS IoT tramite una<strong> IoT Rule<\/strong>. l\u2019IoT Rule autorizzer\u00e0 Kinesis a ricevere i messaggi e a scriverli nel bucket S3. Per configurare AWS IoT per mandare messaggi a Firehose abbiamo eseguito i seguenti passaggi:<\/p>\n\n\n\n<ol class=\"wp-block-list\"><li>Durante la creazione della regola, nella console di AWS IoT, scegliamo \u201cAdd action\u201d nella sezione \u201cSet one or more actions\u201d.<\/li><li>Scegliamo \u201cSend a message to an Amazon Kinesis Firehose stream\u201d.<\/li><\/ol>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/lh6.googleusercontent.com\/RX2j606DTY0xg-AVwWTH9J09m3iprcpYKkcI-IhLaHXTbSlpBgX7bNpFAl5hnlinNkUDQLjzZ-rkGga0NeGQI2pGUaejCqXoiXMwrTNSUR5JKa947_9F6tBNvfYwFCS0PD8g1MBI\" alt=\"IoT Rule\"\/><\/figure>\n\n\n\n<ol class=\"wp-block-list\" start=\"3\"><li>Selezioniamo \u201cConfigure action\u201d.<\/li><li>Per il nome dello stream, scegliamo il delivery stream di Kinesis Data Firehose che abbiamo appena creato<\/li><li>Come Separator scegliamo un carattere da inserire tra i record, ad esempio una virgola.<\/li><li>Per il nome del ruolo IAM, scegliamo \u201cCreate a new role\u201d.<\/li><li>Selezioniamo \u201cAdd action\u201d.<\/li><\/ol>\n\n\n\n<p>Ecco un esempio di come apparir\u00e0 la regola che andreamo a creare:<\/p>\n\n\n\n<pre>{\n    \"topicRulePayload\": {\n        \"sql\": \"SELECT * FROM '<your_topic_name>'\", \n        \"ruleDisabled\": false, \n        \"awsIotSqlVersion\": \"2016-03-23\",\n        \"actions\": [\n            {\n                \"firehose\": {\n                    \"deliveryStreamName\": \"<your_firehose_stream>\",\n                    \"roleArn\": \"arn:aws:iam::<account_number>:role\/<role_name>\"\n                }\n            }\n        ] \n    }\n}\n<\/pre>\n\n\n\n<p>Se avremo svolto correttamente tutti i passaggi, cominceremo a veder comparire i dati nel bucket:<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"79\" src=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image17-1024x79.png\" alt=\"\" class=\"wp-image-2552\" srcset=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image17-1024x79.png 1024w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image17-400x31.png 400w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image17-768x60.png 768w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image17-1536x119.png 1536w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image17.png 1999w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/figure>\n\n\n\n<p><br>Apriamo uno dei file caricati nel bucket e\u2026 ecco i file generati dai nostri device!<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"101\" src=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image19-1024x101.png\" alt=\"File Example\" class=\"wp-image-2556\" srcset=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image19-1024x101.png 1024w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image19-400x39.png 400w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image19-768x76.png 768w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image19-1536x151.png 1536w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image19.png 1999w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/figure>\n\n\n\n<h2 class=\"wp-block-heading\"><br>Datalake: S3<\/h2>\n\n\n\n<p>Amazon S3 \u00e8 il servizio di storage ideale per costruire <a href=\"https:\/\/aws.amazon.com\/big-data\/datalakes-and-analytics\/what-is-a-data-lake\/\" target=\"_blank\" rel=\"noreferrer noopener\">data lake<\/a>. Con una possibilit\u00e0 di scalare pressoch\u00e9 illimitata, un data lake basato su Amazon S3 per l\u2019analisi dei big data, presenta diversi benefici.&nbsp;<\/p>\n\n\n\n<p>L&#8217;architettura dati centralizzata di S3 semplifica la creazione di un ambiente multi-tenant in cui pi\u00f9 utenti possono utilizzare il proprio strumento di analisi di Big Data su un insieme comune di dati.<\/p>\n\n\n\n<p>Inoltre, S3 si integra perfettamente con altri servizi Amazon come Amazon Athena, Amazon Redshift e, come nel caso presentato, AWS Glue.<\/p>\n\n\n\n<p>S3 consente inoltre di separare lo storage dall&#8217;elaborazione dei dati per ottimizzare i costi e i flussi di lavoro, oltre a mantenere la soluzione dry, scalabile e gestibile.<\/p>\n\n\n\n<p>Inoltre, S3 consente di archiviare qualsiasi tipo di dati strutturati, semi-strutturati o anche non strutturati nel suo formato nativo. Nel nostro caso siamo semplicemente interessati nel salvataggio di dati \u201cmoccati\u201d da un device di test per eseguire semplici algoritmi di forecasting.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Processo di ETL: AWS Glue<\/h2>\n\n\n\n<p>Anche se i dati vengono salvati su Amazon S3 quasi in tempo reale, non sono ancora sufficienti per consentirci di gestire un modello Amazon SageMaker. Come abbiamo spiegato nell&#8217;introduzione, infatti, i dati devono essere preparati e quando si tratta di algoritmi <strong>AWS SageMaker predefiniti, <\/strong>\u00e8 necessario tenere presente alcune impostazioni di default.<\/p>\n\n\n\n<p>Ad esempio SageMaker non accetta headers e, nel caso in cui volessimo definire un <strong>training&nbsp; supervisionato<\/strong>, dobbiamo anche mettere la \u201cground truth\u201d come prima colonna del dataset.<\/p>\n\n\n\n<p>In questo semplice esempio abbiamo utilizzato Glue Studio per trasformare i dati grezzi nel bucket S3 di sorgente in file di parquet strutturati da salvare in un Bucket di output dedicato. Il bucket di output verr\u00e0 utilizzato da Sagemaker come origine dati.<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"636\" height=\"272\" src=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image12.png\" alt=\"S3 Path\" class=\"wp-image-2542\" srcset=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image12.png 636w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image12-400x171.png 400w\" sizes=\"auto, (max-width: 636px) 100vw, 636px\" \/><\/figure>\n\n\n\n<p><br>Attiviamo il Crawler appena creato, cliccando su \u201cRun crawler\u201d.<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"452\" height=\"338\" src=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image20.png\" alt=\"Crawler\" class=\"wp-image-2558\" srcset=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image20.png 452w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image20-400x300.png 400w\" sizes=\"auto, (max-width: 452px) 100vw, 452px\" \/><\/figure>\n\n\n\n<p><br>Il prossimo step \u00e8 configurare un job di Glue Studio, utilizzando il \u201cCatalog\u201d come sorgente d\u2019ingresso dei dati.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">ETL job<\/h3>\n\n\n\n<p>Un AWS Glue job consiste di almeno 3 nodi principali, che sono <strong>source<\/strong>, <strong>transform<\/strong>, e <strong>target<\/strong>.<br>Abbiamo bisogno di configurare tutti e tre i nodi per definire un <strong>crawler<\/strong> in grado di leggere e trasformare dati al volo.<\/p>\n\n\n\n<p>Per farlo, ecco qui gli step che abbiamo seguito:<\/p>\n\n\n\n<ol class=\"wp-block-list\"><li>Scegliamo \u201cCreate and manage jobs\u201d dalla dashboard di AWS Glue Studio.<\/li><li>Nella pagina \u201cManage Jobs\u201d, scegliamo le opzioni di Origine e Destinazione aggiunte alle propriet\u00e0 del grafico. Quindi, scegliamo S3 sia come sorgente che come destinazione.<\/li><\/ol>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/lh6.googleusercontent.com\/xZQyQ6ZIW0myFF4ZuynzgSJM40FgOzigUVaeUYQ6VYG-bVH7mtzdBP5E8FWKV_LOEFXNOvskP8U7U1qUfHB4a2YR90UkYHT-HP5Pk7kvyQeZU8Dy7RgZHs0mbKPB6GHJ8b9krxqS\" alt=\"ETL Job\"\/><\/figure>\n\n\n\n<p>3. Premiamo il pulsante \u201cCreate\u201d per avviare il processo di creazione del lavoro.<\/p>\n\n\n\n<p>Ora vedremo&nbsp; un grafico a tre nodi che rappresenta i passaggi coinvolti nel processo ETL. Quando AWS Glue viene istruito a leggere da un&#8217;origine dati S3, creer\u00e0 anche uno schema interno, chiamato <strong>Glue Data Catalog<\/strong>.<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"630\" height=\"1014\" src=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image15.png\" alt=\"Glue Data Catalog\" class=\"wp-image-2548\" srcset=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image15.png 630w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image15-186x300.png 186w\" sizes=\"auto, (max-width: 630px) 100vw, 630px\" \/><figcaption><em>Il grafico ETL<\/em><\/figcaption><\/figure>\n\n\n\n<p>Per configurare il source node, clicchiamo su di esso nel grafico:<\/p>\n\n\n\n<ol class=\"wp-block-list\"><li>Nella scheda \u201cNode Properties\u201d, come Name, inseriamo un nome univoco per il job.<br>Il valore che inseriamo sar\u00e0 utilizzato come etichetta per il data source node nel grafico.<br>Scegliamo \u201cData source properties &#8211; S3\u201d nella scheda dettagli del nodo.<\/li><li>Selezioniamo il nostro crawler database della lista dei database disponibili in AWS Glue Data Catalog.<\/li><li>Scegliamo la corretta tabella dal Catalog.<\/li><\/ol>\n\n\n\n<figure class=\"wp-block-image\"><img decoding=\"async\" src=\"https:\/\/lh3.googleusercontent.com\/H084AqX6yDKd4zyTqwreVGhLS7e-dQk4ijvNt4T6BHjECSGgvTzEs5oe5gFvq4TpMVB7Z8nRr_y-8gh4EIW1WakAF_C8JT4H-9j2fUV5m8i9SSWavOX9Hknm-nvL_JxarVEbL-EA\" alt=\"Data Source Properties - S3\"\/><figcaption><em>Seleziona il database e la tabella del crawler<\/em><\/figcaption><\/figure>\n\n\n\n<p>La stessa cosa pu\u00f2 essere fatta per il nodo di trasformazione: cliccando su di esso, \u00e8 possibile definire quale tipo di trasformazione si vuole applicare ai dati di input. Qui puoi anche verificare che il JSON sia stato importato correttamente:<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"455\" src=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image10-1024x455.png\" alt=\"Mapping Target - Data\" class=\"wp-image-2538\" srcset=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image10-1024x455.png 1024w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image10-400x178.png 400w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image10-768x341.png 768w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image10-1536x683.png 1536w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image10.png 1600w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><figcaption><em>La mappatura automatica generata da AWS Glue<\/em><\/figcaption><\/figure>\n\n\n\n<p>Infine, possiamo selezionare il nodo di destinazione, specificando di nuovo S3 come destinazione e utilizzando .parquet come formato di output.<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"600\" src=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image6-1024x600.png\" alt=\"S3 Location\" class=\"wp-image-2530\" srcset=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image6-1024x600.png 1024w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image6-400x234.png 400w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image6-768x450.png 768w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image6.png 1400w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><figcaption><em>Le propriet\u00e0 del nodo di destinazione<\/em><\/figcaption><\/figure>\n\n\n\n<p>Ora dobbiamo impostare i parametri del lavoro ETL dato il grafico dei nodi appena creato. Andiamo nella scheda &#8220;Job details&#8221; alla destra di quella del grafico, assegniamo un nome e selezioniamo un ruolo in grado di gestire i dati e di eseguire nuovamente il deploy su S3.&nbsp;<\/p>\n\n\n\n<p>Lasciamo il resto come predefinito.<\/p>\n\n\n\n<p>Tieniamo presente che dobbiamo avere questo snippet nella scheda &#8220;Trust Relationship&#8221; del ruolo per far s\u00ec che venga assunto da Glue:<\/p>\n\n\n\n<pre>{ \n    \"Version\": \"2012-10-17\", \n    \"Statement\": [ \n       { \n          \"Effect\": \"Allow\", \n          \"Principal\": { \"Service\": \"glue.amazonaws.com\" }, \n          \"Action\": \"sts:AssumeRole\" \n       } \n    ]\n}\n<\/pre>\n\n\n\n<p>Se tutto \u00e8 definito correttamente, il job partir\u00e0, e contestualmente, inizier\u00e0 anche la conversione dei dati in formato parquet. I file verranno inseriti nella directory di nostra scelta all\u2019interno del bucket.<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"205\" src=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image7-1024x205.png\" alt=\"Data Convertion\" class=\"wp-image-2532\" srcset=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image7-1024x205.png 1024w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image7-400x80.png 400w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image7-768x154.png 768w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image7-1536x307.png 1536w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image7.png 1600w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><figcaption><em>File convertiti in parquet<\/em><\/figcaption><\/figure>\n\n\n\n<h2 class=\"wp-block-heading\">Ottimizzazione del dataset: perch\u00e9 parquet rispetto al CSV<\/h2>\n\n\n\n<p>Abbiamo scelto di utilizzare .parquet invece di .csv per il dataset di destinazione.<br>Il parquet \u00e8 un formato colonnare altamente compresso, che utilizza l&#8217;algoritmo di distruzione e assemblaggio dei record, molto superiore al semplice appiattimento di namespace annidati. Esso presenta i seguenti vantaggi:<\/p>\n\n\n\n<ul class=\"wp-block-list\"><li>Offre efficienza rispetto ai file basati su righe come CSV. Durante l&#8217;interrogazione, l&#8217;archiviazione a colonne ignora i dati non rilevanti e la stessa pu\u00f2 essere eseguita molto rapidamente.<\/li><li>Le query di aggregazione richiedono meno tempo rispetto ai database row-oriented, riducendo al minimo la latenza per l&#8217;accesso ai dati.<\/li><li>Apache Parquet pu\u00f2 supportare strutture dati nidificate avanzate.<\/li><li>Parquet \u00e8 progettato per supportare opzioni di compressione flessibili e schemi di codifica efficienti.<\/li><li>Apache Parquet funziona al meglio con tecnologie interattive e serverless come AWS Athena, Amazon Redshift e AWS Glue.<\/li><\/ul>\n\n\n\n<p>Inoltre rispetto al file archiviato in formato .csv abbiamo questi vantaggi in termini di risparmio sui costi:<\/p>\n\n\n\n<ul class=\"wp-block-list\"><li>Amazon Athena e Redshift Spectrum verranno addebitati in base alla quantit\u00e0 di dati scansionati per query.<\/li><li>Amazon addebita in base alla quantit\u00e0 di dati archiviati su S3.<\/li><\/ul>\n\n\n\n<h2 class=\"wp-block-heading\">La fase di machine learning: previsione con Amazon SageMaker<\/h2>\n\n\n\n<p>Amazon SageMaker offre 17 algoritmi pronti all&#8217;uso che coprono una pletora di argomenti relativi ai problemi di Machine Learning. Nel nostro caso, volevamo semplificare lo sviluppo di un modello per fare previsioni sui dati recuperati dal nostro dispositivo, quindi, invece di mostrare il paradigma <strong>bring your own algorithm<\/strong>, come nel nostro <a href=\"https:\/\/blog.besharp.it\/clustering-con-sagemaker-experiments-un-caso-duso-reale\/\" target=\"_blank\" rel=\"noreferrer noopener\">articolo precedente<\/a>, questa volta ne useremo uno gi\u00e0 pronto.<\/p>\n\n\n\n<p>Come spiegato in precedenza, oltre alla pulizia dei dati, il nostro processo ETL \u00e8 stato eseguito per trasformare i dati in modo che fossero compatibili con gli algoritmi SageMaker gi\u00e0 pronti.<\/p>\n\n\n\n<p>SageMaker API e la libreria di Sklearn offrono metodi per recuperare i dati, chiamare il metodo di training, salvare il modello e distribuirlo in produzione per inferenze real-time o batch.<\/p>\n\n\n\n<p>Iniziamo andando alla pagina di SageMaker e creiamo una nuova istanza notebook, per questo articolo scegliamo una <strong>ml.t3.medium<\/strong>. Aggiungiamo un nome e creiamo un nuovo <strong>ruolo IAM<\/strong>.<\/p>\n\n\n\n<p>Lasciamo il resto come predefinito e clicchiamo su &#8220;Create notebook&#8221;.<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"68\" src=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image16-1024x68.png\" alt=\"Notebook Instance\" class=\"wp-image-2550\" srcset=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image16-1024x68.png 1024w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image16-400x27.png 400w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image16-768x51.png 768w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image16-1536x102.png 1536w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image16.png 1600w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><figcaption><em>Creiamo una nuova istanza Notebook<\/em><\/figcaption><\/figure>\n\n\n\n<p>L\u2019accesso \u00e8 possibile da Jupiter o Jupiter Lab, noi scegliamo il secondo.<br>Siamo riusciti a mettere in piedi un semplice notebook, che illustra tutti i passaggi coinvolti nell&#8217;utilizzo di un algoritmo DeepAR preimpostato da AWS.<\/p>\n\n\n\n<p><em>Nota: il codice \u00e8 realizzato esclusivamente per questo articolo e non \u00e8 pensato per un ambiente di produzione in quanto non vi \u00e8 alcuna indagine preliminare sui dati e nessuna convalida dei risultati. Tuttavia, tutto il codice presentato \u00e8 testato e utilizzabile per casi d&#8217;uso simili a quello presentato.<\/em><\/p>\n\n\n\n<p>Iniziamo importando tutte le librerie necessarie:<\/p>\n\n\n\n<pre>import time\nimport io\nimport math\nimport random\nimport numpy as np\nimport pandas as pd\nimport JSON\nimport matplotlib.pyplot as plt\nimport boto3\nimport sagemaker\nfrom sagemaker import get_execution_role\n\n# set random seeds for reproducibility\nnp.random.seed(42)\nrandom.seed(42)\n<\/pre>\n\n\n\n<p>Abbiamo anche impostato le basi per i nostri generatori casuali per garantire la riproducibilit\u00e0. Dopodich\u00e9, dobbiamo recuperare i nostri <strong>file parquet<\/strong> da <strong>S3<\/strong> e ottenere da loro un Pandas Dataframe.<\/p>\n\n\n\n<pre>bucket = \"<your_bucket_name>\"\ndata = \"output\"\nmodel = \"model\"\n\nsagemaker_session = sagemaker.Session()\nrole = get_execution_role()\n\ns3_data_path = f\"{bucket}\/{data}\"\ns3_output_path = f\"{bucket}\/{model}\/\"\n<\/pre>\n\n\n\n<p>Inizialmente, prepariamo tutti i percorsi di S3 che verranno utilizzati nel Notebook, generiamo una <strong>sessione SageMaker<\/strong> e un <strong>ruolo IAM<\/strong> valido con <strong>get_execution_role()<\/strong>. Come possiamo vedere SageMaker si prende cura di questi aspetti per noi.<\/p>\n\n\n\n<pre>from sagemaker.amazon.amazon_estimator import get_image_uri\nimage_uri = get_image_uri(boto3.Session().region_name, \"forecasting-deepar\")\n<\/pre>\n\n\n\n<p>Nel passaggio precedente abbiamo recuperato il nostro <strong>forecasting Estimator, DeepAR<\/strong>. Un estimator \u00e8 una classe in SageMaker in grado di generare, apprendere e testare un modello che verr\u00e0 poi salvato su S3.<\/p>\n\n\n\n<p>Prima di iniziare a leggere i file parquet aggiungiamo anche un paio di costanti per il nostro esperimento:<\/p>\n\n\n\n<pre>freq = \"H\"\nprediction_length = 24\ncontext_length = 24 # usually prediction and context are set equal or similar\n<\/pre>\n\n\n\n<p>Con <strong>freq<\/strong> (frequenza) diciamo che vogliamo analizzare la TimeSeries con metriche orarie.<br>La previsione e la durata del contesto sono impostate su 1 giorno e indicano rispettivamente quante ore vogliamo prevedere in futuro e quante ore in passato utilizzeremo per la previsione.<br>Di solito, questi valori sono definiti in termini di giorni poich\u00e9 il dataset \u00e8 molto pi\u00f9 grande.<\/p>\n\n\n\n<p>Abbiamo creato due metodi di supporto per leggere dai file parquet:<\/p>\n\n\n\n<pre># Read single parquet file from S3\ndef pd_read_s3_parquet(key, bucket, s3_client=None, **args):\n    if not s3_client:\n        s3_client = boto3.client('s3')\n    obj = s3_client.get_object(Bucket=bucket, Key=key)\n    return pd.read_parquet(io.BytesIO(obj['Body'].read()), **args)\n\n# Read multiple parquets from a folder on S3 generated by spark\ndef pd_read_s3_multiple_parquets(filepath, bucket, **args):\n    if not filepath.endswith('\/'):\n        filepath = filepath + '\/'  # Add '\/' to the end\n    \n    s3_client = boto3.client('s3')   \n    s3 = boto3.resource('s3')\n    s3_keys = [item.key for item in s3.Bucket(bucket).objects.filter(Prefix=filepath)\n               if item.key.endswith('.parquet')]\n    if not s3_keys:\n        print('No parquet found in', bucket, filepath)\n    \n    dfs = [pd_read_s3_parquet(key, bucket=bucket, s3_client=s3_client, **args) \n           for key in s3_keys]\n    return pd.concat(dfs, ignore_index=True)\n<\/pre>\n\n\n\n<p>Quindi leggiamo effettivamente i datasets:<\/p>\n\n\n\n<pre># get all retrieved parquet in a single dataframe with helpers functions\ndf = pd_read_s3_multiple_parquets(data, bucket)\ndf = df.iloc[:, :8] # get only relevant columns\ndf['hour'] = pd.to_datetime(df['timestamp']).dt.hour #add hour column for the timeseries format\n\n# split in test and training\nmsk = np.random.rand(len(df)) < 0.8 # 80% mask\n\n# Dividing in test and training\ntraining_df = df[msk]\ntest_df = df[~msk]\n<\/pre>\n\n\n\n<p>Qui manipoliamo il dataset per renderlo utilizzabile con DeepAR che ha il suo formato proprietario. Usiamo <span class=\"has-inline-color has-vivid-cyan-blue-color\">df.iloc[:, :8]<\/span> per mantenere solo le colonne originali senza quelle generate da Glue Schema. Generiamo una nuova colonna <strong>hour<\/strong> per velocizzare le cose, infine, dividiamo il set di dati in proporzioni 80\/20 per l'addestramento e il test.<\/p>\n\n\n\n<p>Quindi riscriviamo temporaneamente i dati su S3 come richiesto da DeepAR, creando file JSON con serie al loro interno.<\/p>\n\n\n\n<pre># We need to resave our data in JSON because this is how DeepAR works\n# Note: we know this is redundant but is for the article to show how many ways \n# there are to transform dataset back and forth from when data is acquired\n\ntrain_key = 'deepar_training.json'\ntest_key  = 'deepar_test.json'\n\n# Write data in DeepAR format\ndef writeDataset(filename, data): \n    file=open(filename,'w')\n    previous_hour = -1\n    for hour in data['hour']:\n        if not math.isnan(hour):\n            if hour != previous_hour:\n                previous_hour = hour\n                # One JSON sample per line\n                line = f\"\\\"start\\\":\\\"2021-02-05 {int(hour)}:00:00\\\",\\\"target\\\":{data[data['hour'] == hour]['ozone'].values.tolist()}\"\n                file.write('{'+line+'}\\n')\n<\/pre>\n\n\n\n<p>Generiamo un JSON in un formato simile a questo:<\/p>\n\n\n\n<pre>{\"start\":\"2021-02-05 13:00:00\",\"target\":[69.0, 56.0, 2.0, \u2026]}<\/pre>\n\n\n\n<p>Dopodich\u00e9, possiamo scrivere i nostri file JSON su S3.<\/p>\n\n\n\n<pre>writeDataset(train_key, training_df)        \nwriteDataset(test_key, test_df)\n\ntrain_prefix   = 'model\/train'\ntest_prefix    = 'model\/test'\n\ntrain_path = sagemaker_session.upload_data(train_key, bucket=bucket, key_prefix=train_prefix)\ntest_path  = sagemaker_session.upload_data(test_key,  bucket=bucket, key_prefix=test_prefix)\n<\/pre>\n\n\n\n<p>Usiamo <strong>sagemaker_session.upload_data ()<\/strong> per questo, passando il percorso di output. Successivamente, possiamo definire lo stimatore:<\/p>\n\n\n\n<pre>estimator = sagemaker.estimator.Estimator(\n    sagemaker_session=sagemaker_session,\n    image_uri=image_uri,\n    role=role,\n    instance_count=1,\n    instance_type=\"ml.c4.xlarge\",\n    base_job_name=\"pollution-deepar\",\n    output_path=f\"s3:\/\/{s3_output_path}\",\n)\n<\/pre>\n\n\n\n<p>Passiamo la sessione SageMaker, l'immagine dell'algoritmo, il tipo di istanza e il percorso di output del modello. Abbiamo anche bisogno di configurare alcuni Iperparametri:<\/p>\n\n\n\n<pre>hyperparameters = {\n    \"time_freq\": freq,\n    \"context_length\": str(context_length),\n    \"prediction_length\": str(prediction_length),\n    \"num_cells\": \"40\",\n    \"num_layers\": \"3\",\n    \"likelihood\": \"gaussian\",\n    \"epochs\": \"20\",\n    \"mini_batch_size\": \"32\",\n    \"learning_rate\": \"0.001\",\n    \"dropout_rate\": \"0.05\",\n    \"early_stopping_patience\": \"10\",\n}\n\nestimator.set_hyperparameters(**hyperparameters)\n<\/pre>\n\n\n\n<p>Questi valori sono presi direttamente dagli esempi AWS ufficiali su DeepAR. Dobbiamo anche passare i due canali, training e test, allo stimatore per avviare il \u201cprocesso di adattamento\u201d (<strong>fitting process<\/strong>).<\/p>\n\n\n\n<pre>data_channels = {\"train\": train_path, \"test\": test_path}\nestimator.fit(inputs=data_channels)\n<\/pre>\n\n\n\n<p>Dopo il training e il test di un modello, \u00e8 possibile distribuirlo utilizzando un <strong>Real-time Predictor.<\/strong><\/p>\n\n\n\n<pre># Deploy for real time prediction\njob_name = estimator.latest_training_job.name\n\nendpoint_name = sagemaker_session.endpoint_from_job(\n    job_name=job_name,\n    initial_instance_count=1,\n    instance_type='ml.m4.xlarge',\n    role=role\n)\n\npredictor = sagemaker.predictor.RealTimePredictor(\n    endpoint_name, \n    sagemaker_session=sagemaker_session, \n    content_type=\"application\/json\")\n<\/pre>\n\n\n\n<p>Il predictor genera un endpoint visibile anche dalla console AWS.<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"70\" src=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image3-1024x70.png\" alt=\"Predictor Endpoint\" class=\"wp-image-2524\" srcset=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image3-1024x70.png 1024w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image3-400x27.png 400w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image3-768x52.png 768w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image3-1536x105.png 1536w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/image3.png 1600w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><\/figure>\n\n\n\n<p>L'endpoint pu\u00f2 essere chiamato da qualsiasi applicazione abilitata REST che passa una richiesta con un formato come quello di seguito:<\/p>\n\n\n\n<pre>{\n  \"instances\": [ \n    {\n       \"start\": \"2021-02-05 00:00:00\",\n       \"target\": [88.3, 85.4, ...]\n    }\n  ],\n  \"configuration\": {\n    \"output_types\": [\"mean\", \"quantiles\", \"samples\"],\n    \"quantiles\": [\"0.1\", \"0.9\"], \n    \"num_samples\": 100\n  }\n}\n<\/pre>\n\n\n\n<p>I \u201ctargets\u201d sono dei valori di esempio a partire dal periodo impostato in \u201cstart\u201d dal quale si vuole generare la previsione.<\/p>\n\n\n\n<p>Infine, se non abbiamo pi\u00f9 bisogno dell'endpoint, possiamo eliminarlo con:<\/p>\n\n\n\n<pre>sagemaker_session.delete_endpoint(endpoint_name)<\/pre>\n\n\n\n<h2 class=\"wp-block-heading\">Inferenza in tempo reale: dall'idea alla produzione<\/h2>\n\n\n\n<p>L'inferenza in tempo reale si riferisce alla previsione fornita in tempo reale da alcuni modelli. Questo \u00e8 il tipico caso d'uso di molti sistemi di raccomandazione o generalmente quando la previsione \u00e8 ad uso singolo. Viene utilizzata quando:<\/p>\n\n\n\n<ul class=\"wp-block-list\"><li>Abbiamo a che fare con dati <strong>dinamici<\/strong>.<\/li><li>Abbiamo richieste di <strong>bassa latenza<\/strong>.<\/li><li>Vogliamo previsioni in <strong>tempo reale<\/strong>.<\/li><li>\u00c8 caratterizzata da <strong>un'unica previsione<\/strong>.<\/li><\/ul>\n\n\n\n<p>In genere \u00e8 un p\u00f2 pi\u00f9 complessa da gestire rispetto a ci\u00f2 che abbiamo fatto nel Notebook ed \u00e8 tipicamente definita in una pipeline separata, a causa della sua natura di alta disponibilit\u00e0 e tempi di risposta rapidi.<\/p>\n\n\n\n<p>Quando deployamo utilizzando l'API SageMaker \u00e8 possibile creare un processo di distribuzione molto simile a come viene rilasciata o aggiornata un'applicazione web, tenendo conto di cose come il reindirizzamento del traffico e le tecniche di distribuzione come Blue\/Green o Canary.<br>Vogliamo condividere con voi una guida riassuntiva per entrambi i metodi da provare da soli!<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Come deployare<\/h3>\n\n\n\n<ol class=\"wp-block-list\"><li>Creiamo un modello utilizzando <strong>CreateModelApi.<\/strong><\/li><li>Creiamo un endpoint HTTPS utilizzando <strong>CreateEndpointConfigApi<\/strong> inserendo come propriet\u00e0:<br><ul><li>The model<\/li><li>The production variants<\/li><li>Instance type<\/li><li>Instance count<\/li><li>Weight<br><\/li><\/ul><\/li><li>Finalizziamo la creazione dell\u2019endpoint utilizzando <strong>CreateEndpointApi<\/strong>. Passiamo i dati delle due precedenti configurazioni e qualsiasi <strong>tags<\/strong> a quest\u2019ultima istruzione.<\/li><\/ol>\n\n\n\n<p><em>Nota: attraverso le <\/em>production variants<em> possiamo implementare diverse strategie di Deploy come A\/B e BLUE\/GREEN.<\/em><\/p>\n\n\n\n<p><strong>Deploy Blue \/ Green<\/strong><\/p>\n\n\n\n<ol class=\"wp-block-list\"><li>Creiamo una nuova versione del modello.<\/li><li>Creiamo un endpoint configuration copiando i dati dal vecchio.<\/li><li>Aggiorniamo le production variants aggiungendo la nuova configurazione.<\/li><li>Invochiamo <strong>UpdateEndpointApi<\/strong> con la nuova configurazione.<br>L\u2019infrastruttura <strong>Green<\/strong> \u00e8 aggiunta, qui \u00e8 dove possiamo fare <a href=\"https:\/\/docs.aws.amazon.com\/AmazonCloudWatch\/latest\/monitoring\/CloudWatch_Synthetics_Canaries.html\">synthetic testing<\/a>.<\/li><\/ol>\n\n\n\n<p>Reindirizziamo il traffico su Green. Se Green \u00e8 ok, con un altro <strong>UpdateEndpointApi<\/strong> cancelliamo il vecchio modello.<\/p>\n\n\n\n<p><strong>Deploy A \/ B<\/strong><\/p>\n\n\n\n<p>Da utilizzare specificatamente se si vuole misurare le performance tra modelli rispetto ad una metrica di alto livello.<\/p>\n\n\n\n<ol class=\"wp-block-list\"><li>Creiamo pi\u00f9 modelli utilizzando la stessa configurazione.<\/li><li>Aggiorniamo o creiamo una configurazione modificando o creando production variants.<\/li><li>Settiamo il balancing weights a 50\/50.<\/li><li>Verifichiamo functionality e performance.<\/li><li>Gradualmente cambiamo la % del traffico.<\/li><\/ol>\n\n\n\n<p>Alla fine escludiamo 1 o pi\u00f9 modelli (in questo caso 50\/50 uno dei due).<\/p>\n\n\n\n<p><em>Nota: la propriet\u00e0 multi-modello per endpoint consente di gestire pi\u00f9 modelli contemporaneamente, la memoria della macchina viene gestita automaticamente in base al traffico. Questo approccio pu\u00f2 far risparmiare denaro grazie all'uso ottimizzato delle risorse.<\/em><\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Referenze<\/h2>\n\n\n\n<ul>\n<li><a target=\"_blank\" href=\"https:\/\/docs.aws.amazon.com\/iot\/latest\/developerguide\/iot-quick-start.html\" rel=\"noopener\">https:\/\/docs.aws.amazon.com\/iot\/latest\/developerguide\/iot-quick-start.html<\/a><\/li>\n<li><a target=\"_blank\" href=\"https:\/\/docs.aws.amazon.com\/iot\/latest\/developerguide\/kinesis-firehose-rule-action.html\" rel=\"noopener\">https:\/\/docs.aws.amazon.com\/iot\/latest\/developerguide\/kinesis-firehose-rule-action.html<\/a><\/li>\n<li><a target=\"_blank\" href=\"https:\/\/docs.aws.amazon.com\/glue\/latest\/ug\/tutorial-create-job.html\" rel=\"noopener\">https:\/\/docs.aws.amazon.com\/glue\/latest\/ug\/tutorial-create-job.html<\/a><\/li>\n<li><a target=\"_blank\" href=\"https:\/\/docs.aws.amazon.com\/iot\/latest\/developerguide\/topics.html\" rel=\"noopener\">https:\/\/docs.aws.amazon.com\/iot\/latest\/developerguide\/topics.html<\/a><\/li>\n<li><a target=\"_blank\" href=\"https:\/\/docs.aws.amazon.com\/AmazonCloudWatch\/latest\/monitoring\/CloudWatch_Synthetics_Canaries.html\" rel=\"noopener\">https:\/\/docs.aws.amazon.com\/AmazonCloudWatch\/latest\/monitoring\/CloudWatch_Synthetics_Canaries.html<\/a><\/li>\n<li><a target=\"_blank\" href=\"https:\/\/mqtt.org\/\" rel=\"noopener\">https:\/\/mqtt.org\/<\/a><\/li>\n<li><a target=\"_blank\" href=\"https:\/\/machinelearningmastery.com\/gentle-introduction-concept-drift-machine-learning\/\" rel=\"noopener\">https:\/\/machinelearningmastery.com\/gentle-introduction-concept-drift-machine-learning\/<\/a><\/li>\n<li><a target=\"_blank\" href=\"https:\/\/parquet.apache.org\/\" rel=\"noopener\">https:\/\/parquet.apache.org\/<\/a><\/li>\n<\/ul>\n\n\n\n<h2 class=\"wp-block-heading\">Facciamo il punto<\/h2>\n\n\n\n<p>In questo articolo abbiamo visto come sviluppare una pipeline utilizzando le risorse AWS, per acquisire dati da un dispositivo connesso all'ecosistema AWS tramite le funzionalit\u00e0 IoT Core.&nbsp;<br><br>Abbiamo visto come leggere e archiviare in modo efficiente i dati mentre vengono elaborati dal dispositivo utilizzando Kinesis Data Firehose, che agisce come un flusso quasi in tempo reale, per generare il nostro datalake su S3.<\/p>\n\n\n\n<p>Per eseguire ETL abbiamo scelto AWS Glue Studio, dimostrando quanto facilmente possa essere configurato per creare un crawler per leggere, trasformare e reinserire i dati in S3, pronti per essere utilizzati per la definizione del modello.<\/p>\n\n\n\n<p>Abbiamo visto come l'utilizzo di un set di dati archiviato in parquet sia migliore di uno in semplice formato CSV. Soprattutto ci siamo focalizzati sulle sue maggiori performance in fase di import\/export, per le query Athena e di come sia molto pi\u00f9 conveniente, in termini di prezzo di AWS S3, grazie alle dimensioni ridotte dei suoi file.<\/p>\n\n\n\n<p>Abbiamo parlato di come SageMaker pu\u00f2 essere utilizzato out-of-the-box con il suo set di algoritmi preconfigurati, in particolare, abbiamo visto come implementare la previsione su un set di dati costituito da informazioni sull'inquinamento e sull'ambiente.<\/p>\n\n\n\n<p>Infine, abbiamo visto come mettere in produzione un modello pronto per essere utilizzato, sfruttando l'API di SageMaker per creare una pipeline di distribuzione che tenga conto del problema Concept Drift, permettendo cos\u00ec frequenti aggiornamenti del modello in base all'evoluzione del set di dati nel tempo. Ci\u00f2 \u00e8 particolarmente vero per le serie temporali e i modelli di previsione, che migliorano man mano che il set di dati aumenta.<\/p>\n\n\n\n<p>Siamo finalmente giunti alla fine del viaggio, sperando di farvi divertire e, naturalmente, di partire con qualcosa di utile su cui iniziare a lavorare. Come sempre sentiti libero di commentare dandoci le tue opinioni e idee. E i tuoi casi d'uso? Che tipo di dispositivi usi? Connettiti con noi e parlane!<\/p>\n\n\n\n<p>Ci vediamo su su <a href=\"https:\/\/blog.besharp.it\/\" target=\"_blank\" rel=\"noreferrer noopener\">Proud2beCloud<\/a> tra 14 giorni!<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Introduzione Il Machine Learning sta rapidamente entrando a far parte della nostra vita quotidiana. Sempre pi\u00f9 software e dispositivi sono [&hellip;]<\/p>\n","protected":false},"author":9,"featured_media":2570,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[474],"tags":[261,251,445,442,417,412],"class_list":["post-2517","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-data-analytics","tag-amazon-kinesis-data-firehose","tag-amazon-s3","tag-aws-glue-en","tag-aws-iot","tag-etl-en","tag-internet-of-things-iot"],"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v24.7 - https:\/\/yoast.com\/wordpress\/plugins\/seo\/ -->\n<title>Deploy di una pipeline di real-time Data Ingestion e Analytics con AWS IoT Core, Amazon Kinesis e Amazon SageMaker - Proud2beCloud Blog<\/title>\n<meta name=\"description\" content=\"How to develop a pipeline using AWS resources to ingest data from a device connected to the AWS ecosystem through IoT Core.\" \/>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/blog.besharp.it\/it\/deploy-di-una-pipeline-di-real-time-data-ingestion-e-analytics-con-aws-iot-core-amazon-kinesis-e-amazon-sagemaker\/\" \/>\n<meta property=\"og:locale\" content=\"it_IT\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"Real-time Data Ingestion e Analytics con AWS IoT Core, Kinesis e SageMaker\" \/>\n<meta property=\"og:description\" content=\"Realizziamo una pipeline di real-time Data Ingestion e Analytics con AWS IoT Core, Kinesis e SageMaker.\" \/>\n<meta property=\"og:url\" content=\"https:\/\/blog.besharp.it\/it\/deploy-di-una-pipeline-di-real-time-data-ingestion-e-analytics-con-aws-iot-core-amazon-kinesis-e-amazon-sagemaker\/\" \/>\n<meta property=\"og:site_name\" content=\"Proud2beCloud Blog\" \/>\n<meta property=\"article:published_time\" content=\"2021-02-04T11:49:38+00:00\" \/>\n<meta property=\"article:modified_time\" content=\"2021-03-17T14:33:44+00:00\" \/>\n<meta property=\"og:image\" content=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/ingestion-di-dati-social.png\" \/>\n\t<meta property=\"og:image:width\" content=\"1200\" \/>\n\t<meta property=\"og:image:height\" content=\"628\" \/>\n\t<meta property=\"og:image:type\" content=\"image\/png\" \/>\n<meta name=\"author\" content=\"Matteo Moroni\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:title\" content=\"Real-time Data Ingestion e Analytics con AWS IoT Core, Kinesis e SageMaker\" \/>\n<meta name=\"twitter:description\" content=\"Realizziamo una pipeline di real-time Data Ingestion e Analytics con AWS IoT Core, Kinesis e SageMaker.\" \/>\n<meta name=\"twitter:image\" content=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/ingestion-di-dati-social.png\" \/>\n<meta name=\"twitter:label1\" content=\"Scritto da\" \/>\n\t<meta name=\"twitter:data1\" content=\"Matteo Moroni\" \/>\n\t<meta name=\"twitter:label2\" content=\"Tempo di lettura stimato\" \/>\n\t<meta name=\"twitter:data2\" content=\"25 minuti\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\/\/schema.org\",\"@graph\":[{\"@type\":\"WebPage\",\"@id\":\"https:\/\/blog.besharp.it\/it\/deploy-di-una-pipeline-di-real-time-data-ingestion-e-analytics-con-aws-iot-core-amazon-kinesis-e-amazon-sagemaker\/\",\"url\":\"https:\/\/blog.besharp.it\/it\/deploy-di-una-pipeline-di-real-time-data-ingestion-e-analytics-con-aws-iot-core-amazon-kinesis-e-amazon-sagemaker\/\",\"name\":\"Deploy di una pipeline di real-time Data Ingestion e Analytics con AWS IoT Core, Amazon Kinesis e Amazon SageMaker - Proud2beCloud Blog\",\"isPartOf\":{\"@id\":\"https:\/\/blog.besharp.it\/it\/#website\"},\"primaryImageOfPage\":{\"@id\":\"https:\/\/blog.besharp.it\/it\/deploy-di-una-pipeline-di-real-time-data-ingestion-e-analytics-con-aws-iot-core-amazon-kinesis-e-amazon-sagemaker\/#primaryimage\"},\"image\":{\"@id\":\"https:\/\/blog.besharp.it\/it\/deploy-di-una-pipeline-di-real-time-data-ingestion-e-analytics-con-aws-iot-core-amazon-kinesis-e-amazon-sagemaker\/#primaryimage\"},\"thumbnailUrl\":\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/ingestion-di-dati.png\",\"datePublished\":\"2021-02-04T11:49:38+00:00\",\"dateModified\":\"2021-03-17T14:33:44+00:00\",\"author\":{\"@id\":\"https:\/\/blog.besharp.it\/it\/#\/schema\/person\/0b3e69eb2dcb125d58476b906ec1c7bc\"},\"description\":\"How to develop a pipeline using AWS resources to ingest data from a device connected to the AWS ecosystem through IoT Core.\",\"breadcrumb\":{\"@id\":\"https:\/\/blog.besharp.it\/it\/deploy-di-una-pipeline-di-real-time-data-ingestion-e-analytics-con-aws-iot-core-amazon-kinesis-e-amazon-sagemaker\/#breadcrumb\"},\"inLanguage\":\"it-IT\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\/\/blog.besharp.it\/it\/deploy-di-una-pipeline-di-real-time-data-ingestion-e-analytics-con-aws-iot-core-amazon-kinesis-e-amazon-sagemaker\/\"]}]},{\"@type\":\"ImageObject\",\"inLanguage\":\"it-IT\",\"@id\":\"https:\/\/blog.besharp.it\/it\/deploy-di-una-pipeline-di-real-time-data-ingestion-e-analytics-con-aws-iot-core-amazon-kinesis-e-amazon-sagemaker\/#primaryimage\",\"url\":\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/ingestion-di-dati.png\",\"contentUrl\":\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/ingestion-di-dati.png\",\"width\":1667,\"height\":1250,\"caption\":\"Ingestion di dati iot e pipeline di analytics ml mediante aws iot, kinesis e sagemaker\"},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\/\/blog.besharp.it\/it\/deploy-di-una-pipeline-di-real-time-data-ingestion-e-analytics-con-aws-iot-core-amazon-kinesis-e-amazon-sagemaker\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Home\",\"item\":\"https:\/\/blog.besharp.it\/it\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"Deploy di una pipeline di real-time Data Ingestion e Analytics con AWS IoT Core, Amazon Kinesis e Amazon SageMaker\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\/\/blog.besharp.it\/it\/#website\",\"url\":\"https:\/\/blog.besharp.it\/it\/\",\"name\":\"Proud2beCloud Blog\",\"description\":\"il blog di beSharp\",\"alternateName\":\"Proud2beCloud Blog\",\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\/\/blog.besharp.it\/it\/?s={search_term_string}\"},\"query-input\":{\"@type\":\"PropertyValueSpecification\",\"valueRequired\":true,\"valueName\":\"search_term_string\"}}],\"inLanguage\":\"it-IT\"},{\"@type\":\"Person\",\"@id\":\"https:\/\/blog.besharp.it\/it\/#\/schema\/person\/0b3e69eb2dcb125d58476b906ec1c7bc\",\"name\":\"Matteo Moroni\",\"image\":{\"@type\":\"ImageObject\",\"inLanguage\":\"it-IT\",\"@id\":\"https:\/\/blog.besharp.it\/it\/#\/schema\/person\/image\/\",\"url\":\"https:\/\/secure.gravatar.com\/avatar\/acad790b9bb4c6d62e076ecdc1debb35?s=96&d=mm&r=g\",\"contentUrl\":\"https:\/\/secure.gravatar.com\/avatar\/acad790b9bb4c6d62e076ecdc1debb35?s=96&d=mm&r=g\",\"caption\":\"Matteo Moroni\"},\"description\":\"DevOps e Solution Architect di beSharp, mi occupo di sviluppare soluzioni Saas, Data Analysis, HPC e di progettare architetture non convenzionali a complessit\u00e0 divergente. Appassionato di informatica e fisica, da sempre lavoro nella prima e ho un PhD nella seconda. Parlare di tutto ci\u00f2 che \u00e8 tecnico e nerd mi rende felice!\",\"url\":\"https:\/\/blog.besharp.it\/it\/author\/matteo-moroni\/\"}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"Deploy di una pipeline di real-time Data Ingestion e Analytics con AWS IoT Core, Amazon Kinesis e Amazon SageMaker - Proud2beCloud Blog","description":"How to develop a pipeline using AWS resources to ingest data from a device connected to the AWS ecosystem through IoT Core.","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/blog.besharp.it\/it\/deploy-di-una-pipeline-di-real-time-data-ingestion-e-analytics-con-aws-iot-core-amazon-kinesis-e-amazon-sagemaker\/","og_locale":"it_IT","og_type":"article","og_title":"Real-time Data Ingestion e Analytics con AWS IoT Core, Kinesis e SageMaker","og_description":"Realizziamo una pipeline di real-time Data Ingestion e Analytics con AWS IoT Core, Kinesis e SageMaker.","og_url":"https:\/\/blog.besharp.it\/it\/deploy-di-una-pipeline-di-real-time-data-ingestion-e-analytics-con-aws-iot-core-amazon-kinesis-e-amazon-sagemaker\/","og_site_name":"Proud2beCloud Blog","article_published_time":"2021-02-04T11:49:38+00:00","article_modified_time":"2021-03-17T14:33:44+00:00","og_image":[{"width":1200,"height":628,"url":"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/ingestion-di-dati-social.png","type":"image\/png"}],"author":"Matteo Moroni","twitter_card":"summary_large_image","twitter_title":"Real-time Data Ingestion e Analytics con AWS IoT Core, Kinesis e SageMaker","twitter_description":"Realizziamo una pipeline di real-time Data Ingestion e Analytics con AWS IoT Core, Kinesis e SageMaker.","twitter_image":"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/ingestion-di-dati-social.png","twitter_misc":{"Scritto da":"Matteo Moroni","Tempo di lettura stimato":"25 minuti"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"WebPage","@id":"https:\/\/blog.besharp.it\/it\/deploy-di-una-pipeline-di-real-time-data-ingestion-e-analytics-con-aws-iot-core-amazon-kinesis-e-amazon-sagemaker\/","url":"https:\/\/blog.besharp.it\/it\/deploy-di-una-pipeline-di-real-time-data-ingestion-e-analytics-con-aws-iot-core-amazon-kinesis-e-amazon-sagemaker\/","name":"Deploy di una pipeline di real-time Data Ingestion e Analytics con AWS IoT Core, Amazon Kinesis e Amazon SageMaker - Proud2beCloud Blog","isPartOf":{"@id":"https:\/\/blog.besharp.it\/it\/#website"},"primaryImageOfPage":{"@id":"https:\/\/blog.besharp.it\/it\/deploy-di-una-pipeline-di-real-time-data-ingestion-e-analytics-con-aws-iot-core-amazon-kinesis-e-amazon-sagemaker\/#primaryimage"},"image":{"@id":"https:\/\/blog.besharp.it\/it\/deploy-di-una-pipeline-di-real-time-data-ingestion-e-analytics-con-aws-iot-core-amazon-kinesis-e-amazon-sagemaker\/#primaryimage"},"thumbnailUrl":"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/ingestion-di-dati.png","datePublished":"2021-02-04T11:49:38+00:00","dateModified":"2021-03-17T14:33:44+00:00","author":{"@id":"https:\/\/blog.besharp.it\/it\/#\/schema\/person\/0b3e69eb2dcb125d58476b906ec1c7bc"},"description":"How to develop a pipeline using AWS resources to ingest data from a device connected to the AWS ecosystem through IoT Core.","breadcrumb":{"@id":"https:\/\/blog.besharp.it\/it\/deploy-di-una-pipeline-di-real-time-data-ingestion-e-analytics-con-aws-iot-core-amazon-kinesis-e-amazon-sagemaker\/#breadcrumb"},"inLanguage":"it-IT","potentialAction":[{"@type":"ReadAction","target":["https:\/\/blog.besharp.it\/it\/deploy-di-una-pipeline-di-real-time-data-ingestion-e-analytics-con-aws-iot-core-amazon-kinesis-e-amazon-sagemaker\/"]}]},{"@type":"ImageObject","inLanguage":"it-IT","@id":"https:\/\/blog.besharp.it\/it\/deploy-di-una-pipeline-di-real-time-data-ingestion-e-analytics-con-aws-iot-core-amazon-kinesis-e-amazon-sagemaker\/#primaryimage","url":"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/ingestion-di-dati.png","contentUrl":"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/02\/ingestion-di-dati.png","width":1667,"height":1250,"caption":"Ingestion di dati iot e pipeline di analytics ml mediante aws iot, kinesis e sagemaker"},{"@type":"BreadcrumbList","@id":"https:\/\/blog.besharp.it\/it\/deploy-di-una-pipeline-di-real-time-data-ingestion-e-analytics-con-aws-iot-core-amazon-kinesis-e-amazon-sagemaker\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Home","item":"https:\/\/blog.besharp.it\/it\/"},{"@type":"ListItem","position":2,"name":"Deploy di una pipeline di real-time Data Ingestion e Analytics con AWS IoT Core, Amazon Kinesis e Amazon SageMaker"}]},{"@type":"WebSite","@id":"https:\/\/blog.besharp.it\/it\/#website","url":"https:\/\/blog.besharp.it\/it\/","name":"Proud2beCloud Blog","description":"il blog di beSharp","alternateName":"Proud2beCloud Blog","potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/blog.besharp.it\/it\/?s={search_term_string}"},"query-input":{"@type":"PropertyValueSpecification","valueRequired":true,"valueName":"search_term_string"}}],"inLanguage":"it-IT"},{"@type":"Person","@id":"https:\/\/blog.besharp.it\/it\/#\/schema\/person\/0b3e69eb2dcb125d58476b906ec1c7bc","name":"Matteo Moroni","image":{"@type":"ImageObject","inLanguage":"it-IT","@id":"https:\/\/blog.besharp.it\/it\/#\/schema\/person\/image\/","url":"https:\/\/secure.gravatar.com\/avatar\/acad790b9bb4c6d62e076ecdc1debb35?s=96&d=mm&r=g","contentUrl":"https:\/\/secure.gravatar.com\/avatar\/acad790b9bb4c6d62e076ecdc1debb35?s=96&d=mm&r=g","caption":"Matteo Moroni"},"description":"DevOps e Solution Architect di beSharp, mi occupo di sviluppare soluzioni Saas, Data Analysis, HPC e di progettare architetture non convenzionali a complessit\u00e0 divergente. Appassionato di informatica e fisica, da sempre lavoro nella prima e ho un PhD nella seconda. Parlare di tutto ci\u00f2 che \u00e8 tecnico e nerd mi rende felice!","url":"https:\/\/blog.besharp.it\/it\/author\/matteo-moroni\/"}]}},"_links":{"self":[{"href":"https:\/\/blog.besharp.it\/it\/wp-json\/wp\/v2\/posts\/2517","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/blog.besharp.it\/it\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/blog.besharp.it\/it\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/blog.besharp.it\/it\/wp-json\/wp\/v2\/users\/9"}],"replies":[{"embeddable":true,"href":"https:\/\/blog.besharp.it\/it\/wp-json\/wp\/v2\/comments?post=2517"}],"version-history":[{"count":0,"href":"https:\/\/blog.besharp.it\/it\/wp-json\/wp\/v2\/posts\/2517\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/blog.besharp.it\/it\/wp-json\/wp\/v2\/media\/2570"}],"wp:attachment":[{"href":"https:\/\/blog.besharp.it\/it\/wp-json\/wp\/v2\/media?parent=2517"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/blog.besharp.it\/it\/wp-json\/wp\/v2\/categories?post=2517"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/blog.besharp.it\/it\/wp-json\/wp\/v2\/tags?post=2517"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}