{"id":2801,"date":"2021-03-16T12:35:44","date_gmt":"2021-03-16T11:35:44","guid":{"rendered":"https:\/\/blog.besharp.it\/?p=2801"},"modified":"2021-04-08T15:30:28","modified_gmt":"2021-04-08T13:30:28","slug":"costruire-un-data-lake-su-aws-con-aws-lake-formation","status":"publish","type":"post","link":"https:\/\/blog.besharp.it\/it\/costruire-un-data-lake-su-aws-con-aws-lake-formation\/","title":{"rendered":"Costruire un Data Lake su AWS con AWS Lake Formation"},"content":{"rendered":"\n<h2 class=\"wp-block-heading\" id=\"block-708943e7-d23c-420c-a20c-362e0f5caac5\">Introduzione<\/h2>\n\n\n\n<p id=\"block-9e21b701-fadb-457a-a89f-289c2944d5b8\">Sfruttare i dati disponibili (Big Data) \u00e8 diventato un obiettivo di primaria importanza per tantissime aziende negli ultimi decenni. In questi anni infatti, l\u2019avvento del Cloud Computing ha democratizzato l\u2019accesso a risorse IT estremamente potenti, risultato che ha portato all\u2019eliminazione dei costi e delle difficolt\u00e0 di gestire l\u2019infrastruttura necessaria al funzionamento di un data center on-premise.<\/p>\n\n\n\n<p id=\"block-e3948950-c5a2-4646-a604-f8c578fd0b36\">Il Cloud Computing aiuta le aziende a utilizzare i dati in modo efficace, riducendo i costi di ingegneria grazie alla potenza e versatilit\u00e0 dei suoi servizi managed.<\/p>\n\n\n\n<p id=\"block-0025d0c2-d841-4ac4-b46d-738fa7a9b827\">Promuovendo l\u2019utilizzo di infrastrutture on-demand, rende pi\u00f9 facile ripensare, re-ingegnerizzare, e re-architettare un data lake per poter esplorare nuovi casi.<\/p>\n\n\n\n<p id=\"block-a75d2f01-fe1a-49d4-8b86-8db7daf9a73b\">Essendo dunque i dati l\u2019elemento determinante per le decisioni di business, gestirli in modo efficace diventa una priorit\u00e0.<\/p>\n\n\n\n<p id=\"block-8244b889-1fcb-45f9-9e7a-78eb7b36738a\">Tra i tanti modi per farlo, il concetto di data lake, ovvero un repository, scalabile, low-cost, per centralizzare i dati provenienti da fonti diversification, \u00e8 diventato uno dei pi\u00f9 apprezzati. Esso permette agli utenti di salvare i dati as-is senza un processo di strutturazione a priori, e pu\u00f2 essere utilizzato per effettuare analisi di vario tipo, ottenere insights sui dati, e guidare con pi\u00f9 efficacia le decisioni di business.<\/p>\n\n\n\n<p id=\"block-53910864-236c-4beb-8105-5d52ce62218a\">Ma creare un data lake da zero non \u00e8 un compito facile: \u00e8 necessario eseguire diverse operazioni manuali, che rendono il processo complesso e, cosa pi\u00f9 importante, estremamente dispendioso dal punto di vista del tempo impiegato. I dati, di solito, provengono da fonti disparate e per questo, vanno monitorati con cautela.<\/p>\n\n\n\n<p id=\"block-90b43fc2-f359-4599-8f68-209ee8e6291e\">Inoltre, gestire una tale quantit\u00e0 di dati richiede l\u2019applicazione di diverse procedure per evitare leaks e buchi di sicurezza, il che significa mettere in atto un sistema di gestione delle policy di accesso, abilitare la cifratura dei dati sensibili e, naturalmente, gestirne le chiavi.<\/p>\n\n\n\n<p id=\"block-35e199d8-3b33-4c87-a57f-c4c90e8e99a9\">Senza applicare le giuste scelte riguardo la tecnologia, l\u2019architettura, la qualit\u00e0 dei dati e la governance degli stessi, un data lake pu\u00f2 diventare velocemente un sistema caotico ed isolato, difficile da utilizzare, da mantenere, e spesso isolato.<\/p>\n\n\n\n<p id=\"block-41b060a1-655c-458a-8395-08d2fa7ba5fb\">Per fortuna, il Cloud di AWS viene in nostro aiuto grazie ai molti servizi disegnati appositamente per gestire i data lake, in particolare AWS Glue e S3.<\/p>\n\n\n\n<p id=\"block-498ffb0a-fe5b-4d2d-be45-cec5f39baa1b\">Per questo articolo, assumiamo che il lettore sia gi\u00e0 familiare con i concetti di servizi AWS e che conosca le peculiarit\u00e0 dietro a AWS Glue e S3. Qualora non fosse cos\u00ec, invitiamo a leggere le nostre ultime \u201cstories\u201d su <a href=\"https:\/\/blog.besharp.it\/en\/iot-ingestion-and-ml-analytics-pipeline-with-aws-iot-kinesis-and-sagemaker\/\">ingesting data for Machine Learning workloads<\/a> e <a href=\"https:\/\/blog.besharp.it\/en\/orchestrating-data-analytics-and-business-intelligence-pipelines-via-step-function\/\">managing complex Machine Learning projects via Step Functions<\/a>.<\/p>\n\n\n\n<p id=\"block-085428bb-3c61-4dda-aa49-cbd6bf4edeba\">Andremo ad esplorare come costruire un semplice data lake con Lake Formation. Quindi, ci concentreremo sugli aspetti di sicurezza e governance, ed esploreremo i vantaggi che questo servizio offre, rispetto al semplice utilizzo di AWS Glue.<\/p>\n\n\n\n<p id=\"block-d3a6a012-1307-438a-b8c2-5fc34152c17e\">Partiamo!<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"block-c4cbb999-2fb2-423d-8ab3-bf971f4f5232\">Setup base di Lake Formation<\/h2>\n\n\n\n<p id=\"block-7b7ff8a3-5150-4d56-89c5-d22068e14ac5\">Prima di concentrarci sui vantaggi della gestione di un data lake tramite AWS Lake Formation, dobbiamo prima crearne uno in modo semplice.<\/p>\n\n\n\n<p id=\"block-eb58707f-7e91-46ab-bc6c-c539511709fb\">Procediamo mediante console AWS e scegliamo \u201cAWS Lake Formation\u201d nell&#8217;elenco dei servizi o tramite la barra di ricerca. Ci verr\u00e0 mostrata la seguente dashboard:<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\" id=\"block-b8316455-e639-4c3d-a70d-5e32b3712c15\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"207\" src=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/03\/unnamed-2021-03-15T145213.264-1024x207.png\" alt=\"AWS Lake Formation get started\" class=\"wp-image-2872\" srcset=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/03\/unnamed-2021-03-15T145213.264-1024x207.png 1024w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/03\/unnamed-2021-03-15T145213.264-400x81.png 400w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/03\/unnamed-2021-03-15T145213.264-768x155.png 768w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/03\/unnamed-2021-03-15T145213.264-1536x310.png 1536w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/03\/unnamed-2021-03-15T145213.264.png 1600w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><figcaption><em>Schermata di accesso a Lake Formation<\/em><\/figcaption><\/figure>\n\n\n\n<p id=\"block-458dddd7-2e60-48de-a906-02038a30b51b\">Dopo aver cliccato su &#8220;Get started&#8221;, \u200b\u200bci verr\u00e0 chiesto di impostare un amministratore per il data lake; \u00e8 possibile aggiungere utenti e ruoli AWS disponibili sull&#8217;account a cui si \u00e8 connessi. Selezionane uno adatto, preferibilmente un ruolo, assumibile con credenziali temporanee da persone e servizi, e prosegui.<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\" id=\"block-6b329848-f412-4188-a7c7-69bc4b3d911f\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"604\" src=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/03\/unnamed-2021-03-15T145437.504-1024x604.png\" alt=\"create data lake on AWS Lake Formation\" class=\"wp-image-2870\" srcset=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/03\/unnamed-2021-03-15T145437.504-1024x604.png 1024w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/03\/unnamed-2021-03-15T145437.504-400x236.png 400w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/03\/unnamed-2021-03-15T145437.504-768x453.png 768w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/03\/unnamed-2021-03-15T145437.504.png 1196w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><figcaption><em>Selezionare un utente o un ruolo<\/em><\/figcaption><\/figure>\n\n\n\n<p id=\"block-ff11c1e0-596d-43fa-898b-f267e7f1ece8\">Ottenuto l&#8217;accesso alla dashboard di Lake Formation, \u00e8 il momento di aggiungere una \u201dLake Location\u201d, ovvero un percorso S3 valido da cui recuperare i dati. I dati possono essere ottenuti tramite vari sistemi, ad esempio mediante <strong>Jobs di AWS Glue<\/strong>, attraverso la combinazione di <strong>AWS Kinesis stream<\/strong> e <strong>Data Firehose<\/strong>, o semplicemente caricando i dati direttamente su <strong>S3<\/strong>.<\/p>\n\n\n\n<p id=\"block-027dbbca-e43e-49ff-ab03-d89df78eeaf6\">Esaminiamo rapidamente tutte le possibilit\u00e0 per popolare il nostro <strong>Glue Catalog<\/strong> (strumento che definisce il nostro data lake dietro le quinte).<\/p>\n\n\n\n<p id=\"block-d62737a8-8201-4831-a8dc-25ac7d0edfc0\">Innanzitutto, aggiungeremo la posizione del data lake facendo clic sul pulsante &#8220;Register location&#8221; nella sezione \u201cRegister and ingest\u201d dalla dashboard del servizio, come in figura.<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\" id=\"block-c902e84a-978b-4058-bcb1-46210aed9343\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"156\" src=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/03\/unnamed-2021-03-15T145633.100-1024x156.png\" alt=\"Choose data lake location\" class=\"wp-image-2868\" srcset=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/03\/unnamed-2021-03-15T145633.100-1024x156.png 1024w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/03\/unnamed-2021-03-15T145633.100-400x61.png 400w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/03\/unnamed-2021-03-15T145633.100-768x117.png 768w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/03\/unnamed-2021-03-15T145633.100-1536x233.png 1536w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/03\/unnamed-2021-03-15T145633.100.png 1600w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><figcaption><em>Aggiungiamo una nuova location per il data lake<\/em><\/figcaption><\/figure>\n\n\n\n<p id=\"block-a6184abf-9db5-4b47-8a3f-a156413f87b3\">Ci verr\u00e0 richiesto di selezionare un bucket S3, procediamo, quindi aggiungiamo uno IAM role adatto (o permettiamo ad AWs di crearne uno), quindi completiamo la procedura con \u201cRegister location\u201d.<\/p>\n\n\n\n<p id=\"block-b4cebe13-7c8a-4da4-b380-ed0540089a7d\">Ora possiamo:<\/p>\n\n\n\n<ol class=\"wp-block-list\" id=\"block-cc664241-bc4e-4c2a-b8bc-e49bb1c4240d\"><li>Caricare semplicemente i dati su S3 prima di iniziare un processo di crawling;<\/li><li>Utilizzare una combinazione di servizi AWS per fare l\u2019ingestion dei dati, come Kinesis Stream e Firehose (leggete <a href=\"https:\/\/blog.besharp.it\/en\/iot-ingestion-and-ml-analytics-pipeline-with-aws-iot-kinesis-and-sagemaker\/\">la nostra story<\/a> per maggiori informazioni);<\/li><li>Utilizzare un <strong>blueprint<\/strong> di Lake Formation per ottenere velocemente dati da sorgenti di log o database di varia natura;<\/li><\/ol>\n\n\n\n<p id=\"block-77c760a2-7b94-4943-aefc-99c4c1e87fd2\">Analizziamo brevemente la terza opzione, potenzialmente limitata, ma molto interessante e non ancora coperta dai nostri blog post precedenti<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\" id=\"block-24a6dce6-f388-436f-b3ce-35065c133beb\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"277\" src=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/03\/unnamed-2021-03-15T145804.270-1024x277.png\" alt=\"AWS Lake Formation Blueprints\" class=\"wp-image-2866\" srcset=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/03\/unnamed-2021-03-15T145804.270-1024x277.png 1024w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/03\/unnamed-2021-03-15T145804.270-400x108.png 400w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/03\/unnamed-2021-03-15T145804.270-768x208.png 768w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/03\/unnamed-2021-03-15T145804.270-1536x416.png 1536w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/03\/unnamed-2021-03-15T145804.270.png 1600w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><figcaption><em>Attivare un crawling job mediante un Blueprint<\/em><\/figcaption><\/figure>\n\n\n\n<p id=\"block-956839c4-bf1e-4bdc-9ca5-a94a4c7943c1\">Clicchiamo su \u201cUse blueprint\u201d, ci verr\u00e0 presentato un form dove potremo selezionare se prelevare i dati da un database o una sorgente di log.<\/p>\n\n\n\n<p id=\"block-965c1e3a-8236-4501-a50b-0da86a3b4467\">Ora ci baster\u00e0 seguire le istruzioni per generare un workload, che in pratica \u00e8 un ETL Job di Glue dove tutte le opzioni per le fasi di Extract, Transform, e Load si trovano in un unico punto.<\/p>\n\n\n\n<p id=\"block-e2457cf0-161e-4edd-8eb9-31188c57461e\">Ad esempio, per un database MySQL, MSSQL o Oracle, aggiungiamo (o creiamo) una connessione AWS Glue, specificando anche il DB di origine e la tabella, secondo questo formato: <strong>&lt;db_name&gt; \/ &lt;table_name&gt;<\/strong>. Aggiungiamo (o creiamo) il Catalogo Glue di destinazione, specificando un DB e una tabella, utilizziamo anche anche lo strumento fornito, per selezionare un percorso S3 adatto ad ospitare i dati del catalogo.<\/p>\n\n\n\n<p id=\"block-6f7a2b18-7caf-4052-8c11-5aa60ff01678\">Selezioniamo un nome per il flusso di lavoro, decidiamo la frequenza del crawler, ad esempio &#8220;Run on demand&#8221; ed infine, un prefisso per la tabella, le altre opzioni possono essere lasciate come predefinite.<\/p>\n\n\n\n<p id=\"block-e88ea6b5-67a4-47a3-bf22-8806749dc330\">Alcune note: optare sempre per il formato <strong>parquet<\/strong> nella sezione target di S3, in quanto garantisce un solido incremento delle prestazioni sulle operazioni che verranno eventualmente eseguite sul set di dati in seguito. Inoltre, se si prevede di utilizzare Athena per interrogare il proprio catalogo, utilizzare &#8220;_&#8221; invece di &#8220;-&#8221; per i nomi di database e tabelle, poich\u00e9 quest&#8217;ultimo carattere a volte pu\u00f2 portare a problemi di compatibilit\u00e0 indesiderati.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"block-aab02c7f-91d1-496a-aa3b-fa004928dfb3\">Sicurezza migliorata<\/h2>\n\n\n\n<p id=\"block-b9e2d8e4-4bb2-40a3-a0d3-764583b53854\">Una volta che Lake Formation \u00e8 pronto, possiamo focalizzarci sui dettagli che lo rendono uno strumento davvero degno di nota: in primis un modello a permessi \u201claschi\u201d che va ad aumentare quello gi\u00e0 fornito da IAM.<\/p>\n\n\n\n<p id=\"block-e31da5f0-0f27-40cc-a014-de306913c1f7\">Un modello centralizzato cos\u00ec definito, permette di abilitare in seguito dei permessi molto pi\u00f9 fini e granulari, mediante un&nbsp; semplice sistema di grant\/revoke, cos\u00ec come mostrato in figura:<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\" id=\"block-c6e87da4-a182-4a71-ab76-8602459a1f87\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"336\" src=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/03\/unnamed-2021-03-15T150004.196-1024x336.png\" alt=\"AWS Lake Formation permissions\" class=\"wp-image-2864\" srcset=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/03\/unnamed-2021-03-15T150004.196-1024x336.png 1024w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/03\/unnamed-2021-03-15T150004.196-400x131.png 400w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/03\/unnamed-2021-03-15T150004.196-768x252.png 768w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/03\/unnamed-2021-03-15T150004.196.png 1421w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><figcaption><em>Come una richiesta passa attraverso 2 stage di permessi prima di avere accesso alle risorse<\/em><\/figcaption><\/figure>\n\n\n\n<p id=\"block-705f08b8-8cf1-451f-8663-b66a9eee91fb\">Le autorizzazioni di Lake Formation vengono applicate anche a livello di tabella e di colonna e funzionano su tutto lo stack completo di servizi AWS per l&#8217;analisi e l&#8217;apprendimento automatico, inclusi, ma non limitati a, Amazon Athena, Redshift, Sagemaker e vengono direttamente mappati su oggetti S3 in modo trasparente.<\/p>\n\n\n\n<p id=\"block-553202d8-8346-4b55-a13f-597bf264a3f3\">Il controllo degli accessi in AWS Lake Formation si divide in due macro aree distinte:<\/p>\n\n\n\n<ul class=\"wp-block-list\" id=\"block-5d229120-9d82-456f-bfd5-05beacce2718\"><li><strong>Metadata access control<\/strong> \u2013 Autorizzazioni per le risorse del Glue Data Catalog che consentono ai <strong>principal<\/strong> di creare, leggere, aggiornare ed eliminare database e tabelle di metadati.<\/li><li><strong>Underlying data access control<\/strong> \u2013 Autorizzazioni per S3 che includono l&#8217;accesso ai dati e le autorizzazioni alle location (percorsi) dei dati. Le autorizzazioni di accesso ai dati consentono ai <strong>principal<\/strong> di leggere e scrivere oggetti su S3. Le autorizzazioni per le location dei dati consentono la creazione di database e tabelle di metadati che puntano a path specifiche su S3.<\/li><\/ul>\n\n\n\n<p id=\"block-dad8e485-c090-4aff-9525-a7475c21c269\">L&#8217;utilizzo di questi elementi per centralizzare le policy di accesso ai dati \u00e8 semplice: prima blocchiamo qualsiasi accesso diretto ai bucket richiesti su S3, in modo che Lake Formation gestisca tutti gli accessi ai dati.<\/p>\n\n\n\n<p id=\"block-00987f49-e748-4c27-bc5d-18ce6c443ce1\">Successivamente, configuriamo la protezione dei dati e le <strong>policy di accesso<\/strong> affinch\u00e9 vengano applicate a tutti i servizi AWS che accedono ai dati nel data lake. Sfruttando le autorizzazioni per metadati e oggetti, possiamo configurare utenti e ruoli per accedere solo a dati specifici fino a livello di tabella e\/o colonna.<\/p>\n\n\n\n<p id=\"block-f9fb9936-6d69-438c-8f04-d5d31bb289bc\">Prima di assegnare policy a utenti e risorse, Lake Formation necessita di alcune \u201cpersonas\u201d, obbligatorie per funzionare correttamente, e queste sono anche necessarie per garantire la compatibilit\u00e0 con le versioni precedenti delle autorizzazioni gestite da IAM, create in precedenza per S3, AWS Glue, Athena e altri servizi:<\/p>\n\n\n\n<p id=\"block-e7ba48ee-e566-46b9-891b-35bb4c82cd63\"><strong>IAM administrator<\/strong><\/p>\n\n\n\n<p id=\"block-506339d2-90ec-4176-9c20-0e90462b7cc7\">Utente che pu\u00f2 creare altri utenti e ruoli IAM. Dispone della policy gestita da AWS \u201cAdministratorAccess\u201d. Pu\u00f2 anche essere designato come amministratore del data lake.<\/p>\n\n\n\n<p id=\"block-174f00bb-8eab-45fb-86a4-5284c9917d61\"><strong>Data lake administrator<\/strong><\/p>\n\n\n\n<p id=\"block-0bedc13c-3de6-4213-88f5-e60c1f4b176e\">Utente che pu\u00f2 registrare location su Amazon S3, accedere al catalogo dei dati, creare database, creare ed eseguire flussi di lavoro, concedere autorizzazioni a Lake Formation ad altri utenti e visualizzare i log di AWS CloudTrail.<\/p>\n\n\n\n<p id=\"block-465b6a42-ca6f-4d18-84e0-cad30d5081eb\"><strong>Workflow role<\/strong><\/p>\n\n\n\n<p id=\"block-f1b70d66-cc35-4bb7-a2f7-be1d6d3b7e60\">Ruolo che esegue un flusso di lavoro per conto di un utente. Si specifica questo ruolo quando un flusso di lavoro viene creato a partire da un progetto.<\/p>\n\n\n\n<p id=\"block-3aaec178-52e2-46c1-92dc-47d8f5c6d3a1\">Le prime due \u201cpersonas\u201d sono anche definite <strong>IAMAllowedPrincipals<\/strong> e hanno attive le autorizzazioni &#8220;Super&#8221; e &#8220;Use only IAM access control&#8221; di default, garantendo cos\u00ec la retrocompatibilit\u00e0 con i workflow Glue preesistenti, S3 e Athena.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"block-9516976e-33a5-4453-9164-f103b8631c65\">Come funzionano i permessi<\/h2>\n\n\n\n<p id=\"block-62754b9e-6bc6-473c-994f-e9829ad3ea30\">Le autorizzazioni fine-grained sono organizzate in modo tale da permettere a Lake formation di sostituire le autorizzazioni IAM di tipo coarse. Questo al fine di garantire transizioni pi\u00f9 fluide dal vecchio set di autorizzazioni a quello gestito interamente da Lake Formation.<\/p>\n\n\n\n<p id=\"block-3ad253e1-2ca4-40f1-9ee7-958789667fa3\">Un semplice schema illustra le scelte possibili:<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\" id=\"block-0390134a-0180-4579-8328-5564b76e0e7e\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"387\" src=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/03\/unnamed-2021-03-15T150448.162-1024x387.png\" alt=\"transition from IAM to Lake Formation permission set \" class=\"wp-image-2862\" srcset=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/03\/unnamed-2021-03-15T150448.162-1024x387.png 1024w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/03\/unnamed-2021-03-15T150448.162-400x151.png 400w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/03\/unnamed-2021-03-15T150448.162-768x290.png 768w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/03\/unnamed-2021-03-15T150448.162.png 1175w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><figcaption><em>Come funziona la transizione del set di permessi da IAM a Lake Formation<\/em><\/figcaption><\/figure>\n\n\n\n<p id=\"block-95542a9c-12fc-454c-ada7-4faf8f11c8bb\">Per vedere tutte le tipologie di permessi disponibili su&nbsp; Lake Formation, potete dare una lettura alla <a href=\"https:\/\/docs.aws.amazon.com\/lake-formation\/latest\/dg\/lf-permissions-reference.html\">documentazione<\/a> ufficiale di AWS.<\/p>\n\n\n\n<p id=\"block-083ef24d-1aa8-4cb0-b395-4245b643ec6a\">Lake Formation attualmente supporta anche la Server-Side-Encryption su S3, nonch\u00e9 gli endpoint privati \u200b\u200bper le VPC.<\/p>\n\n\n\n<p id=\"block-540ec8ce-024f-40b3-87ee-aa0e77846bfa\">Registra inoltre tutte le attivit\u00e0 in AWS CloudTrail (che pu\u00f2 anche essere un set di dati supportato), dando un ottimo contributo all\u2019isolamento della rete e alla sua verificabilit\u00e0.<\/p>\n\n\n\n<p id=\"block-25a45a7e-caa2-4cb4-b080-153b44a3a875\">I permessi di Lake Formation <strong>si applicano solo nella Regione in cui sono stati concessi<\/strong>.Per compatibilit\u00e0 con workflow precedenti, Lake Formation <strong>passa attraverso le autorizzazioni IAM anche per le nuove risorse<\/strong>, a meno di non <strong>specificare un comportamento diverso<\/strong>.<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\" id=\"block-8c63523d-0dc0-4f7d-ab38-88c9ea8d85fd\"><img loading=\"lazy\" decoding=\"async\" width=\"700\" height=\"390\" src=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/03\/unnamed-2021-03-15T150622.667.png\" alt=\"AWS Lake Formation Data Catalog settings\" class=\"wp-image-2860\" srcset=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/03\/unnamed-2021-03-15T150622.667.png 700w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/03\/unnamed-2021-03-15T150622.667-400x223.png 400w\" sizes=\"auto, (max-width: 700px) 100vw, 700px\" \/><figcaption><em>Notifica sull\u2019uso di permessi legacy<\/em><\/figcaption><\/figure>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"block-f4f66c31-e524-44d4-855b-1556980530e2\">Governance migliorata<\/h2>\n\n\n\n<p id=\"block-3a37d7fb-6600-49b2-87e9-cd0ef4e541b7\">Ci\u00f2 che aiuta davvero a mantenere il controllo sul proprio data lake \u00e8 che con Lake Formation, abbiamo finalmente una dashboard centralizzata per controllare le location su S3, i job ETL, i crawler, i cataloghi di GLue e ovviamente le autorizzazioni.<\/p>\n\n\n\n<p id=\"block-c5541dd4-5b37-443f-8532-edbf351b6374\">Un&#8217;altra caratteristica interessante \u00e8 che Lake Formation viene fornito con Cloud Trail abilitato, quindi ogni azione eseguita dagli utenti o dai servizi, tramite i ruoli IAM, viene controllata e registrata direttamente nella dashboard.<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\" id=\"block-7b66c32d-c4af-444d-93b8-ea47180e19ca\"><img loading=\"lazy\" decoding=\"async\" width=\"1024\" height=\"159\" src=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/03\/unnamed-2021-03-15T150734.870-1024x159.png\" alt=\"AWS Lake Formation - CloudTrail enabled\" class=\"wp-image-2858\" srcset=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/03\/unnamed-2021-03-15T150734.870-1024x159.png 1024w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/03\/unnamed-2021-03-15T150734.870-400x62.png 400w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/03\/unnamed-2021-03-15T150734.870-768x120.png 768w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/03\/unnamed-2021-03-15T150734.870-1536x239.png 1536w, https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/03\/unnamed-2021-03-15T150734.870.png 1600w\" sizes=\"auto, (max-width: 1024px) 100vw, 1024px\" \/><figcaption><em>Cloud Trail mostra le attivit\u00e0 di accesso direttamente dalla dashboard di Lake Formation<\/em><\/figcaption><\/figure>\n\n\n\n<p id=\"block-e714871b-6c44-4462-a9db-66bd47f77972\">Un&#8217;altra questione che dobbiamo gestire quando abbiamo a che fare con i data lake \u00e8 la deduplicazione e la pulizia dei dati, che, se ignorate, portano a dati incoerenti, inefficienti e spesso inaccessibili.<\/p>\n\n\n\n<p id=\"block-97d7733e-a6a9-4824-9d55-6cbb8e58e3db\">Incapsulando le funzionalit\u00e0 di AWS Glue, Lake Formation offre <strong>FindMatches ML Transform<\/strong>: un Glue Job utilizzato per rimuovere i dati duplicati sfruttando gli algoritmi di Machine Learning. \u00c8 possibile selezionare una soglia per la Accuracy, per indicare la quantit\u00e0 di precisione che l&#8217;algoritmo deve utilizzare per identificare dati potenzialmente duplicati (pi\u00f9 precisione, pi\u00f9 costi).<\/p>\n\n\n\n<p id=\"block-24bbc0db-bebd-48cb-a311-47a02bd63520\">Per saperne di pi\u00f9, vi invitiamo a seguire questo tutorial su <a href=\"https:\/\/aws.amazon.com\/blogs\/big-data\/integrate-and-deduplicate-datasets-using-aws-lake-formation-findmatches\/\">AWS<\/a>.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"block-d3eab214-f345-49c2-a943-89b101892ff5\">Feature in Preview<\/h2>\n\n\n\n<p id=\"block-64459fdd-cea3-4c0a-bf92-25c09439c824\"><strong>Transazioni &#8211; inserire, eliminare e modificare righe contemporaneamente<\/strong><\/p>\n\n\n\n<p id=\"block-001576fe-0fb1-45be-a8cd-959b179e71ca\">Per gestire l&#8217;evoluzione dei dati nel tempo \u00e8 fondamentale definire procedure in grado di mantenere il data lake sempre aggiornato. Questo \u00e8 fondamentale in quanto l&#8217;accesso ai dati deve essere concesso a diversi utenti in qualsiasi momento e dobbiamo anche garantire l&#8217;integrit\u00e0 dei dati stessi. I dati sono anche spesso organizzati in modi strutturati e non strutturati contemporaneamente.<\/p>\n\n\n\n<p id=\"block-e47e66d2-381b-4af9-9231-6840e4952322\">L&#8217;implementazione degli aggiornamenti in tempo reale \u00e8 complessa e difficile da scalare. AWS Lake Formation introduce, in anteprima, nuove API che supportano le transazioni ACID utilizzando un nuovo tipo di tabella di data lake, chiamata Governed table.<\/p>\n\n\n\n<p id=\"block-3a8362f9-1b4d-4dd9-a611-01e76d3b5b7c\">Consente a pi\u00f9 utenti di inserire, eliminare e modificare contemporaneamente righe tra tabelle, consentendo comunque ad altri utenti di eseguire query e modelli di machine learning sugli stessi set di dati, con la certezza che i dati siano sempre effettivi.<\/p>\n\n\n\n<p id=\"block-420ac0cf-b637-4a4e-8490-199e969847b1\"><strong>Sicurezza a livello di riga<\/strong><\/p>\n\n\n\n<p id=\"block-e6fd6950-c48d-4900-921b-54184c1f4cc5\">Assicurarsi che gli utenti abbiano accesso solo ai dati corretti in un data lake \u00e8 difficile. Gli amministratori di data lake spesso, mantengono pi\u00f9 copie dei dati per applicare criteri di sicurezza diversi per utenti diversi. Ci\u00f2 aggiunge complessit\u00e0, sovraccarico operativo e costi di archiviazione aggiuntivi.<\/p>\n\n\n\n<p id=\"block-8263f861-b1b4-4b5c-b65d-97a96fba1328\">AWS Lake Formation consente gi\u00e0 di impostare policy di accesso per nascondere i dati, anche per colonna, ad esempio i numeri di previdenza sociale.<\/p>\n\n\n\n<p id=\"block-efdebf56-3f32-4608-8bbb-6057ef52e89c\">Con la sicurezza a livello di riga, possiamo concedere autorizzazioni speciali per riga a utenti e ruoli, ovvero l&#8217;accesso a dati regionali specifici o dati relativi a un conto bancario specifico.<\/p>\n\n\n\n<p id=\"block-b9a673b6-2291-45f4-bbdc-5d19837d2137\"><strong>Accelerazione<\/strong><\/p>\n\n\n\n<p id=\"block-13d15916-2d4b-4be5-a04e-cf800e03dc63\">Migliori prestazioni con filtri, aggregazioni e compattazione automatica dei file, grazie a un nuovo ottimizzatore di archiviazione che combina automaticamente file piccoli in file pi\u00f9 grandi per velocizzare le query fino a 7 volte. Il processo viene eseguito in background, senza alcun impatto sulle prestazioni sui carichi di lavoro di produzione.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"block-5754f1fd-032f-47a8-aaed-7e435252b142\">Referenze<\/h2>\n\n\n\n<p><a href=\"https:\/\/pages.awscloud.com\/Lake_Formation_Feature_Preview.html\">https:\/\/pages.awscloud.com\/Lake_Formation_Feature_Preview.html<\/a><\/p>\n\n\n\n<p><a href=\"https:\/\/aws.amazon.com\/lake-formation\/faqs\/\">https:\/\/aws.amazon.com\/lake-formation\/faqs\/<\/a><\/p>\n\n\n\n<p><a href=\"https:\/\/docs.aws.amazon.com\/lake-formation\/latest\/dg\/access-control-overview.html\">https:\/\/docs.aws.amazon.com\/lake-formation\/latest\/dg\/access-control-overview.html<\/a><\/p>\n\n\n\n<p><a href=\"https:\/\/docs.aws.amazon.com\/lake-formation\/latest\/dg\/permissions-reference.html\">https:\/\/docs.aws.amazon.com\/lake-formation\/latest\/dg\/permissions-reference.html<\/a><\/p>\n\n\n\n<h2 class=\"wp-block-heading\" id=\"block-4c0d93fa-e703-4583-8404-6d80cbaa8017\">Per riassumere<\/h2>\n\n\n\n<p id=\"block-f3a47849-a49d-428b-8c53-01ae599619c3\">Nel corso dell\u2019articolo abbiamo visto tutte le funzionalit\u00e0 che rendono Lake Formation una scelta adatta per la gestione dei data lake su AWS.<\/p>\n\n\n\n<p id=\"block-0b5bc010-ad90-43b6-9e1e-82c88c4f800a\">Ci siamo concentrati principalmente sugli aspetti di sicurezza e governance di questo servizio, mostrando come la gestione delle autorizzazioni a livello di oggetto su S3, possa essere un processo complesso, semplificato per\u00f2 dai permessi di Lake Formation.&nbsp;<\/p>\n\n\n\n<p id=\"block-aca458be-72c7-4457-88da-7e7b58d5dd70\">Abbiamo mostrato come Lake Formation consenta di concedere \/ revocare autorizzazioni a utenti o ruoli, sia a livello di tabella che di colonna.<\/p>\n\n\n\n<p id=\"block-626c512d-8d7d-467a-89fd-3f7a77076674\">Abbiamo visto che le autorizzazioni di AWS Lake Formation sono pi\u00f9 adatte delle autorizzazioni IAM per proteggere un data lake, perch\u00e9 vengono applicate su oggetti logici come un database, una tabella o una colonna invece che su file e directory; forniscono inoltre un controllo granulare per l&#8217;accesso a livello di colonna.<\/p>\n\n\n\n<p id=\"block-12973865-10bd-49cf-80e8-4bed9403a8e6\">Abbiamo anche visto che queste autorizzazioni sono mappate internamente agli oggetti sottostanti che si trovano in S3.<\/p>\n\n\n\n<p id=\"block-0345281c-6c8d-40a7-9c41-2d759705b5cb\">Grazie a un&#8217;interfaccia utente semplice, non \u00e8 necessario tenere aperte pi\u00f9 schede per tenere traccia dei lavori ETL, delle posizioni S3 e dei cataloghi di dati per i nostri workflow. Tutte queste informazioni risiedono in un\u2019unica dashboard, dove possiamo revocare o concedere direttamente i permessi degli oggetti che vi risiedono.<\/p>\n\n\n\n<p id=\"block-ac5c353f-a6e6-43fa-99bc-5410dce27f49\">Abbiamo dato una rapida occhiata anche alle nuove funzionalit\u00e0 disponibili in preview. In particolare, un nuovo tipo di tabella, la tabella <strong>governed<\/strong>, che consente transazioni senza interruzioni per mantenere i dati sempre aggiornati. La possibilit\u00e0 di utilizzare una policy di accesso per riga e un nuovo ottimizzatore di archiviazione per aumentare le prestazioni nella gestione di grandi quantit\u00e0 di piccoli file.<\/p>\n\n\n\n<p id=\"block-c0c9d7a8-653f-4be1-9cbd-388aed77a42c\">Nonostante la gestione delle autorizzazioni, il workflow di importazione dei dati \u00e8 semplificato, ma la maggior parte dei processi di Glue come ETL, Crawler, trasformazioni specifiche di ML devono essere impostate comunque manualmente.<\/p>\n\n\n\n<p id=\"block-23f00d30-0e34-4b25-8e8d-13b81965c537\">Ed eccoci arrivati alla fine! Lasciateci un commento o <a href=\"https:\/\/www.besharp.it\/contact-us\/\" target=\"_blank\" rel=\"noreferrer noopener\">contattateci<\/a> per qualsiasi dubbio, domanda o idea!<\/p>\n\n\n\n<p id=\"block-8df0f69e-8629-4dc1-984e-eb1691f589bb\">Ci vediamo puntuali tra due settimane con un nuovo articolo su <strong>#proud2becloud<\/strong>!<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Introduzione Sfruttare i dati disponibili (Big Data) \u00e8 diventato un obiettivo di primaria importanza per tantissime aziende negli ultimi decenni. [&hellip;]<\/p>\n","protected":false},"author":6,"featured_media":2795,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[474],"tags":[251,277,465,410,463,461,459],"class_list":["post-2801","post","type-post","status-publish","format-standard","has-post-thumbnail","hentry","category-data-analytics","tag-amazon-s3","tag-aws-identity-and-access-management-iam","tag-aws-lake-formation","tag-data-analytics","tag-data-lake","tag-data-security-and-governance","tag-mlops"],"yoast_head":"<!-- This site is optimized with the Yoast SEO plugin v24.7 - https:\/\/yoast.com\/wordpress\/plugins\/seo\/ -->\n<title>Costruire un Data Lake su AWS con AWS Lake Formation - Proud2beCloud Blog<\/title>\n<meta name=\"description\" content=\"Come costruire un data lake su Amazon Web Services con i servizi AWS Lake Formation, Amazon S3 3 AWS Glue.\" \/>\n<meta name=\"robots\" content=\"index, follow, max-snippet:-1, max-image-preview:large, max-video-preview:-1\" \/>\n<link rel=\"canonical\" href=\"https:\/\/blog.besharp.it\/it\/costruire-un-data-lake-su-aws-con-aws-lake-formation\/\" \/>\n<meta property=\"og:locale\" content=\"it_IT\" \/>\n<meta property=\"og:type\" content=\"article\" \/>\n<meta property=\"og:title\" content=\"Costruiamo un Data Lake su AWS con AWS Lake Formation\" \/>\n<meta property=\"og:description\" content=\"Come costruire un data lake su Amazon Web Services con i servizi AWS Lake Formation, Amazon S3 3 AWS Glue.\" \/>\n<meta property=\"og:url\" content=\"https:\/\/blog.besharp.it\/it\/costruire-un-data-lake-su-aws-con-aws-lake-formation\/\" \/>\n<meta property=\"og:site_name\" content=\"Proud2beCloud Blog\" \/>\n<meta property=\"article:published_time\" content=\"2021-03-16T11:35:44+00:00\" \/>\n<meta property=\"article:modified_time\" content=\"2021-04-08T13:30:28+00:00\" \/>\n<meta property=\"og:image\" content=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/03\/facebook-link-image.png\" \/>\n\t<meta property=\"og:image:width\" content=\"1200\" \/>\n\t<meta property=\"og:image:height\" content=\"628\" \/>\n\t<meta property=\"og:image:type\" content=\"image\/png\" \/>\n<meta name=\"author\" content=\"Alessandro Gaggia\" \/>\n<meta name=\"twitter:card\" content=\"summary_large_image\" \/>\n<meta name=\"twitter:title\" content=\"Costruiamo un Data Lake su AWS con AWS Lake Formation\" \/>\n<meta name=\"twitter:description\" content=\"Come costruire un data lake su Amazon Web Services con i servizi AWS Lake Formation, Amazon S3 3 AWS Glue.\" \/>\n<meta name=\"twitter:image\" content=\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/03\/twitter-shared-link.png\" \/>\n<meta name=\"twitter:label1\" content=\"Scritto da\" \/>\n\t<meta name=\"twitter:data1\" content=\"Alessandro Gaggia\" \/>\n\t<meta name=\"twitter:label2\" content=\"Tempo di lettura stimato\" \/>\n\t<meta name=\"twitter:data2\" content=\"13 minuti\" \/>\n<script type=\"application\/ld+json\" class=\"yoast-schema-graph\">{\"@context\":\"https:\/\/schema.org\",\"@graph\":[{\"@type\":\"WebPage\",\"@id\":\"https:\/\/blog.besharp.it\/it\/costruire-un-data-lake-su-aws-con-aws-lake-formation\/\",\"url\":\"https:\/\/blog.besharp.it\/it\/costruire-un-data-lake-su-aws-con-aws-lake-formation\/\",\"name\":\"Costruire un Data Lake su AWS con AWS Lake Formation - Proud2beCloud Blog\",\"isPartOf\":{\"@id\":\"https:\/\/blog.besharp.it\/it\/#website\"},\"primaryImageOfPage\":{\"@id\":\"https:\/\/blog.besharp.it\/it\/costruire-un-data-lake-su-aws-con-aws-lake-formation\/#primaryimage\"},\"image\":{\"@id\":\"https:\/\/blog.besharp.it\/it\/costruire-un-data-lake-su-aws-con-aws-lake-formation\/#primaryimage\"},\"thumbnailUrl\":\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/03\/beSharp_blog_Copertine_2021_19_03_2021.png\",\"datePublished\":\"2021-03-16T11:35:44+00:00\",\"dateModified\":\"2021-04-08T13:30:28+00:00\",\"author\":{\"@id\":\"https:\/\/blog.besharp.it\/it\/#\/schema\/person\/f27fc12d10867c6ea6e0158ce4dd8924\"},\"description\":\"Come costruire un data lake su Amazon Web Services con i servizi AWS Lake Formation, Amazon S3 3 AWS Glue.\",\"breadcrumb\":{\"@id\":\"https:\/\/blog.besharp.it\/it\/costruire-un-data-lake-su-aws-con-aws-lake-formation\/#breadcrumb\"},\"inLanguage\":\"it-IT\",\"potentialAction\":[{\"@type\":\"ReadAction\",\"target\":[\"https:\/\/blog.besharp.it\/it\/costruire-un-data-lake-su-aws-con-aws-lake-formation\/\"]}]},{\"@type\":\"ImageObject\",\"inLanguage\":\"it-IT\",\"@id\":\"https:\/\/blog.besharp.it\/it\/costruire-un-data-lake-su-aws-con-aws-lake-formation\/#primaryimage\",\"url\":\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/03\/beSharp_blog_Copertine_2021_19_03_2021.png\",\"contentUrl\":\"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/03\/beSharp_blog_Copertine_2021_19_03_2021.png\",\"width\":1667,\"height\":1250,\"caption\":\"Lake Formation: improved AWS Glue Data Security and Data Governance\"},{\"@type\":\"BreadcrumbList\",\"@id\":\"https:\/\/blog.besharp.it\/it\/costruire-un-data-lake-su-aws-con-aws-lake-formation\/#breadcrumb\",\"itemListElement\":[{\"@type\":\"ListItem\",\"position\":1,\"name\":\"Home\",\"item\":\"https:\/\/blog.besharp.it\/it\/\"},{\"@type\":\"ListItem\",\"position\":2,\"name\":\"Costruire un Data Lake su AWS con AWS Lake Formation\"}]},{\"@type\":\"WebSite\",\"@id\":\"https:\/\/blog.besharp.it\/it\/#website\",\"url\":\"https:\/\/blog.besharp.it\/it\/\",\"name\":\"Proud2beCloud Blog\",\"description\":\"il blog di beSharp\",\"alternateName\":\"Proud2beCloud Blog\",\"potentialAction\":[{\"@type\":\"SearchAction\",\"target\":{\"@type\":\"EntryPoint\",\"urlTemplate\":\"https:\/\/blog.besharp.it\/it\/?s={search_term_string}\"},\"query-input\":{\"@type\":\"PropertyValueSpecification\",\"valueRequired\":true,\"valueName\":\"search_term_string\"}}],\"inLanguage\":\"it-IT\"},{\"@type\":\"Person\",\"@id\":\"https:\/\/blog.besharp.it\/it\/#\/schema\/person\/f27fc12d10867c6ea6e0158ce4dd8924\",\"name\":\"Alessandro Gaggia\",\"image\":{\"@type\":\"ImageObject\",\"inLanguage\":\"it-IT\",\"@id\":\"https:\/\/blog.besharp.it\/it\/#\/schema\/person\/image\/\",\"url\":\"https:\/\/secure.gravatar.com\/avatar\/f58dc28050f26409e22ab60346d06220?s=96&d=mm&r=g\",\"contentUrl\":\"https:\/\/secure.gravatar.com\/avatar\/f58dc28050f26409e22ab60346d06220?s=96&d=mm&r=g\",\"caption\":\"Alessandro Gaggia\"},\"description\":\"Head of software development di beSharp, Full-Stack developer, mi occupo di garantire lo stato dell\u2019arte di tutta la nostra codebase. Scrivo codice in quasi ogni linguaggio, ma prediligo Typescript. Respiro Informatica, Game design, Cinema, Fumetti e buona cucina. Disegno per passione!\",\"url\":\"https:\/\/blog.besharp.it\/it\/author\/alessandro-gaggia\/\"}]}<\/script>\n<!-- \/ Yoast SEO plugin. -->","yoast_head_json":{"title":"Costruire un Data Lake su AWS con AWS Lake Formation - Proud2beCloud Blog","description":"Come costruire un data lake su Amazon Web Services con i servizi AWS Lake Formation, Amazon S3 3 AWS Glue.","robots":{"index":"index","follow":"follow","max-snippet":"max-snippet:-1","max-image-preview":"max-image-preview:large","max-video-preview":"max-video-preview:-1"},"canonical":"https:\/\/blog.besharp.it\/it\/costruire-un-data-lake-su-aws-con-aws-lake-formation\/","og_locale":"it_IT","og_type":"article","og_title":"Costruiamo un Data Lake su AWS con AWS Lake Formation","og_description":"Come costruire un data lake su Amazon Web Services con i servizi AWS Lake Formation, Amazon S3 3 AWS Glue.","og_url":"https:\/\/blog.besharp.it\/it\/costruire-un-data-lake-su-aws-con-aws-lake-formation\/","og_site_name":"Proud2beCloud Blog","article_published_time":"2021-03-16T11:35:44+00:00","article_modified_time":"2021-04-08T13:30:28+00:00","og_image":[{"width":1200,"height":628,"url":"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/03\/facebook-link-image.png","type":"image\/png"}],"author":"Alessandro Gaggia","twitter_card":"summary_large_image","twitter_title":"Costruiamo un Data Lake su AWS con AWS Lake Formation","twitter_description":"Come costruire un data lake su Amazon Web Services con i servizi AWS Lake Formation, Amazon S3 3 AWS Glue.","twitter_image":"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/03\/twitter-shared-link.png","twitter_misc":{"Scritto da":"Alessandro Gaggia","Tempo di lettura stimato":"13 minuti"},"schema":{"@context":"https:\/\/schema.org","@graph":[{"@type":"WebPage","@id":"https:\/\/blog.besharp.it\/it\/costruire-un-data-lake-su-aws-con-aws-lake-formation\/","url":"https:\/\/blog.besharp.it\/it\/costruire-un-data-lake-su-aws-con-aws-lake-formation\/","name":"Costruire un Data Lake su AWS con AWS Lake Formation - Proud2beCloud Blog","isPartOf":{"@id":"https:\/\/blog.besharp.it\/it\/#website"},"primaryImageOfPage":{"@id":"https:\/\/blog.besharp.it\/it\/costruire-un-data-lake-su-aws-con-aws-lake-formation\/#primaryimage"},"image":{"@id":"https:\/\/blog.besharp.it\/it\/costruire-un-data-lake-su-aws-con-aws-lake-formation\/#primaryimage"},"thumbnailUrl":"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/03\/beSharp_blog_Copertine_2021_19_03_2021.png","datePublished":"2021-03-16T11:35:44+00:00","dateModified":"2021-04-08T13:30:28+00:00","author":{"@id":"https:\/\/blog.besharp.it\/it\/#\/schema\/person\/f27fc12d10867c6ea6e0158ce4dd8924"},"description":"Come costruire un data lake su Amazon Web Services con i servizi AWS Lake Formation, Amazon S3 3 AWS Glue.","breadcrumb":{"@id":"https:\/\/blog.besharp.it\/it\/costruire-un-data-lake-su-aws-con-aws-lake-formation\/#breadcrumb"},"inLanguage":"it-IT","potentialAction":[{"@type":"ReadAction","target":["https:\/\/blog.besharp.it\/it\/costruire-un-data-lake-su-aws-con-aws-lake-formation\/"]}]},{"@type":"ImageObject","inLanguage":"it-IT","@id":"https:\/\/blog.besharp.it\/it\/costruire-un-data-lake-su-aws-con-aws-lake-formation\/#primaryimage","url":"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/03\/beSharp_blog_Copertine_2021_19_03_2021.png","contentUrl":"https:\/\/blog.besharp.it\/wp-content\/uploads\/2021\/03\/beSharp_blog_Copertine_2021_19_03_2021.png","width":1667,"height":1250,"caption":"Lake Formation: improved AWS Glue Data Security and Data Governance"},{"@type":"BreadcrumbList","@id":"https:\/\/blog.besharp.it\/it\/costruire-un-data-lake-su-aws-con-aws-lake-formation\/#breadcrumb","itemListElement":[{"@type":"ListItem","position":1,"name":"Home","item":"https:\/\/blog.besharp.it\/it\/"},{"@type":"ListItem","position":2,"name":"Costruire un Data Lake su AWS con AWS Lake Formation"}]},{"@type":"WebSite","@id":"https:\/\/blog.besharp.it\/it\/#website","url":"https:\/\/blog.besharp.it\/it\/","name":"Proud2beCloud Blog","description":"il blog di beSharp","alternateName":"Proud2beCloud Blog","potentialAction":[{"@type":"SearchAction","target":{"@type":"EntryPoint","urlTemplate":"https:\/\/blog.besharp.it\/it\/?s={search_term_string}"},"query-input":{"@type":"PropertyValueSpecification","valueRequired":true,"valueName":"search_term_string"}}],"inLanguage":"it-IT"},{"@type":"Person","@id":"https:\/\/blog.besharp.it\/it\/#\/schema\/person\/f27fc12d10867c6ea6e0158ce4dd8924","name":"Alessandro Gaggia","image":{"@type":"ImageObject","inLanguage":"it-IT","@id":"https:\/\/blog.besharp.it\/it\/#\/schema\/person\/image\/","url":"https:\/\/secure.gravatar.com\/avatar\/f58dc28050f26409e22ab60346d06220?s=96&d=mm&r=g","contentUrl":"https:\/\/secure.gravatar.com\/avatar\/f58dc28050f26409e22ab60346d06220?s=96&d=mm&r=g","caption":"Alessandro Gaggia"},"description":"Head of software development di beSharp, Full-Stack developer, mi occupo di garantire lo stato dell\u2019arte di tutta la nostra codebase. Scrivo codice in quasi ogni linguaggio, ma prediligo Typescript. Respiro Informatica, Game design, Cinema, Fumetti e buona cucina. Disegno per passione!","url":"https:\/\/blog.besharp.it\/it\/author\/alessandro-gaggia\/"}]}},"_links":{"self":[{"href":"https:\/\/blog.besharp.it\/it\/wp-json\/wp\/v2\/posts\/2801","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/blog.besharp.it\/it\/wp-json\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/blog.besharp.it\/it\/wp-json\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/blog.besharp.it\/it\/wp-json\/wp\/v2\/users\/6"}],"replies":[{"embeddable":true,"href":"https:\/\/blog.besharp.it\/it\/wp-json\/wp\/v2\/comments?post=2801"}],"version-history":[{"count":0,"href":"https:\/\/blog.besharp.it\/it\/wp-json\/wp\/v2\/posts\/2801\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/blog.besharp.it\/it\/wp-json\/wp\/v2\/media\/2795"}],"wp:attachment":[{"href":"https:\/\/blog.besharp.it\/it\/wp-json\/wp\/v2\/media?parent=2801"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/blog.besharp.it\/it\/wp-json\/wp\/v2\/categories?post=2801"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/blog.besharp.it\/it\/wp-json\/wp\/v2\/tags?post=2801"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}