{"id":2801,"date":"2021-03-16T12:35:44","date_gmt":"2021-03-16T11:35:44","guid":{"rendered":"https:\/\/blog.besharp.it\/?p=2801"},"modified":"2021-04-08T15:30:28","modified_gmt":"2021-04-08T13:30:28","slug":"costruire-un-data-lake-su-aws-con-aws-lake-formation","status":"publish","type":"post","link":"https:\/\/blog.besharp.it\/it\/costruire-un-data-lake-su-aws-con-aws-lake-formation\/","title":{"rendered":"Costruire un Data Lake su AWS con AWS Lake Formation"},"content":{"rendered":"\n
Sfruttare i dati disponibili (Big Data) \u00e8 diventato un obiettivo di primaria importanza per tantissime aziende negli ultimi decenni. In questi anni infatti, l\u2019avvento del Cloud Computing ha democratizzato l\u2019accesso a risorse IT estremamente potenti, risultato che ha portato all\u2019eliminazione dei costi e delle difficolt\u00e0 di gestire l\u2019infrastruttura necessaria al funzionamento di un data center on-premise.<\/p>\n\n\n\n
Il Cloud Computing aiuta le aziende a utilizzare i dati in modo efficace, riducendo i costi di ingegneria grazie alla potenza e versatilit\u00e0 dei suoi servizi managed.<\/p>\n\n\n\n
Promuovendo l\u2019utilizzo di infrastrutture on-demand, rende pi\u00f9 facile ripensare, re-ingegnerizzare, e re-architettare un data lake per poter esplorare nuovi casi.<\/p>\n\n\n\n
Essendo dunque i dati l\u2019elemento determinante per le decisioni di business, gestirli in modo efficace diventa una priorit\u00e0.<\/p>\n\n\n\n
Tra i tanti modi per farlo, il concetto di data lake, ovvero un repository, scalabile, low-cost, per centralizzare i dati provenienti da fonti diversification, \u00e8 diventato uno dei pi\u00f9 apprezzati. Esso permette agli utenti di salvare i dati as-is senza un processo di strutturazione a priori, e pu\u00f2 essere utilizzato per effettuare analisi di vario tipo, ottenere insights sui dati, e guidare con pi\u00f9 efficacia le decisioni di business.<\/p>\n\n\n\n
Ma creare un data lake da zero non \u00e8 un compito facile: \u00e8 necessario eseguire diverse operazioni manuali, che rendono il processo complesso e, cosa pi\u00f9 importante, estremamente dispendioso dal punto di vista del tempo impiegato. I dati, di solito, provengono da fonti disparate e per questo, vanno monitorati con cautela.<\/p>\n\n\n\n
Inoltre, gestire una tale quantit\u00e0 di dati richiede l\u2019applicazione di diverse procedure per evitare leaks e buchi di sicurezza, il che significa mettere in atto un sistema di gestione delle policy di accesso, abilitare la cifratura dei dati sensibili e, naturalmente, gestirne le chiavi.<\/p>\n\n\n\n
Senza applicare le giuste scelte riguardo la tecnologia, l\u2019architettura, la qualit\u00e0 dei dati e la governance degli stessi, un data lake pu\u00f2 diventare velocemente un sistema caotico ed isolato, difficile da utilizzare, da mantenere, e spesso isolato.<\/p>\n\n\n\n
Per fortuna, il Cloud di AWS viene in nostro aiuto grazie ai molti servizi disegnati appositamente per gestire i data lake, in particolare AWS Glue e S3.<\/p>\n\n\n\n
Per questo articolo, assumiamo che il lettore sia gi\u00e0 familiare con i concetti di servizi AWS e che conosca le peculiarit\u00e0 dietro a AWS Glue e S3. Qualora non fosse cos\u00ec, invitiamo a leggere le nostre ultime \u201cstories\u201d su ingesting data for Machine Learning workloads<\/a> e managing complex Machine Learning projects via Step Functions<\/a>.<\/p>\n\n\n\n Andremo ad esplorare come costruire un semplice data lake con Lake Formation. Quindi, ci concentreremo sugli aspetti di sicurezza e governance, ed esploreremo i vantaggi che questo servizio offre, rispetto al semplice utilizzo di AWS Glue.<\/p>\n\n\n\n Partiamo!<\/p>\n\n\n\n Prima di concentrarci sui vantaggi della gestione di un data lake tramite AWS Lake Formation, dobbiamo prima crearne uno in modo semplice.<\/p>\n\n\n\n Procediamo mediante console AWS e scegliamo \u201cAWS Lake Formation\u201d nell’elenco dei servizi o tramite la barra di ricerca. Ci verr\u00e0 mostrata la seguente dashboard:<\/p>\n\n\n\nSetup base di Lake Formation<\/h2>\n\n\n\n