{"id":7710,"date":"2025-03-12T09:00:00","date_gmt":"2025-03-12T08:00:00","guid":{"rendered":"https:\/\/blog.besharp.it\/?p=7710"},"modified":"2025-03-12T10:29:30","modified_gmt":"2025-03-12T09:29:30","slug":"democratizzare-laccesso-ai-dati-tramite-una-data-platform-self-service-utilizzando-aws-lakeformation-parte-2","status":"publish","type":"post","link":"https:\/\/blog.besharp.it\/it\/democratizzare-laccesso-ai-dati-tramite-una-data-platform-self-service-utilizzando-aws-lakeformation-parte-2\/","title":{"rendered":"Democratizzare l’accesso ai dati tramite una Data Platform self-service utilizzando AWS LakeFormation – Parte 2"},"content":{"rendered":"\n

In questa serie di articoli, stiamo descrivendo come creare e strutturare correttamente una Data Platform self-service per la democratizzazione dei dati analitici su AWS. Dall’acquisizione e archiviazione dei dati, attraverso strumenti di elaborazione per creare dati preziosi per analisi, visualizzazioni e reportistica. <\/p>\n\n\n\n

Ci concentriamo anche sulla governance dei dati, sulla loro identificazione e sulla collaborazione, con un’attenzione particolare alla sicurezza e al controllo degli accessi.<\/p>\n\n\n\n

Segui questo articolo per imparare come democratizzare l’accesso ai dati attraverso la tua Data Platform self-service. Vedremo come garantire la governance, strutturando correttamente dati, accessi e visibilit\u00e0, utilizzando AWS LakeFormation. Non dimenticare di tenere d’occhio il sito web in attesa della parte 3!<\/p>\n\n\n\n

Questo articolo \u00e8 un seguito alla descrizione delle Data Platform e delle relative pipeline di dati, basandosi e costruendo su questi concetti. Se stai ancora cercando di familiarizzare con questi concetti, o hai bisogno di un ripasso, ecco la Parte 1<\/a>.<\/p>\n\n\n\n

TL;DR<\/h2>\n\n\n\n

Inserisci le tue fonti di dati nei bucket S3 e registra le posizioni dei dati all’interno di AWS LakeFormation. Cataloga i dati con database, tabelle e colonne. Definisci e associa LF-Tags a queste risorse del catalogo per eseguire un controllo degli accessi basato sugli attributi (ABAC). Definisci ruoli e concedi loro autorizzazioni basate sui tag per abilitare l’accesso ai dati. Crea un amministratore con permessi assegnabili su aree specifiche e utilizza i tag per la identificazione dei dati al fine di democratizzare e ottenere un accesso self-service ai dati.<\/p>\n\n\n\n

La Sfida della Democratizzazione dei Dati<\/h2>\n\n\n\n

Nel mondo odierno guidato dai dati, le organizzazioni affrontano un paradosso critico: nuotano in vasti oceani di dati, sebbene la maggior parte di esse fatichi a utilizzare efficacemente questa preziosa risorsa.<\/p>\n\n\n\n

Gli approcci tradizionali alla gestione dei dati tendevano ad organizzarli in strutture separate e sconnesse come i silos. In questi approcci, ogni silo \u00e8 solitamente accessibile solo dal proprio dipartimento tecnico, creando diversi problemi lungo il percorso.<\/p>\n\n\n\n

Le sfide della democratizzazione dei dati vanno oltre le limitazioni tecniche. Questa separazione in silos crea barriere complesse che impediscono agli analisti un accesso diffuso ai dati, come il dover presentare richieste dispendiose in termini di tempo ai team IT o ai team dei dati anche per l’accesso ai dati pi\u00f9 basilari. Gli utenti operano con informazioni incomplete, avendo grandi difficolt\u00e0 a vedere il “quadro generale” e il potenziale vantaggio competitivo del processo decisionale basato sui dati rimane irrealizzato.<\/p>\n\n\n\n

Molte aziende si trovano intrappolate in un ciclo di gestione manuale degli accessi, dove le richieste di accesso ai dati richiedono molteplici approvazioni, configurazioni complesse dei permessi e manutenzione continua. Questo non solo crea un significativo onere amministrativo, ma rallenta anche il potenziale di innovazione<\/strong>.<\/p>\n\n\n\n

L’architettura del data lake aiuta a risolvere questa sfida concentrando tutti i dati in un unico luogo. Chiunque necessiti di accedere ai dati sa dove cercare. Ma non \u00e8 tutto oro quel che luccica! Aggregare tutti i dati in un unico posto crea una sfida nuova, ma diversa: la gestione degli accessi utente. Anche se ora potenzialmente tutti possono avere accesso ai dati, \u00e8 sicuro?<\/p>\n\n\n\n

Le organizzazioni devono bilanciare simultaneamente due priorit\u00e0 contrastanti: abilitare un ampio accesso ai dati mantenendo al contempo rigorosi protocolli di governance e sicurezza. Il rischio di esporre informazioni sensibili, unito ai requisiti di conformit\u00e0 come GDPR, CCPA e normative specifiche del settore, crea un significativo sovraccarico nella gestione delle autorizzazioni sui dati.<\/p>\n\n\n\n

\u00c8 qui che AWS LakeFormation pu\u00f2 diventare uno strumento molto utile!<\/p>\n\n\n\n

Cos\u2019\u00e8 AWS LakeFormation?<\/h2>\n\n\n\n

AWS Lake Formation \u00e8 un servizio completamente gestito che semplifica la creazione, la sicurezza e la gestione dei data lake.<\/p>\n\n\n\n

Nella sua essenza, il servizio semplifica il processo tradizionalmente complesso e dispendioso in termini di tempo di consolidamento dei dati provenienti da molteplici fonti in un repository unificato e sicuro – il data lake – in pochi giorni invece che in mesi\/anni. A differenza degli approcci tradizionali di gestione dei dati che richiedono un’ampia configurazione manuale e una complessa configurazione dell’infrastruttura, AWS LakeFormation automatizza compiti critici come l’acquisizione dei dati, la catalogazione dei metadati e il controllo degli accessi. \u00c8 una piattaforma centralizzata che astrae dalle complessit\u00e0 tecniche, permettendo a ingegneri di dati, analisti e leader aziendali di concentrarsi su ci\u00f2 che conta davvero: estrarre valore reale dai dati.<\/p>\n\n\n\n

Inoltre, AWS LakeFormation fornisce solide capacit\u00e0 di governance e sicurezza, caratteristiche essenziali per la governance dei dati nelle imprese data-driven. Il servizio offre controlli di accesso granulari basati sugli attributi che consentono alle organizzazioni di definire politiche di accesso ai dati precise a livello di database, tabella, colonna e persino riga. Questo significa che le aziende possono implementare meccanismi di sicurezza dettagliati che garantiscono la protezione delle informazioni sensibili pur essendo in grado di ottenere la democratizzazione dei dati. Grazie all’integrazione diretta con altri servizi AWS come Amazon S3, AWS Glue e Amazon Athena, AWS LakeFormation crea un ecosistema completo che supporta l’intero ciclo di vita dei dati, dall’acquisizione e trasformazione dei dati grezzi all’analisi e alla visualizzazione. La sua capacit\u00e0 di centralizzare la gestione dei metadati, automatizzare la scoperta dei dati e fornire una sicurezza coerente su diverse fonti di dati lo rende uno strumento fondamentale per le imprese che cercano di sfruttare le proprie risorse di dati in modo efficiente e sicuro.<\/p>\n\n\n\n

Governare il Data Lake<\/h2>\n\n\n\n

Ora che abbiamo descritto le sfide e gli strumenti, sporchiamoci le mani e mettiamoli in azione!<\/p>\n\n\n\n

Se hai letto il primo di questa serie di articoli, sai gi\u00e0 con cosa stiamo lavorando ma, per mettere tutti sulla stessa pagina, ecco una brevissima panoramica della configurazione.<\/p>\n\n\n\n

Agendo come data engineer in un’azienda fittizia che aiuta i suoi clienti ad aumentare i loro ricavi, hai creato una data platform, seguendo l\u2019architettura standard \u201cmedallion\u201d. Hai sviluppato logiche di acquisizione e trasformazione per raccogliere i dati e spostarli attraverso i livelli sempre pi\u00f9 raffinati della data platform.<\/p>\n\n\n\n

<\/p>\n\n\n

\n
\"\"<\/figure><\/div>\n\n\n

<\/p>\n\n\n\n

L’azienda ora ti chiede di governare la data platform, rendendo i dati accessibili ai team interni e ai clienti.<\/p>\n\n\n\n

I clienti vogliono solo vedere e interrogare i loro dati, mentre i team interni hanno bisogno di visualizzare i dati e utilizzarli per addestrare modelli di Machine Learning che li aiutino a supportare i clienti nel raggiungimento dei loro obiettivi.<\/p>\n\n\n\n

Inoltre, devi tenere d’occhio l’accesso ai dati e la sicurezza: i clienti devono vedere solo i loro dati! <\/p>\n\n\n\n

In pi\u00f9, i dati dei clienti contengono informazioni personali (PII) che non sono utili per i team interni e non dovrebbero essere visibili a loro.<\/p>\n\n\n\n

Ingestion dei Dati<\/h4>\n\n\n\n

Abbiamo gi\u00e0 tutti i dati grezzi inseriti all’interno del bucket del livello bronzo, tuttavia, ecco un rapido suggerimento che potrebbe essere utile per alcuni dei lettori che stanno cercando di implementare l’ingestion.<\/p>\n\n\n\n

AWS LakeFormation offre blueprint per importare dati da database relazionali, CloudTrail e log dei load balancer. I blueprint sono template CloudFormation predefiniti che creano tutte le risorse necessarie per eseguire l’ingestion delle tue fonti dati. Di fatto creano un workflow Glue, composto da Glue job e crawler che inseriscono i dati all’interno dei tuoi bucket S3 e aggiornano il Glue Data Catalog.<\/p>\n\n\n\n

Registrare le Location del Data Lake<\/h4>\n\n\n\n

Prima di tutto, dobbiamo far conoscere ad AWS LakeFormation gli asset che compongono il nostro data lake. Per farlo, dobbiamo registrare le location S3. Possiamo registrare bucket o percorsi specifici al loro interno. Seguendo l’architettura medallion, abbiamo creato 3 bucket:<\/p>\n\n\n\n