{"id":6013,"date":"2023-07-07T09:00:00","date_gmt":"2023-07-07T07:00:00","guid":{"rendered":"https:\/\/blog.besharp.it\/?p=6013"},"modified":"2023-07-07T12:36:01","modified_gmt":"2023-07-07T10:36:01","slug":"estrazione-di-dati-da-documenti-strutturati-con-amazon-textract-aws-lambda-e-amazon-s3","status":"publish","type":"post","link":"https:\/\/blog.besharp.it\/it\/estrazione-di-dati-da-documenti-strutturati-con-amazon-textract-aws-lambda-e-amazon-s3\/","title":{"rendered":"Estrazione di dati da documenti strutturati con Amazon Textract, AWS Lambda e Amazon S3"},"content":{"rendered":"\n
Nell’era digitale, elaborare e gestire efficacemente grandi quantit\u00e0 di documenti \u00e8 una priorit\u00e0 per le aziende di ogni settore. Molte organizzazioni si trovano ad affrontare il compito di digitalizzare grandi volumi di documenti cartacei o di elaborare dati provenienti da documenti strutturati, come fatture o contratti, in modo automatico. In questo contesto, l’Optical Character Recognition (OCR) si \u00e8 rivelato uno strumento indispensabile per automatizzare i processi e migliorare l’efficienza complessiva.<\/p>\n\n\n\n
Tuttavia, riuscire ad estrarre il testo da un documento \u00e8 solo parte di quello di cui la maggior parte delle applicazioni hanno bisogno. Se vogliamo la si pu\u00f2 considerare una funzione primitiva. Spesso l\u2019obiettivo \u00e8 di estrarre specifiche informazioni, selezionando il testo in base alla struttura del documento.<\/p>\n\n\n\n
Per selezionare correttamente le informazioni di valore, diventa quindi importante ottenere informazioni sulla struttura del documento, come ad esempio su come il testo \u00e8 raggruppato, intabellato o sulla posizione occupata all\u2019interno della pagina.<\/p>\n\n\n\n
Trovare risposta a queste domande \u00e8 esattamente l’area in cui Amazon Textract<\/strong> si distingue.<\/p>\n\n\n\n
Oltre a fornire la capacit\u00e0 di estrarre testo da documenti, Amazon Textract \u00e8 in grado di identificare e restituire informazioni sulla struttura della pagina<\/strong>, aprendo la strada a una vasta gamma di possibilit\u00e0 di elaborazione dei dati. <\/p>\n\n\n\n
A differenza dei tradizionali software OCR, che richiedono configurazioni manuali e aggiornamenti continui per adattarsi ai cambiamenti dei moduli, Amazon Textract utilizza modelli di machine learning<\/strong> per elaborare qualsiasi tipo di documento, garantendo un’estrazione accurata di testo, scrittura a mano, tabelle e altri dati senza alcun intervento manuale.<\/p>\n\n\n\n
Senza ulteriori preamboli, passiamo quindi alla descrizione di uno use case.<\/p>\n\n\n\n
Estrazione delle informazioni da una fattura<\/h2>\n\n\n\n
Per esplorare le potenzialit\u00e0 di Amazon Textract ci avvarremo di un caso (neanche troppo) ipotetico, in cui la necessit\u00e0 sia quella di estrarre in maniera automatica alcune informazioni dalle fatture degli acquisti aziendali, in modo da inserire gli importi e la data in un database che viene periodicamente importato nel software gestionale.<\/p>\n\n\n\n
Dobbiamo quindi costruire un sistema automatico<\/strong> in grado di estrarre l\u2019importo e la data dalle fatture che riceve. Per semplicit\u00e0, poniamo che le fatture abbiano tutte la medesima struttura perch\u00e8 provengono dal sito del fornitore da cui la nostra azienda si rifornisce di beni di consumo, anche se Textract pu\u00f2 tranquillamente analizzare fatture eterogenee.<\/p>\n\n\n\n
Le fatture sono documenti PDF pensati per essere letti da un umano. Contengono intestazioni, l\u2019immagine del logo del fornitore, testo e tabelle in diverse posizioni della pagina.<\/p>\n\n\n\n
Il sito invia tramite email una fattura per ogni ordine. Nel nostro scenario, l\u2019indirizzo fa riferimento ad un gruppo mail, pertanto possiamo fare in modo che il sistema automatico ne riceva una copia senza intaccare i processi che coinvolgono i nostri operatori.<\/p>\n\n\n\n
In questa situazione potremmo abbozzare la seguente soluzione ad alto livello<\/p>\n\n\n\n