{"id":2402,"date":"2021-01-22T10:23:28","date_gmt":"2021-01-22T09:23:28","guid":{"rendered":"https:\/\/blog.besharp.it\/?p=2402"},"modified":"2021-03-17T15:33:08","modified_gmt":"2021-03-17T14:33:08","slug":"clustering-con-sagemaker-experiments-un-caso-duso-reale","status":"publish","type":"post","link":"https:\/\/blog.besharp.it\/it\/clustering-con-sagemaker-experiments-un-caso-duso-reale\/","title":{"rendered":"Clustering con SageMaker Experiments: un caso d\u2019uso reale"},"content":{"rendered":"\n

Lo sviluppo di un modello di Machine Learning<\/strong> \u00e8 un processo altamente iterativo, con continui cicli di feedback ottenuti da test e prove precedenti, molto pi\u00f9 somigliante ad un esperimento scientifico che ad un progetto di sviluppo.
I Data Scientists sono soliti effettuare molti training su modelli differenti ogni giorno, cercando di trovare quello pi\u00f9 robusto per lo scenario su cui stanno lavorando e tenere traccia di tutti i processi svolti si rivela spesso un compito sfidante, anche in un progetto seguito da una singola persona.<\/p>\n\n\n\n

Amazon mette a disposizione diversi strumenti per aiutare i Data Scientist a trovare il corretto set di parametri per i loro modelli.
Servizi come Automatic Model Tuning e Amazon SageMaker Autopilot, giungono in aiuto, aiutando ad esplorare velocemente e automaticamente grosse sezioni dello spazio di fase. Tuttavia questi servizi contribuiscono, inevitabilmente, anche alla crescita senza fine di gruppi di parametri per i training e artefatti dei modelli compilati.<\/p>\n\n\n\n

Se il progetto \u00e8 grande abbastanza, sono di solito coinvolti molteplici ingegneri a pi\u00f9 livelli. Di conseguenza \u00e8 fondamentale mantenere un progetto il pi\u00f9 strutturato possibile, cos\u00ec come trovare metodologie efficaci per condividere tutti i dataset, i notebook, gli iperparametri e naturalmente i risultati.<\/p>\n\n\n\n

I componenti principali di un progetto di Machine Learning, di cui sono necessari versionamenti, indicizzazione e condivisione tra tutti i Data Scientists coinvolti, sono:<\/p>\n\n\n\n