{"id":6465,"date":"2023-11-10T09:00:00","date_gmt":"2023-11-10T08:00:00","guid":{"rendered":"https:\/\/blog.besharp.it\/?p=6465"},"modified":"2023-11-10T10:01:40","modified_gmt":"2023-11-10T09:01:40","slug":"business-continuity-sul-cloud-limportanza-della-fault-tolerance","status":"publish","type":"post","link":"https:\/\/blog.besharp.it\/it\/business-continuity-sul-cloud-limportanza-della-fault-tolerance\/","title":{"rendered":"Business continuity sul Cloud: l’importanza della Fault Tolerance"},"content":{"rendered":"\n
Uno dei principi che cerchiamo ogni giorno di trasmettere ai nostri partner \u00e8 che il Cloud non \u00e8 un luogo magico, dove metto le risorse, pago una bolletta e automaticamente ottengo tutti i vantaggi che troviamo sempre elencati negli articoli, white paper e pagine di presentazione dei vari provider.<\/p>\n\n\n\n
Il Cloud prevede uno shift di mentalit\u00e0 e, di conseguenza, un nuovo modo di fare investimenti e di vedere la parte \u201cdigital\u201d delle aziende. Soprattutto per chi ha servizi rivolti ai consumatori \u00e8 sempre pi\u00f9 fondamentale la continuit\u00e0, facendo in modo di farci trovare pronti ad esaudire le richieste ogni qual volta che qualcuno ha bisogno di noi.<\/p>\n\n\n\n
Non solo va compreso l’impatto finanziario degli imprevisti, ma bisogna mettere in campo tutte le procedure e le pratiche che ci portino a massimizzare il nostro up-time. <\/p>\n\n\n\n
Vorrei partire da alcuni dati, alcuni esempi di interruzione di servizio di colossi, che dimostrano che il problema generato non \u00e8 solo una questione di fiducia dei clienti, ma anche finanziario. Nel 2015, un\u2019interruzione di 12 ore dell\u2019Apple Store \u00e8 costata all\u2019azienda 25 milioni di dollari. Nel 2016 un’interruzione di corrente di cinque ore di Delta Airlines in un centro operativo ha causato una perdita stimata di 150 milioni di dollari. Nel 2019, un’interruzione di 14 ore \u00e8 costata a Facebook circa 90 milioni di dollari.<\/p>\n\n\n\n
A questi dati si aggiunge anche il dodicesimo Annual Global Data Center Survey (2022) dell\u2019Uptime Institute che fornisce una panoramica critica e un’idea della futura traiettoria del settore. Tra le principali conclusioni del rapporto vorrei soffermarmi su due particolari punti:<\/p>\n\n\n\n
Per quanto riguarda le interruzioni di servizio credo che nessuno si sia meravigliato dei risultati, ma sicuramente \u00e8 interessante notare che l\u2019asticella delle aspettative sia sempre pi\u00f9 alta e le conseguenze dei downtime impattino sempre pi\u00f9 fortemente sui guadagni e sulla fiducia degli utenti. <\/p>\n\n\n\n
Il secondo punto, a mio avviso, ha a che fare con l\u2019utilizzo della tecnologia Cloud senza comprenderne fino a fondo le basi. Come dicevamo, il Cloud non \u00e8 magico, non basta mettere un workload in Cloud per aumentare l\u2019up-time. <\/p>\n\n\n\n
L\u2019articolo vuole essere un tentativo di spiegare come il Cloud ci abilita e cosa dobbiamo fare noi per ottenere fault-tolerance<\/strong>, migliorare l\u2019up-time<\/strong> e coprire alcuni degli aspetti di un piano strutturato di business continuity<\/strong>.<\/p>\n\n\n\n Se fossimo a scuola bisognerebbe partire dalla definizione:<\/p>\n\n\n\n la tolleranza al guasto, si riferisce alla capacit\u00e0 di un sistema o di un’applicazione di continuare a funzionare in modo affidabile anche quando si verificano guasti o malfunzionamenti in uno o pi\u00f9 dei suoi componenti<\/em>.<\/p>\n\n\n\n Riuscire ad essere tolleranti ai guasti \u00e8 importante per indirizzare molti degli obiettivi definiti nei piani di business continuity. Una buona progettazione di infrastrutture tolleranti al guasto ci porta a vantaggi come la riduzione del downtime, il miglioramento dell\u2019affidabilit\u00e0, la riduzione del rischio e il mantenimento della qualit\u00e0 di servizio. <\/p>\n\n\n\n \u00c9 doveroso fare subito chiarezza sul concetto di tolleranza ai guasti e come si differenzia da concetti come HA (Alta Affidabilit\u00e0), ridondanza e DR (Disaster Recovery) spesso usati erroneamente come sinonimi intercambiabili.<\/p>\n\n\n\n L’alta affidabilit\u00e0<\/strong> si riferisce alla capacit\u00e0 di un sistema di rimanere operativo, senza interruzioni apprezzabili, per periodi di tempo continuativi. Questo obiettivo pu\u00f2 essere raggiunto attraverso l’uso di monitoraggio continuo, ridondanza e altre misure. Un sistema ad alta affidabilit\u00e0 \u00e8 progettato per evitare guasti e garantire la disponibilit\u00e0 continua del servizio.<\/p>\n\n\n\n La ridondanza<\/strong> serve a migliorare l’affidabilit\u00e0 di un sistema. Progettare infrastrutture che comprendono componenti ridondanti significa che, se un componente dovesse guastarsi, un altro possa prendere il suo posto per evitare interruzioni. La ridondanza pu\u00f2 essere applicata sia a livello hardware che software. <\/p>\n\n\n\n Il Disaster Recovery<\/strong> \u00e8 un piano che mira a ripristinare un sistema o un’applicazione in caso di eventi catastrofici o guasti su larga scala. Questo coinvolge solitamente il backup dei dati, la pianificazione della continuit\u00e0 aziendale e procedure specifiche per ripristinare il sistema in un altro luogo o con risorse alternative.<\/p>\n\n\n\n L’alta affidabilit\u00e0, la ridondanza e il DR sono tutti componenti importanti per ottenere la tolleranza al guasto, ma da soli potrebbero non essere sufficienti per garantirla. La tolleranza ai guasti richiede una progettazione oculata che prenda in considerazione una vasta gamma di scenari e preveda misure adeguate per gestirli senza interruzioni significative.<\/p>\n\n\n\n La tolleranza al guasto \u00e8, quindi, una strategia di progettazione e implementazione che contribuisce in modo significativo a continuare a operare in modo affidabile arrivando cos\u00ec a proteggere la reputazione aziendale e a mantenere la fiducia dei clienti.<\/p>\n\n\n\n Chi si approccia al Cloud dovrebbe tenere ben presente che i provider non sono, non vogliono e non possono essere responsabili delle nostre applicazioni in toto. In pi\u00f9 a seconda del servizio o del building block che sfruttiamo per le nostre infrastrutture, il provider sposta l\u2019asticella della responsabilit\u00e0. Prendendo ad esempio AWS, come si evince dall\u2019immagine, servizi pi\u00f9 IaaS spostano la responsabilit\u00e0 verso Cliente, mentre servizi gestiti spostano di pi\u00f9 la responsabilit\u00e0 verso il provider.<\/p>\n\n\n\n <\/p>\n\n\nCos\u2019\u00e8 la Fault Tolerance?<\/h2>\n\n\n\n
Shared Responsibility Model<\/h2>\n\n\n\n