Una introduzione alla gestione gerarchica dello storage

Perchà© spostare i dati da sistemi di memoria ad altri, e quali sono i vantaggi ? Ecco un sintetico viaggio fra concetti come Tiered storage, ILM e HSM.

Autore: Francesco Ferrari

Lo spostamento intelligente dei dati è un'esigenza inderogabile per le aziende. I motivi di questa esigenza sono abbastanza semplici e noti da molto tempo: i dati crescono costantemente, e anche piuttosto velocemente, in quantità  e la memoria designata a ospitarli ha dei costi legati strettamente alle prestazioni e alla capacità . A questo occorre aggiungere che la disponibilità  e l'importanza di specifici dati cambia con il tempo. Un esempio: i dati finanziari di un'azienda sono molto importanti in vicinanza con la presentazione del bilancio, ma con il passare degli anni l'importanza, e la relativa necessità  di accedervi, diminuiscono sensibilmente. Analogamente è vitale conoscere tutti i dati per esempio del trasporto di materiale deperibile, ma una volta concluso il trasporto, le informazioni spesso hanno soltanto un valore ai fini di ricerche statistiche. Questo comporta la necessità  di spostare, preferibilmente in modo automatico, i dati in modo che le informazioni più importanti (in un determinato momento è ovvio) siano velocemente accessibili, mentre per quello meno importanti diventa accettabile un accesso ragionevolmente più lento, ma a costi molto più bassi. Ovviamente ci sono dei limiti nel tempo necessario per recuperare delle informazioni, così come esistono delle precise indicazioni sulla sicurezza. Questi argomenti sono stati oggetto per molti anni di studi estremamente particolareggiati, che hanno prodotto diversi risultati comunemente usati oggi.

[tit:Una analogia]
Il problema, pur con le dovute differenze, presenta molte analogie con quello, più tecnico, legato al costo delle memorie e che ha indotto alla realizzazione di gerarchie di memorie per ottimizzare il rapporto fra prestazioni e costi nei computer. Le memorie più veloci, e quindi costose, sono solitamente posizionate il più possibile vicino alle sezioni di elaborazione, ma hanno capacità  ridotte e quindi vengono usati diversi livelli di memoria in cui i dati che più probabilmente (ci sono appositi algoritmi che effettuano delle previsioni) potrebbero essere necessari all'elaborazione, sono trasferiti nella memoria più vicino ai processori. Queste memorie sono le cache di primo, secondo e terzo livello, la memoria centrale (la RAM) e gli hard disk, componenti, gerarchicamente organizzati di una catena che ha come scopo quello di trovare il giusto equilibrio fra le prestazioni che si vogliono ottenere e i costi necessari per raggiungerle.Nel caso dello storage per le aziende i termini del problema sono ovviamente diversi visto che lo sono i tipo di problemi da risolvere. In questo caso infatti ci si trova in una situazione in cui la quantità  di dati è in costante e rapida crescita e il tipo di dati è complesso da gestire visto che si parla sia di dati strutturati che di dati non strutturati.

[tit:HSM e ILM]
Una delle tecniche relative allo spostamento dei dati è chiamato HSM, acronimo di Hierarchical Storage Management e risalente ai tempi in cui erano i mainframe a dominare. Questa tecnica permette di spostare automaticamente i dati fra le memorie a più alto costo a quelle di costo più basso, ma più "lontane" dalla sezione di elaborazione. Sempre nell'ambito delle strategie di storage per le aziende si sente parlare di ILM (Information Lifecycle Management). ILM in pratica definisce una serie di strategie e policy per la gestione di sistemi di storage. Queste strategie sono definite dagli specifici obbiettivi di business. Dal punto di vista operativo si può parlare di finalità  di backup, protezione dei dati, disaster recovery, o più semplicemente di archiviazione a lungo termine dei dati.

[tit:I diversi livelli]
Talvolta ci si imbatte in definizione non sempre immediatamente chiare. Per esempio si possono trovare degli hard disk indicati per lo storage al Tier 1, ma che cosa significa questa classificazione ? Si parla di archiviazione a più livelli (chiamata anche Tiered storage) quando ci sono diversi sistemi di storage che differiscono per almeno un aspetto come per esempio prestazioni, prezzi oppure capacità . àˆ interessante notare che i vari livelli non sono classificati in base a differenze fra produttori oppure in termini di architettura, ma in base ad altre caratteristiche. Di fatto si parla di Tiered storage quando sussiste una gerarchia di sistemi basata su precisi requisiti e la gamma di questi requisiti è piuttosto ampia: può trattarsi di aspetti legati alla sicurezza, oppure alla business continuity o semplicemente alle prestazioni. In pratica il Tiered storage è simile all'HSM e al'IILM, anche se è orientato più al tipo di contenuto dei dati e alla disponibilità  di infrastrutture hardware.
In un modello di questo tipo potremo trovare al Tier 0 i dati necessari alle applicazioni utilizzate frequentemente in termini di hardware, a questo livello si trova la memoria a cui si può accedere il più velocemente possibile come per esempio la Flash oppure gli SSD (Solid State Drive). Questo tipo di memorie sono molto costose e c'è la necessità  di farvi rimanere i dati per poco tempo, mentre i tempi di accesso sono bassissimi.
Nel Tier 1 trovano posto, invece, i dati mission critical. In termini di hardware a questo livello si trovano hard disk connessi via SAS oppure FC e i dati restano su queste unità  per periodi nell'ordine di grandezza di ore.
Il Tier 2 è dedicato ai dati considerati vitali per l'azienda Per l'hardware in quest'area ci sono ancora hard disk SAS e FC, ma anche unità  come SAN e unità  iSCSI. A questo livello i dati restano per alcuni giorni, ma i tempi di ricerca sonocomunque nell'ordine dei secondi.
Nel Tier 3 ci sono i dati classificabili come sensibili. Sul versante dell'hardware a questo livello incontriamo hard disk SATA, SAN, ma anche le librerie a nastro. L'ordine di grandezza del tempo per cui restano ospitati in dati in questo livello è di anni, mentre sono considerati accettabili tempi per trovare le informazioni nell'ordine dei minuti.
I dati considerati non critici sono invece racchiusi nel Tier 4, dove si usano spesso unità  a nastro, ma anche dispositivi più veloci come le SAN. Si considera accettabile un tempo di ore, o anche giorni, per una ricerca su questo tipo di dati


Visualizza la versione completa sul sito

Informativa
Questo sito o gli strumenti terzi da questo utilizzati si avvalgono di cookie necessari al funzionamento ed utili alle finalità illustrate nella cookie policy. Se vuoi saperne di più o negare il consenso a tutti o ad alcuni cookie, consulta la cookie policy. Chiudendo questo banner, acconsenti all’uso dei cookie.