Data center management Flashcards
Quali sono gli obbiettivi di massima della gestione di un datacenter?
Come possiamo vedere il problema?
Quali sono le metriche di performance KPI di un datacenter?
Massimizzare i guadagni ridecendo i costi e garantire le SLA (requisiti di troughput e response time nei confronti dei clienti).
Si può vedere come un problema di ottimizzazione, con diverse metriche:
- Key Performance Indicator: metriche di performance del sistema
- Vincoli: requisiti aggiuntivi di sistema
_____
Possiamo considerare
- il consumo energetico delle componenti computazionali, networking, storage e cooling. Si tende ai green data center che mira a ridurre la brown energy e promuovere quella green (prodotta da fonti rinnovabili). Usiamo green energy e se eccediamo compensiamo con della brown energy.
- SLA: requisiti contrattuali nei confronti del cliente, tempi di risposta, throughput e disponibilità di sistema. Solitamente il tempo di risposta, una finestra di 24 ore non ha senso se è spesso inattivo, serve una finestra di minuti, non deve essere preso dai logs che tengono conto delle tempistiche lato client, dobbiamo definire come aggregare i campioni (se c’è un picco per un piccolo periodo siamo già in violation). Usiamo metriche 90-percentile, e decido anche chi deve misurare.
- Utilizzo delle risorse CPU: La variazione dek carico ha un impatto sul funzionamento della CPU e la temperatura. Accensioni e spegnimenti improvvisi di un server può causare shock termico e riduce la vita della macchina. Usiamo il fattore di accelarazione AF il parametro principale che misura l’invecchiamento della CPU. Dobbiamo tenere conto dell’utilizzo della CPU, guardando gli istanti in cui la macchina rimane idle, ma anche considerando il carico il numero di processi in attesa di esecuzione.
- Utilizzo delle risorse rete: Analogo alla CPU, utilizzo dei canali di rete, assicurandoci che la banda teorica non può essere mai raggiunta. Le metriche per misurare l’utilizzazione sono il troughput (dati trasmessi nel tempo) e la bandwidth (massimo dei dati che è possibile trasmettere)
- Failure rate
- Affidabilità(Funziona correttamente) / Disponibilità
Quali sono i tipi di modelli di performance?
- Modello energetico: nel caso semplice consideriamo la dipendenza lineare tra utilizzo CPU e dissipazione calore. Se ci concentriamo sul consumo energetico CPU adottando il modello Dynamic Voltage Frequency Scaling (DVFS), dove l’energia varia con un fattore cubico rispetto alla frequenza del processore. Ci possiamo basare sul disco o anche sulla rete (utilizzo). Se gli apparati di rete hanno consumo fisso le SDN no.
- Modelli basati sull’affidabilità o disponibilità: Tipicamente usati come vincoli di un modello. Si tiene conto se i sistemi sono collegati in serie o parallelo, di come si comportano in caso di failure, del loro livello di replicazione, inoltre se abbiamo 1 o più DC. Se gestiamo più DC studiamo su due layer, il primo è su come un DC reagisce al carico(burst di traffico, gestione errori, come scalarlo…) e il secondo sul come si distribuisce il carico sulla serie di DC(utilizzo di predittori, località delle richieste, costi delle VM).
- Modelli economici: Modello basato sui costi con scenari con uno o più providers, minimizzare i costi e/o massimizzare i profitti e vedere i tradeoffs.
Utilizziamo dei modelli di prezzo nelle varie VM per massimizzare il ritorno, oppure offrire risorse per guadagnare soldi dalle risorse non utilizzate. Queste macchine sono:- Istanze di VM dedicate: macchine economiche, per utilizzi mensili e annui, sempre disponibili. (paagte in anticipo)
- Istanze di VM on demand: alti costi (il triplo) utilizzo ad ore sempre disponibili.
- Spot VM: vendute all’asta per fare profitto, per un breve termine e non sempre disponibili. Il tempo di non disponibilità è rimborsato.
Quali sono le variabili decisionali nel posizionamento delle VM?
Migrazione?
Ottimizzazione della rete?
Orchestrazione?
- posizionamento delle VM: può essere visto come un bin packing problem mono dimensionale se consideriamo CPU e multi dim se consideriamo anche RAM, CPU… Inoltre è necessario fare analisi su più istanti temporali in base all’utilizzazione delle risorse. Dato che il bin packing scoppia all’aumentare il numero di VM, dobbiamo lavorare in classi di servizio, questo permette di categorizzare le macchine in base a quale risorsa usano di più, riducendo le dimensioni del problema a costo della precisione, questo serve per DC che vogliono predirre il traffico in tempi accettabili.
- VM migration: la migrazione avviene quando il server è sottoutilizzato <=20% , var gms- quando esce gms+ quando entra
- Ottimizzazione della rete: dobbiamo fare in modo che le macchine comunichino in modo ottimale, definendo quali macchine devono stare vicine. Definire i vincoli delle risorse per garantire disponibilità e niente sovraccarichi. Minimazzare il numero di hops, mirare al consumo di en…. utilizzo della banda evitando bottle neck.
- Orchestrazione: nel contesto del Cloud computing teniamo conto dei vari servizi, delle loro SLA e cerchiamo di minimizzare i costi in base al numero e tipo di VM impiegate, inoltre teniamo conto dell’evoluzione del carico.
Quali sono le soluzioni in ambito industriale?
80/20: con una regola del pollice per evitare server sovracarichi o sottoutilizzati. Usiamo 2 soglie 20% sotto spegniamo e 80% migriamo
Predittori: Per modellare l’andamento dell’utilizzazione in ottica di predizioni, sono spesso utilizzate tecniche
di predizioni tramite la regressione. I predittori di carico non sono, pero, molto utilizzati in
ambito industriale, perch´e non sempre il carico e predicibile e talvolta
e meglio reagire in ritardo
piuttosto che reagire male.
Eco cloud: la migrazione viene vista come un processo stocastico locale nelle macchine, che stabiliscono se il server deve scaricarsi o accettare nuove macchine. Questi processi locali portano a una soluzione globale.
Abbiamo 2 curve, una per lo scarico e l’altra per l’assegnamento di una VM a un server, nella seconda curva quelli scarichi sono papabili come destinazione, a un certo punto diventa 0 la probabilità.
Per il secondo processo abbiamo una curva duale, tra 40 e 70% saranno destinazione. Se si raggiunge un utilizzo del 90% difficilmente accetto macchine, probabilmente si scarica, se invece ha basso utilizzo si migra e si spegne. Si cerca di convergere a uno stato dove i nodi sono utilizzati medio alti.
Tiene conto di molte caratteristiche e parametri, inoltre abbiamo un buon panorama di tutto.
Quali sono le euristiche per le VM migration?
MBFD: Questo algoritmo considera a differenza del BFD, macchine virtuali eterogenee, il posizionamento guarda al minimizzare il consumo energetico. La selezione delle macchine da migrare mira a minimizzare il numero di migrazioni, accensioni e spegnimenti. Su questa base vengono scelte macchine più vicine alla soglia o casualmente.
Hierarchical: Il tempo di risposta è modellato su reti di code, dove ogni server è un M/G/1. Si basa sul distribuire il carico su più DC nel lungo termine, nel breve termine la posizione delle VM. L’algoritmo long term ragiona ad ore a cui fa riferimento la frequenza di pagamento delle VM utilizzando un predittore per il traffico in arrivo.
L’algoritmo breve termine (minuti), decide se se le VM sono abbastanza o se ho bisogno di una macchina spot on demand… segue il principio di receding horizon, applica decisioni solo per il passo temporale prossimo considerando l’intera finestra temporale. Ripetendo per il secondo passo etc…
VMPlanner: Si cerca di posizionare le VM in modo corretto per ridurre sovraccarichi della rete cercando di allegerire la parte core della rete. E’ NP Hard quindi lo dividiamo in sotto problemi:
1)Balanced minimum k-cut problems: le VM vengono raggruppate in classi di traffico
2) Quadratic assigment problem: i gruppi vengono mappati su vari rack all’interno del DC
3) Multi commodity flow problem: una volta trovato il posizionamento, viene deciso come viene mappato il flusso di traffico sulla geometria ottenuta
La soluzione ideale è quella d’implementare un infrastruttura di rete adattiva (ie Mice and Elephants), in grado di gestire flussi indipendentemente dalla grandezza. I nodi riconoscono il flusso e riorg le loro matrici di domanda
JCDME: Approccio che mira a minimizzare il costo energetico (computazione, data transfer e migration) tenendo conto di tanti parametri, ognuno con un peso ed è basato su timeslots. La migrazione essendo onerosa devo avere il costo spalmato su più unità di tempo, bisogna essere sicuri che dopo la migrazione il sistema non richieda un livello basso di energia.
Quali sono i motivi per migrare VM?
Migrare le VM aiuta a bilanciare il carico, consolidare server idle per risparmiare energia, evitare la formazione di hotspot cioè macchine che lavorano più di altre generando calore (quindi usura), cambiare i pattern di carico di lavoro (non ho capito bene).