ARQUITETURA E S.O. Flashcards
RAID (REDUNDANT ARRAY OF INEXPENSIVE DISKS)
Mais do que discos físicos, que podem ser HDs mecânicos ou SSDs, arrays, que podem ser encontrados em dispositivos de arma-zenamento em forma de armário, chamados de storages
–Segurança (redundância);
–Desempenho;
–Ambos.
Raid – Duas Abordagens
Software = O SO gerencia o array, mais barato, maior overhead. Hardware = utiliza-se uma placa controladora (SCSI, SAS etc.).
Raid 0 (Stripping)
Todos os discos físicos formam um único disco lógico.
Somam-se as capacidades de cada disco físico
Gravação dos dados: os dados são divididos em pequenos segmentos e distribuídos pelos discos.
Não há redundância.
Não há paridade de dados.
Vantagem: operação de leitura rápida.
Desvantagem: a falha de um disco poderá ocasionar perda de dados.
Raid 1 (Mirroring)
Espelhamento.
Os dados gravados em um disco serão gravados também no outro.
Há perda da capacidade dos discos físicos pela metade.
Vantagem: redundância.
Desvantagem: escrita mais demorada.
Raid 10 (Mirror/Strip)
Mínimo de 4 discos.
Taxa de IOPS elevada (entrada/saída de dados por segundo).
***necessidade de vários discos, pelo menos 4
RAID 2
Parecido com o RAID 0;
Mecanismo de detecção de erros ECC (Error Correcting Code);
Os HDs atuais já possuem nativamente o ECC;
–Portanto, é um tipo de RAID que praticamente não acrescenta em nada.
Caiu em desuso.
RAID 3
Utiliza paridade;
–Bits de pariedade, ou seja, quando o dado é gravado, os bits também são. Por conta disso, ocupará um maior espaço e perda de armazenamento.
Uma unidade é reservada apenas para paridade;
Leitura e gravação rápida.
RAID 4
Similar ao RAID 3, utiliza paridade;
Disco exclusivo de paridade;
Leitura rápida e gravação lenta
RAID 5
Grava dados entre todos os discos no volume;
–Como é visto na imagem, o dado A foi distribuído pelos discos.
Há um bloco de paridade para cada bloco de dados; Suporta a falha de 1 disco.
Vantagem: leitura rápida.Desvantagem: escrita lenta.
RAID 6 (DUAL PARITY)
Grava dados entre todos os discos no volume;
Há dois blocos de paridade para cada bloco de dados
Perda de até 2 discos;
Os dados do disco com falha podem ser recriados em um disco de substituição;
Mínimo de 4 discos
HOT SPARE
Trata-se de um esquema em que um ou mais discos são acrescentados para ficar de reserva
RAID 50
Consiste na junção de dois níveis de RAID:
RAID 5 (paridade distribuída) + 0 (striping)
É necessário três discos por arranjo de RAID 5
Mínimo de seis discos;
•Suporta até 4 (quatro) falhas – 1 (uma) para cada array RAID 5
Vantagens:
Melhor desempenho de gravação;
Maior proteção de dados; e
Rebuilds mais rápidos do que o RAID 5
JBOD (Just a Bunch Of Disks)
Algo como “Apenas um Conjunto de Discos”;
•Uso em conjunto de dois ou mais HDs (independentemente de sua capacidade);
Obs.: é possível juntar discos, de capacidades variadas, em um único disco lógico.
Sistema operacional enxerga como uma única unidade lógica.
RAID 2 e RAID 3
Segundo Stallings(2010,p.162),”RAID níveis 2 e 3 utilizam uma técnica de acesso paralelo. No array com acesso paralelo,todos os discos membros participam na execução de cada solicitação de E/S. Normalmente,os eixos das unidades individuais são sincronizados de modo que cada cabeça de disco esteja na mesma posição em cada disco a qualquer instante.”
DAS (Direct Attached Storage)
Dados são armazenados em discos localmente ligados a servidores individuais;Um servidor que terá conexão direta com os discos que estão sendo utilizados para armazenamento.
Interfaces: SATA e SAS;
Possui variações, como eSATA.
Formato dos dados EM BLOCO
Por exemplo: HD externo conectado a um computador.Desvantagens:
Os dispositivos de armazenamento somente podem ser acessados a partir do servidor;
Não há uma rede, portanto, é necessário realizar uma autenticação naquele servidor para ter o acesso
SE O SERVIDOR FALHAR O ACESSO AOS DADOS É CORTADO
NAS (Network Attached Storage)
Possui uma rede na qual se pode ter inúmero servidores se conectando. •Baseado em redes comuns (LAN) e acessível a todos os dispositivos ligados à LAN;
Interfaces: SATA e SAS;
Formato dos dados: arquivo;
Transportados através de Ethernet e TCP/IP;
Os protocolos de acesso a arquivos mais utilizados são:
NFS (Network File System) e CIFS (Common Internet File System).
Apresentam Filesystem.
Já possuem um sistema de arquivo
SAN (Storage Area Network)
Redes de alta velocidade que estabelecem uma conexão direta entre os recursos de armazenamento e o servidor;
Há uma rede dedicada somente ao transporte de dados, diferentemente de uma LAN, ou seja, ocorre uma comunicação independente.
O SAN é totalmente transparente ao sistema operacional do servidor, que “vê” os discos do SAN como se fossem seus próprios discos SCSI;
É uma rede separada e dedicada a dispositivos de armazenamento.
Protocolos: iSCSI ou Fibre Channel;iSCSI: encapsula comandos SCSI através de uma rede Ethernet.Fibre Channel: fibra ótica ou o próprio cobre.
•Interfaces: FC e 10Gb Ethernet;
•Formato dos dados: Bloco
ZONEAMENTO
Esta técnica consiste em definir grupos de dispositivos que se enxergam, o que chamamos de zona;
Isto permite alocar o storage adequadamente para cada host
SAN FC
Os protocolos FC foram adotados para arquiteturas que usam blocos.•Simplificam as ligações entre servidores e storages.•Diminuem a perda do sinal, aumentando as distâncias máximas do SCSI.•Pode utilizar fibra ótica ou cobre (FCoE – Fibre Channel Over Ethernet).•Possibilitou a conexão de discos SCSI aos servidores (aumento de velocidade e número de dispositivos). •Suporte a protocolos de camadas de alto nível: SCSI (mais utilizado), ATM e IP
SAN IP
O iSCSI (internet SCSI) com o padrão Ethernet passou a ser uma opção.•ISCSI: transporte dos pacotes SCSI através da arquitetura TCP/IP.•Como funciona?1.O iSCSI carrega os comandos do server (initiator) para o storage (target);2.Encapsulando os comandos SCSI dentro do TCP/IP pela rede Ethernet.
Fibre Channel Protocol (FCP)
É um Protocolo de Transporte SCSI e que foi desenvolvido para facilitar a comunica-ção de blocos de dados entre origem-destino em redes FC.
É o protocolo mais utilizado em redes SAN, logo já se sabe que o formato de dados arma-zenados é o bloco.
São 5 camadas.
Fibre Channel – Arquitetura
FC-4 Interface ULP Exemplos, SCSI-3 e IP
FC-3 Serviços Comuns Reservado para funções futuras
FC-2 Gerenciamento dos Dados Quadros, Controle de fluxo, Classe de Serviços
FC-1 Ordered sets e codificação Codificação 8b/10b
FC-0 Interface Física Cabos, conectores etc.
Fibre Channel x OSI
FC-4 mapeia camadas de aplicação e apresentação.
FC-3 e FC-2 mapeiam camadas de sessão, transporte e enlace.
FC-1 e FC-0 mapeiam a camada física.
Fibre Channel over Ethernet (FCoE)
Desenvolvido com a intenção de manter o modelo Fibre Channel.
No FCoE, o quadro nativo do FC é mapeado no quadro do Ethernet.
Permitindo que tráfegos FC sejam transmitidos através da rede Ethernet.
Fibre Channel Over Ethernet para que se possa aproveitar a própria infraestrutura utilizada para ethernet, a fim de realizar o tráfego da arquitetura Fibre Channel.
CONVERGÊNCIA FCOE
–Encapsulamento.
–Formato do quadro
Convergência de ethernet e Fibre Channel em uma única rede
Fibre Channel over IP (FCIP)
Permite a conexão de dois FC-SAN interligando switches através de TCP/IP.
–Túnel ponto a ponto através de uma rede IP, e–O tráfego Fibre Channel é encapsulado e desencapsulados nos terminais
FC-SAN virtual
Quando um túnel é estabelecido, dois FC-SAN se juntam para formar um só FC-SAN virtual
Internet Fibre Channel Protocol (iFCIP)
O Internet Fibre Channel Protocol (iFCP) é um protocolo gateway-to-gateway que interliga dispositivos do Fibre Channel através da rede IP/Ethernet.
Fibre Channel - Portas
Porta_N: Porta Nó (Porta_N) é usada para conectar dispositivos com os fabric swi-tches ou com outra porta nó em configurações ponto a ponto.
Porta_F: Portas Fabric (Porta_F) são encontradas nos switches e são usadas para conectar os switches com as Portas_N.
Porta_E: Portas de Expansão (Porta_E) são usadas para conexão entre dois Fibre Channel switches. •Porta_G: Porta Genérica são encontradas nos switches e é capaz de operar como uma Porta_E ou Porta_F.
Porta_B: Porta Ponte (Bridge Port - B_Port) é usada para conectar fabrics com com-ponentes não Fibre Channel ou redes como LAN e WAN.
Porta_L: Portas Laços (Porta_L) são utilizadas na topologia laço arbitrado, onde não é usado FC switches.–As portas F, G, N que tiverem interface com um laço arbitrado serão chamadas de Porta_FL, Porta_GL, e Porta_NL.
A conexão do tipo Porta_E para Porta_E é uma interconexão entre switches, chamada de Inter-Switch Link (ISL).
FC Camadas físicas
FC0 - Camada Física: definir a conexão física do sistema, por exemplo, cabos conectores;
FC1 - Protocolo de Transmissão: codificação e decodificação dos dados e o controle de erros;
FC2 - Camada de Rede: transporte de dado CONTROLE DE FLUXO REDE: DEFINE A ESTRUTURA DOS FRAMES
FC Camadas Superiores
FC3 - Serviços Comuns: funções auxiliares, que podem afetar múltiplas portas em um único nó ou em um fabric, por exemplo, Hunt Groups, striping e multicast;
FC4 - Camada Superior: implementar protocolos específicos para a aplicação. INTERFACE – ENCAPSULAMENTO DAS VÁRIAS CAMADAS
Backup Completo ou Full
Copia todos os arquivos de determinado ambiente ou servidor, para outro local de arma-zenamento (o que garante a cópia segura).
Atributo de arquivamento: não importa. Todos os arquivos são backupeados!
Vantagem: apenas um arquivo para restauração.Desvantagem: demorado.
Backup incremental
Copia somente os dados novos ou alterados (atributo marcado) desde o último backup (normal ou incremental). Portanto, copia uma quantidade menor de dados para o local escolhido. Atributo de arquivamento é desmarcado.Restore: último backup full e todos os incrementais.Vantagem: maior velocidade e menor espaço de armazenamento.Desvantagem: demora no restore.
Backup Diferencial
Semelhante ao incremental. Copia os arquivos criados ou alterados (atributo marcado) em relação ao último backup full, armazenando mais dados do que o incremental.O atributopermanece marcado. Restore: último backup full e último diferencial.Vantagem: menos arquivos para restaurar.Desvantagem: o tempo de restore pode ser muito maior que o incrementa
Atributo de Arquivamento: incremental X diferencial
Incremental: atributo de arquivamento é desmarcado.
Diferencial: atributo de arquivamento permanece marcado.
Snapshot
Um snapshot ou captura instantânea é uma cópia virtual dos seus dados. Assim como os métodos tradicionais, é possível obter e manter vários snapshots para que seja possível restaurar um sistema em diferentes pontos no tempo.
Vantagens do Snapshot
Melhor RPO – O RPO é a sigla de Ponto Objetivo de Recuperação, e é utilizado por empresas para saber a quantidade de recursos mínimos a serem recuperados em caso de falhas ou perdas de dados.
Melhor RTO – O RTO é sigla de Objetivo do Tempo de Recuperação (em português), e é utilizado para mensurar o tempo máximo em que um sistema ou uma informação pode ficar indisponível após uma falha.
Backups consistentes – Os backups são salvos em vários momentos ao longo do dia. Também, podem ser salvos em diferentes servidores, o que proporciona uma maior segurança e consistência nos dados.
Criação quase que instantânea – Por não realizarem cópias dos dados, mas cópias dos metadados isso possibilita a cópia mais rápida e sem perda dos dados.
Nenhum impacto na produção – Você não precisa esperar por horas para realizar um backup
SNAPSHOT copy-on-write
COPIO QUANDO ESCREVO ALGO
A cópia na gravação requer que a capacidade de armazenamento seja provisionada para instantâneo
*Armazena apenas os metadados sobre onde os dados originais estão localizados
DUPLA ESCRITA
**COPIA QUANDO ESCREVO ALGO
SNAPSHOT REDIRECTON WHITE
DIRECIONE DIRETO SEM GRAVAR NO ORIGINAL
SEM DUPLA ESCRITA
+COMPLICADO
Novas escritas ao original são redirecionadas a outra localização
SNAPSHOT SPLIT MIRROR
Um clone ou instantâneo de espelho dividido cria uma cópia idêntica dos dados. O clone ou espelho dividido pode ser de um volume de armazenamento, sistema de arquivos ou um número de unidade lógica (LUN)
GRANDE OVERHEAD
NÃO SÃO CRIADOS INSTANTANEAMENTE
SNAPSHOT AGNÓSTICO E CONHECIDO
AGNÓSTICO NÃO REQUER CIÊNCIA DOS FORMATOS DE DADOS
CONHECIDO APROVEITA O CONHECIMENTO DE FORMATOS ESPECÍFICOS
Deduplicação
A deduplicação de dados é um método de reduzir as necessidades de armazenamento eliminando dados redundantes.
Desduplicação em nível de arquivo
verifica as redundâncias e salva apenas uma cópia do arquivo com diversos ponteiros apontando para este local
ATRIBUIDA UMA ASSINATURA HASH
A desvantagem da desduplicação no nível de arquivo é a sua falta de granularidade e incapacidade de fornecer desduplicação no nível do subarquivo. Isso significa que mesmo a menor mudança em um arquivo, como a mudança do título, por exemplo, fará com que um novo arquivo que seja armazenado.
Desduplicação de bloco
opera no nível do sub-arquivo e pode ser de comprimento fixo ou variável
dividido em segmentos – pedaços ou blocos – que são examinados para redundância em relação a informações armazenadas anteriormente
Desduplicação NÍVEL BYTE
MAIOR OVERHEAD
ANALISA SEQUENCIA DE BYTES
MELHOR RESULTADO
MAIOR RETORNO
Desduplicação In-line X Pós-Processamento
In-line remove as redundâncias antes de os dados serem gravados. Isso reduz a quantidade de dados duplicados e o espaço necessário para o backup. No entanto, o processo de backup tende a ser mais lento, já que os dados só serão armazenados após sua desduplicação
Pós-Processamento, a análise e remoção da redundância são feitas após o backup completo dos dados. O processo de desduplicação é separado do processo de backup para que os dados sejam desduplicados fora da janela de backup, sem afetar o desempenho do backuP
Desduplicação na Origem X Destino
na origem é a remoção de redundâncias dos dados no ambiente de produção antes de serem transmitidos para o servidor ou appliance de backup»_space; Ambientes virtualizados também são recomendados para a desduplicação na origem por causa das imensas quantidades de dados redundantes em arquivos de disco da máquina virtual (VMDK). REDUZ USO DA REDE
no destino é a remoção de redundâncias dos dados no appliance de backup após o envio pela rede. Essa forma de desduplicação tende a impactar menos o processamento do ambiente de produção. No entanto, a largura de banda é bastante utilizada, já que todos os dados (redundantes ou não) são enviados ao appliance de backup para a desduplicação e armazenamento.
XFS
originalmente projetado e criado pela SGI e usado no sistema operacional IRIX e posteriormente foi portado para o Linux. Foi explicitamente projetado para lidar com grandes conjuntos de dados, bem como para lidar com tarefas de I/O paralelo de forma muito eficaz.
O XFS pode lidar com:
- *Até 16 EB (exabytes) de tamanho total do sistema de arquivos
- *Até 8 EB de tamanho máximo para um arquivo individual
O alto desempenho é um dos elementos principais do projeto XFS, que implementa métodos para:
Potencializar o DMA (Acesso direto a memória)
Garantir uma taxa de I/O
Ter flexibilidade para ajustar o tamanho do bloco para casar com o tamanho do bloco da camada de nível de disco como RAID ou LVM.
o journal pode ficar em um dispositivo externo.
Características XFS
O XFS é um sistema de arquivos desenvolvido em 64 bits, compatível com sistemas de 32 bits. Em plataformas de 64 bits, possui um limite de tamanho de 8 EiB para um volume e para cada arquivo; em 32 bits, usando page frame de 4 KiB, o tamanho máximo do volume ou de um arquivo é limitado a 16 TiB
Efetua alocação por extensões (v. abaixo) em vez de alocação por blocos.
Usa alocação dinâmica de nós-i.
É um sistema de arquivos com journaling.
***permite o redimensionamento de uma partição apenas para aumentar.
Backup e restauração de baixo nível podem ser feitos com os utilitários nativos do XFS:
xfsdump
xfsrestore
Sistemas de arquivos
Um sistema de arquivos é um conjunto de estruturas lógicas que permite o sistema operacional controlar o acesso a um dispositivo de armazenamento como disco rígido, pen drive, cd-room, etc
EXT4
Passou a ser o padrão Linux a partir de 2008. EXT4 suporta 1EB (1 exabyte corresponde a 260 bytes) de tamanho máximo de sistema de arquivos e 16TB de tamanho máximo de arquivos. É possível ter um número ilimitado de subdiretórios
ext4 é o sistema de arquivos padrão para muitas distribuições Linux, incluindo Debian e Ubuntu
**Uma extensão é uma gama de blocos físicos contíguos, melhorando o desempenho de arquivos grandes e reduzindo a fragmentação
NÃO HÁ LIMITE DE SUBDIRETÓRIOS
ESPAÇO PRA ARMAZENAMENTO GIGANTESCO
ext4 habilita barreiras de gravação por padrão. Ele garante que os metadados do sistema de arquivos sejam gravados e ordenados corretamente no disco
CRIPTOGRAFIA
EXT4 - Journal checksums
ext4 usa checksums no diário para melhorar a confiabilidade, uma vez que o diário é um dos arquivos mais usados do disco.
RESTAURAÇÃO MAIS RÁPIDA
UNDELETE FERRAMENTA QUE IMPEDE O ARQUIVO SER APAGADO
ORGANIZAÇÃO DOS BLOCOS PERMITE PARTES NÃO USADAS NÃO SEREM ANALISADAS POR ISSO ECONOMIZA TEMPO
ACL=ACESS CONTROL LIST -> Direito de acesso refinado
Journaling
Journaling é uma tecnologia utilizada por filesystems modernos, onde todas as solicitações de gravação em disco são realizadas primeiro em uma estrutura chamada journal, e só depois são efetivamente gravadas em disco. Isto serve para garantir uma recuperação rápida em caso de falhas de disco ou do servidor, como quedas de energia. O journal funciona como um log das transações realizadas no filesystem, e os dados permanecem ali somente até serem persistidos em disco.
NTFS
NTFS possui uma estrutura que armazena as localizações de todos os arquivos e diretórios, incluindo os arquivos referentes ao próprio sistema de arquivos denominado MFT (Master File Table).
NTFS utiliza um esquema de journaling,
Todos os dados de arquivos, diretórios e metarquivos - nome do arquivo, data de criação, permissões de acesso (pelo uso de listas de controle de acesso) e tamanho - são armazenados como metadados na Master File Table (MFT)
suporte à norma Portable Operating Sistem Interface (POSIX) para garantir compatibilidade entre sistemas.