Analysis Flashcards

Question

Integrações OpenSearch com outros serviços AWS

Answer 1

* Buckets S3 (via Lambda para Kinesis) * Kinesis Data Streams * Fluxos do DynamoDB * CloudWatch/CloudTrail * Conscientização da zona

Answer 2

* Delete old indices after a period of time * Move indices into read only state after a period of time * Move indices from hot -> UltraWarm -> cold storage over time * Reduce replica count over time * Automate index snapshots

Answer 3

Random jitter to ensure they don’t all run at once

Answer 4

Excluir índices antigos após um período de tempo * Mover índices para o estado somente leitura após um período de tempo * Mover índices de hot -> Ultraquente -> frio armazenamento ao longo do tempo * Reduzir a contagem de réplicas ao longo do tempo * Automatizar instantâneos de índice

Answer 5

* Periodically roll up old data into summarized indices * Saves storage costs * New index may have fewer fields, coarser time buckets

Answer 6

* Like rollups, but purpose is to create a different view to analyze data differently. * Groupings and aggregations

Answer 7

* Acumule periodicamente dados antigos em índices resumidos * Economiza custos de armazenamento * Novo índice pode pode ter menos campos

Answer 8

* Como rollups, mas o objetivo é criar uma visão diferente para analisar os dados de forma diferente. * Agrupamentos e agregações

Answer 9

* Replicate indices / mappings / metadata across domains * Ensures high availability in an outage * Replicate data geographically for better latency * “Follower” index pulls data from “leader” index * Requires fine-grained access control and node-to -node encryption * “Remote Reindex” allows copying indices from one cluster to another on demand

Answer 10

* Replicar índices/mapeamentos/ metadados entre domínios * Garante alta disponibilidade em uma interrupção * Replicar dados geograficamente para melhor latência * O índice “Seguidor” extrai dados de índice de “líder” * Requer multa-controle de acesso granular e nó-para -criptografia de nó * “Reindexação Remota” permite copiar índices de um cluster para outro Sob demanda

Answer 11

* Avoids “split brain”

Answer 12

Minimum storage requirement is roughly: Source Data * (1 + Number of Replicas) * 1.45

Answer 13

* (source data + room to grow) * (1 + indexing overhead) / desired shard size * In rare cases you may need to limit the number of shards per node * You usually run out of disk space first

Answer 14

* At least 3 nodes * Mostly about storage requirements * i.e., m6g.large.search, i3.4xlarge.search, i3.16xlarge.search

Answer 15

Sim, evita split brain

Answer 16

Aproximadamente: Dados de Origem * (1 + Número de Réplicas) * 1,45

Answer 17

* (dados de origem + espaço para crescer) * (1+indexação sobrecarga) / tamanho de fragmento desejado * Em casos raros, pode ser necessário limitar o número de shards por nó * Geralmente, você fica sem espaço em disco primeiro.

Answer 18

* Pelo menos 3 nós * Principalmente sobre requisitos de armazenamento * ou seja, m6g.large.search, i3.4xlarge.search, i3.16xlarge.search

Answer 19

* Resource-based policies * Identity-based policies * IP-based policies * Request signing * VPC * Cognito

Answer 20

* Cognito * Getting inside a VPC from outside is hard… * Nginx reverse proxy on EC2 forwarding to ES domain * SSH tunnel for port 5601 * VPC Direct Connect * VPN

Answer 21

* Cognito * Entrando em VPC de fora é difícil... * Proxy reverso Nginx no EC2 encaminhamento para domínio ES * Túnel SSH para a porta 5601 * Conexão direta VPC * VPN

Answer 22

* OLTP * Sem transações * RDS ou DynamoDB é melhor * Consulta de dados ad-hoc * Athena é melhor * Lembre-se de que Opensearch é principalmente para pesquisa e análise

Answer 23

* Você tem alocações de shards desequilibradas entre os nós * Você tem muitos shards em um cluster

Answer 24

Excluir índices antigos ou não utilizados

Answer 25

* Interactive query service for S3 (SQL) * No need to load data, it stays in S3

Answer 26

* CSV (human readable) * JSON (human readable) * ORC (columnar, splittable) * Parquet (columnar, splittable) * Avro (splittable)

Answer 27

* Unstructured, semi-structured, or structured

Answer 28

* Can organize users / teams / apps / workloads into Workgroups * Can control query access and track costs by Workgroup * Integrates with IAM, CloudWatch, SNS

Answer 29

* Query history * Data limits (you can limit how much data queries may scan by workgroup) * IAM policies * Encryption settings

Answer 30

* $5 per TB scanned * Successful or cancelled queries count, failed queries do not. * No charge for DDL (CREATE/ALTER/DROP etc.)

Answer 31

* ORC, Parquet * Save 30-90%, and get better performance

Answer 32

* IAM, ACLs, S3 bucket policies * AmazonAthenaFullAccess / AWSQuicksightAthenaAccess

Answer 33

* Server-side encryption with S3-managed key (SSE-S3) * Server-side encryption with KMS key (SSE-KMS) * Client-side encryption with KMS key (CSE-KMS)

Answer 34

* That’s what QuickSight is for

Answer 35

* Use Glue instead

Answer 36

* Use columnar data (ORC, Parquet) * Small number of large files performs better than large number of small files * Use partitions

Answer 37

* Powered by Apache Iceberg * Just add ‘table_type’ = ‘ICEBERG’ in your CREATE TABLE command * Concurrent users can safely make row-level modifications * Compatible with EMR, Spark, anything that supports Iceberg table format. * Removes need for custom record locking * Time travel operations * Recover data recently deleted with a SELECT statement * Remember governed tables in Lake Formation? This is another way of getting ACID features in Athena. * Benefits from periodic compaction to preserve performance

Answer 38

* Fully-managed, petabyte scale data warehouse service * 10X better performance than other DW’s * Via machine learning, massively parallel query execution, columnar storage * Designed for OLAP, not OLTP * Cost effective * SQL, ODBC, JDBC interfaces * Scale up or down on demand * Built-in replication & backups * Monitoring via CloudWatch / CloudTrail

Answer 39

* Accelerate analytics workloads * Unified data warehouse & data lake * Data warehouse modernization * Analyze global sales data * Store historical stock trade data * Analyze ad impressions & clicks * Aggregate gaming data * Analyze social trend

Answer 40

* Query exabytes of unstructured data in S3 without loading * Limitless concurrency * Horizontal scaling * Separate storage & compute resources * Wide variety of data formats * Support of Gzip and Snappy compression

Answer 41

* Massively Parallel Processing (MPP) * Columnar Data Storage * Column Compression

Answer 42

* Replication within cluster * Backup to S3 * Asynchronously replicated to another region * Automated snapshots * Failed drives / nodes automatically replaced * However – limited to a single availability zone (AZ)

Answer 43

* Vertical and horizontal scaling on demand

Answer 44

* A new cluster is created while your old one remains available for reads * CNAME is flipped to new cluster (a few minutes of downtime) * Data moved in parallel to new compute nodes

Answer 45

AUTO, EVEN, KEY, ALL

Answer 46

Redshift figures it out based on size of data

Answer 47

Rows distributed across slices in round-robin

Answer 48

Rows distributed based on one column

Answer 49

Entire table is copied to every node

Answer 50

* Rows are stored on disk in sorted order based on the column you designate as a sort key * Like an index * Makes for fast range queries * Choosing a sort key * Recency? Filtering? Joins? * Single vs. Compound vs Interleaved sort keys

Answer 51

* Parallelized; efficient * From S3, EMR, DynamoDB, remote hosts * S3 requires a manifest file and IAM role

Answer 52

Unload from a table into files in S3

Answer 53

* Use COPY to load large amounts of data from outside of Redshift * If your data is already in Redshift in another table, * Use INSERT INTO …SELECT * Or CREATE TABLE AS * COPY can decrypt data as it is loaded from S3 * Hardware-accelerated SSL used to keep it fast * Gzip, lzop, and bzip2 compression supported to speed it up further * Automatic compression option * Analyzes data being loaded and figures out optimal compression scheme for storing it * Special case: narrow tables (lots of rows, few columns) * Load with a single COPY transaction if possible * Otherwise hidden metadata columns consume too much space

Answer 54

* Let’s say you have a KMS-encrypted Redshift cluster and a snapshot of it * You want to copy that snapshot to another region for backup * In the destination AWS region: * Create a KMS key if you don’t have one already * Specify a unique name for your snapshot copy grant * Specify the KMS key ID for which you’re creating the copy grant * In the source AWS region: * Enable copying of snapshots to the copy grant you just created

Answer 55

* Connect Redshift to PostgreSQL (possibly in RDS) * Good way to copy and sync data between PostgreSQL and Redshift

Answer 56

* S3 * DynamoDB * EMR / EC2 * Data Pipeline * Database Migration Service

Answer 57

* Prioritize short, fast queries vs. long, slow queries * Query queues * Via console, CLI, or API

Answer 58

* Automatically adds cluster capacity to handle increase in concurrent read queries * Support virtually unlimited concurrent users & queries * WLM queues manage which queries are sent to the concurrency scaling cluster

Answer 59

* Creates up to 8 queues * Default 5 queues with even memory allocation * Large queries (ie big hash joins) -> concurrency lowered * Small queries (ie inserts, scans, aggregations) -> concurrency raised * Configuring query queues

Answer 60

* Priority * Concurrency scaling mode * User groups * Query groups * Query monitoring rule

Answer 61

* One default queue with concurrency level of 5 (5 queries at once) * Superuser queue with concurrency level 1 * Define up to 8 queues, up to concurrency level 50

Answer 62

* Each can have defined concurrency scaling mode, concurrency level, user groups, query groups, memory, timeout, query monitoring rules * Can also enable query queue hopping * Timed out queries “hop” to next queue to try again

Answer 63

* Prioritize short-running queries over longer-running ones * Short queries run in a dedicated space, won’t wait in queue behind long queries * Can be used in place of WLM queues for short queries * Works with: * CREATE TABLE AS (CTAS) * Read-only queries (SELECT statements) * Uses machine learning to predict a query’s execution time * Can configure how many seconds is “short”

Answer 64

* Quickly add or remove nodes of same type * (It *can* change node types, but not without dropping connections – it creates a whole new cluster) * Cluster is down for a few minutes * Tries to keep connections open across the downtime * Limited to doubling or halving for some dc2 and ra3 node types.

Answer 65

* Change node type and/or number of nodes * Cluster is read-only for hours to days

Answer 66

* Used to keep cluster available during a classic resize * Copy cluster, resize new cluster

Answer 67

* Recovers space from deleted rows * VACUUM FULL * VACUUM DELETE ONLY * VACUUM SORT ONLY * VACUUM REINDEX

Answer 68

* Enable independent scaling of compute and storage * SSD-based

Answer 69

* Unload Redshift query to S3 in Apache Parquet format * Parquet is 2x faster to unload and consumes up to 6X less storage * Compatible with Redshift Spectrum, Athena, EMR, SageMaker * Automatically partitioned

Answer 70

GEOMETRY, GEOGRAPHY

Answer 71

* Share live data across Redshift clusters without copying * Requires new RA3 node type * Secure, across regions and across account

Answer 72

* Advanced Query Accelerator * Available on ra3.4xl, ra3.16xl * Pushes reduction and aggregation queries closer to the data * Up to 10X faster, no extra cost, no code changes. * Also benefits from high -bandwidth connection to S3 * All you have to do is turn it on in your cluster configuration (when using the supported node types)

Answer 73

Use RDS instead

Answer 74

Use RDS or DynamoDB instead

Answer 75

ETL first with EMR etc.

Answer 76

Store references to large binary files in S3, not the files themselves.

Answer 77

* Using a Hardware Security Module (HSM) * Defining access privileges for user or group

Answer 78

* Must use a client and server certificate to configure a trusted connection between Redshift and the HSM * If migrating an unencrypted cluster to an HSM-encrypted cluster, you must create the new encrypted cluster and then move data to it.

Answer 79

* Use the GRANT or REVOKE commands in SQL * Example: grant select on table foo to bob;

Answer 80

* Automatic scaling and provisioning for your workload * Optimizes costs & performance * Pay only when in use * Uses ML to maintain performance across variable & sporadic workloads * Easy spinup of development and test environments * Easy ad-hoc business analysis * You get back a serverless endpoint, JDBC/ODBC connection, or just query via the console’s query editor.

Answer 81

* Need an IAM role with this policy * Define your * Database name * Admin user credentials * VPC * Encryption settings * AWS-owned KMS by default * Audit logging * Can manage snapshots & recovery points after creation

Answer 82

* Capacity measured in Redshift Processing Units (RPU’s) * You pay for RPU-hours (per second) plus storage * Base RPU’s * Max RPU’s

Answer 83

* You can adjust base capacity * Defaults to AUTO * But you can adjust from 32-512 RPU’s to improve query performance

Answer 84

* Can set a usage limit to control costs * Or, increase it to improve throughput

Answer 85

* Redshift Spectrum * Parameter Groups * Workload Management * AWS Partner integration * Maintenance windows / version tracks

Answer 86

Must access within a VPC

Answer 87

* Monitoring views * CloudWatch Logs * Cloudwatch metrics

Answer 88

* SYS_QUERY_HISTORY * SYS_LOAD_HISTORY * SYS_SERVERLESS_USAGE * …and many more

Answer 89

* Connection & user logs enabled by default * Optional user activity log data * Under /aws/redshift/serverless/

Answer 90

*QueriesCompletedPerSecond, QueryDuration, QueriesRunning,etc. * Dimensions: DatabaseName, latency (short/medium/long), QueryType, stage

Answer 91

* Hosted relational database * Amazon Aurora * MySQL * PostgreSQL * MariaDB * Oracle * SQL Server * Not for “big data” * Might appear on exam as an example of what not to use * Or in the context of migrating from RDS to Redshift et

Answer 92

* Atomicity * Consistency * Isolation * Durability

Answer 93

* MySQL and PostgreSQL – compatible * Up to 5X faster than MySQL, 3X faster than PostgreSQL * 1/10 the cost of commercial databases * Up to 64TB per database instance * Up to 15 read replicas * Continuous backup to S3 * Replication across availability zones * Automatic scaling with Aurora Serverless

Answer 94

* VPC network isolation * At-rest with KMS * Data, backup, snapshots, and replicas can be encrypted * In-transit with SSL

Answer 95

* Serviço de consulta interativa para S3 (SQL) * Não há necessidade de carregar dados, fica em S3 * Presto sob o capô * Sem servidor! * Suporta muitos formatos de dados * CSV (legível por humanos) * JSON (legível por humanos) * ORC (colunar, divisível) * Parquet (colunar, divisível) * Avro (divisível) * Não estruturado, semiestruturado ou estruturado

Answer 96

* Consultas ad hoc de logs da web * Consultar dados de preparação antes de carregar no Redshift * Analisar logs CloudTrail / CloudFront / VPC / ELB etc no S3 * Integração com notebooks Jupyter, Zeppelin, RStudio * Integração com QuickSight * Integração via ODBC / JDBC com outras ferramentas de visualização

Answer 97

* Pode organizar usuários/equipes/aplicativos/cargas de trabalho em grupos de trabalho * Pode controlar o acesso à consulta e acompanhar os custos por grupo de trabalho * Integra-se com IAM, CloudWatch, SNS

Answer 98

* Histórico de consultas * Limites de dados (você pode limitar a quantidade de dados que as consultas podem verificar por grupo de trabalho) * Políticas de IAM * Configurações de criptografia

Answer 99

* US$ 5 por TB digitalizado * Consultas bem-sucedidas ou canceladas contam, as consultas com falha não. * Sem custo para DDL (CRIAR/ALTER/SOLTAR etc.)

Answer 100

* Economize MUITO dinheiro usando formatos colunares * ORC, Parquet * Economize 30-90% e obtenha melhor desempenho * Glue e S3 têm suas próprias cargas

Answer 101

* Controle de acesso * IAM, ACLs, políticas de bucket S3 * AmazonAthenaFullAccess / AWSQuicksightAthenaAccess * Criptografar resultados em repouso no diretório de preparação do S3 * Criptografia do lado do servidor com chave gerenciada pelo S3 (SSE-S3) * Criptografia do lado do servidor com chave KMS (SSE-KMS) * Criptografia do lado do cliente com chave KMS (CSE-KMS) * Acesso entre contas na política de bucket S3 possível * Transport Layer Security (TLS) criptografa em trânsito (entre Athena e S3)

Answer 102

* É para isso que serve o QuickSight

Answer 103

Utilize o Glue ao invés do Athena

Answer 104

* Use dados colunares (ORC, Parquet) * Um pequeno número de arquivos grandes funciona melhor do que um grande número de arquivos pequenos * Usar partições

Answer 105

* Desenvolvido por Apache Iceberg * Basta adicionar 'table_type' = 'ICEBERG' em seu CREATE comando TABLE * Os usuários simultâneos podem fazer com segurança no nível da linha modificações * Compatível com EMR, Spark, qualquer coisa que suporta formato de tabela Iceberg. * Remove a necessidade de bloqueio de registro personalizado * Operações de viagem no tempo * Recuperar dados excluídos recentemente com uma instrução SELECT * Lembra das tabelas regidas em Lake Formation? Esta é outra maneira de obter recursos ACID em Atena. * Benefícios da compactação periódica para preservar desempenho

Answer 106

* Serviço de armazenamento de dados em escala de petabytes totalmente gerenciado * Desempenho 10 vezes melhor do que outros DWs * Por meio de aprendizado de máquina, execução de consultas massivamente paralelas, armazenamento colunar * Projetado para OLAP, não OLTP * Custo-beneficio * Interfaces SQL, ODBC, JDBC * Ampliar ou reduzir sob demanda * Replicação e backups integrados * Monitoramento via CloudWatch / CloudTrail

Answer 107

* Acelere as cargas de trabalho analíticas * Data warehouse e data lake unificados * Modernização do data warehouse * Analisar dados de vendas globais * Armazenar dados históricos de negociação de ações * Analisar impressões e cliques de anúncios * Dados de jogos agregados * Analisar tendência social

Answer 108

* Consultar exabytes de dados não estruturados no S3 sem carregar * Simultaneidade ilimitada * Escala horizontal * Armazenamento separado e recursos de computação * Grande variedade de formatos de dados * Suporte de compactação Gzip e Snappy

Answer 109

* Processamento Massivamente Paralelo (MPP) * Armazenamento de dados em colunas * Compressão de coluna

Answer 110

* Replicação dentro do cluster * Backup para S3 * Replicado de forma assíncrona para outra região * Instantâneos automatizados * Unidades/nós com falha substituídos automaticamente * No entanto - limitado a uma única zona de disponibilidade (AZ)

Answer 111

* Dimensionamento vertical e horizontal sob demanda * Durante o dimensionamento: * Um novo cluster é criado enquanto o antigo permanece disponível para lê * CNAME é invertido para o novo cluster (alguns minutos de inatividade) * Dados movidos em paralelo para novos nós de computação

Answer 112

AUTO, EVEN, KEY, ALL (AEKA)

Answer 113

Redshift descobre com base no tamanho dos dados

Answer 114

Linhas distribuídas em fatias em round-robin

Answer 115

Linhas distribuídas com base em uma coluna

Answer 116

A tabela inteira é copiada para cada nó

Answer 117

Técnica de otimização que permite melhorar o desempenho de consultas em tabelas grandes.

Answer 118

* As linhas são armazenadas no disco em ordem de classificação com base na coluna que você designar como uma chave de classificação * Como um índice * Faz consultas de alcance rápido * Escolhendo uma chave de classificação * Recência? Filtros? Joins? * Chaves de classificação simples x compostas x intercaladas

Answer 119

* Comando COPY * Paralelizado; eficiente * Origem S3, EMR, DynamoDB, hosts remotos * S3 requer um arquivo de manifesto e uma função IAM * comando UNLOAD * Descarregar de uma tabela em arquivos no S3 * Roteamento de VPC aprimorado

Answer 120

* Use INSERT INTO …SELECT * Ou CREATE TABLE AS

Answer 121

Através de SSL acelerado por hardware usado para mantê-lo rápido

Answer 122

Analisa os dados que estão sendo carregados e descobre o esquema de compactação ideal para armazená-los.

Answer 123

* Carregue com uma única transação COPY, se possível * Caso contrário, as colunas de metadados ocultas consomem muito espaço

Answer 124

* Digamos que você tenha um cluster Redshift criptografado por KMS e um instantâneo disso * Você deseja copiar esse instantâneo para outra região para backup * Na região de destino da AWS: * Crie uma chave KMS se ainda não tiver uma * Especifique um nome exclusivo para sua concessão de cópia de instantâneo * Especifique o ID da chave KMS para o qual você está criando a concessão de cópia * Na região de origem da AWS: * Ative a cópia de instantâneos para a concessão de cópia que você acabou de criar

Answer 125

Extensão disponível no PostgreSQL usada como base para o Redshift. No caso do Redshift a extensão dblink permite que os usuários se conectem ao PostgreSQL e realizem consulta entre eles.

Answer 126

* S3 * DynamoDB * EMR / EC2 * Pipeline de Dados * Serviço de migração de banco de dados

Answer 127

* Priorize consultas curtas e rápidas em vez de consultas longas e lentas * Filas de consulta * Via console, CLI ou AP

Answer 128

* Adiciona automaticamente a capacidade do cluster para lidar com o aumento nas consultas de leitura simultâneas * Oferece suporte a consultas e usuários simultâneos virtualmente ilimitados * Filas WLM gerenciam quais consultas são enviadas para o cluster de dimensionamento de simultaneidade

Answer 129

* Cria até 8 filas * 5 filas padrão com alocação de memória uniforme * Grandes consultas (ou seja, grandes hash joins) -> simultaneidade reduzida * Pequenas consultas (ou seja, inserções, verificações, agregações) -> simultaneidade levantada * Configuração de filas de consulta * Prioridade * Modo de escalonamento de simultaneidade * Grupos de usuários * Grupos de consulta * Regras de monitoramento de consultas

Answer 130

* Uma fila padrão com nível de simultaneidade de 5 (5 consultas em uma vez) * Fila de superusuário com nível de simultaneidade 1 * Defina até 8 filas, até nível de simultaneidade 50 * Cada um pode ter definido o modo de escalonamento de simultaneidade, nível de simultaneidade, grupos de usuários, grupos de consulta, memória, tempo limite, regras de monitoramento de consulta * Também pode ativar o salto na fila de consultas * As consultas com tempo limite "pulam" para a próxima fila para tentar novamente

Answer 131

* Priorizar consultas de execução curta sobre as de execução mais longa * Consultas curtas são executadas em um espaço dedicado, não esperam na fila por trás de consultas longas * Pode ser usado no lugar de filas WLM para consultas curtas * Funciona com: * CRIAR TABELA COMO (CTAS) * Consultas somente leitura (declarações SELECT) * Usa aprendizado de máquina para prever o tempo de execução de uma consulta * Pode configurar quantos segundos é “curto”

Answer 132

* Adicione ou remova rapidamente nós do mesmo tipo * (Ele *pode* alterar os tipos de nó, mas não sem eliminar as conexões - cria um cluster totalmente novo) * O cluster está inativo por alguns minutos * Tenta manter as conexões abertas durante o tempo de inatividade * Limitado a dobrar ou reduzir pela metade para alguns tipos de nó dc2 e ra3.

Answer 133

* Alterar tipo de nó e/ou número de nós * O cluster é somente leitura por horas a dias

Answer 134

* Usado para manter o cluster disponível durante um redimensionamento clássico * Copie o cluster, redimensione o novo cluster

Answer 135

* Recupera espaço excluído de linhas * VACUUM FULL * VACUUM DELETE ONLY * VACUUM SORT ONLY * VACUUM REINDEX

Answer 136

* Habilite o escalonamento independente de computação e armazenamento * baseado em SSD

Answer 137

* Descarregue a consulta Redshift para S3 no formato Apache Parquet * Parquet é 2x mais rápido para descarregar e consome até 6X menos armazenamento * Compatível com Redshift Spectrum, Athena, EMR, SageMaker * Particionado automaticamente

Answer 138

GEOMETRY, GEOGRAPHY

Answer 139

* Compartilhe dados ao vivo em clusters Redshift sem copiar * Requer novo tipo de nó RA3 * Seguro, entre regiões e entre contas

Answer 140

* Acelerador de Consulta Avançado * Disponível em ra3.4xl, ra3.16xl * Aproxima as consultas de redução e agregação dos dados * Até 10X mais rápido, sem custo extra, sem alterações de código. * Também se beneficia da conexão de alta largura de banda para S3 * Tudo o que você precisa fazer é ativá-lo na configuração do cluster (ao usar os tipos de nó suportados)

Answer 141

* Pequenos conjuntos de dados * Em vez disso, use RDS * OLTP * Em vez disso, use RDS ou DynamoDB * Dados não estruturados * ETL primeiro com EMR etc. * Dados BLOB * Armazene referências a grandes arquivos binários no S3, não os próprios arquivos

Answer 142

* Usando um Módulo de Segurança de Hardware (HSM) * Deve usar um certificado de cliente e servidor para configurar um confiável conexão entre o Redshift e o HSM * Ao migrar um cluster não criptografado para um cluster criptografado por HSM, você deve criar o novo cluster criptografado e, em seguida, mover os dados para ele. * Definição de privilégios de acesso para usuário ou grupo * Use os comandos GRANT ou REVOKE no SQL * Exemplo: conceder select na tabela foo to bob;

Answer 143

* Dimensionamento e provisionamento automáticos para sua carga de trabalho * Otimiza custos e desempenho * Pague apenas quando estiver em uso * Usa ML para manter o desempenho em cargas de trabalho variáveis e esporádicas * Fácil rotação de desenvolvimento e teste ambientes * Anúncio fácil - análise de negócios hoc * Você recebe de volta um endpoint sem servidor, conexão JDBC/ODBC, ou apenas consultar através do editor de consultas do console.

Answer 144

* Precisa de uma função IAM com esta política * Defina seu * Nome do banco de dados * Credenciais do usuário administrador * VPC * Configurações de criptografia * KMS de propriedade da AWS por padrão * Log de auditoria * Pode gerenciar instantâneos e pontos de recuperação após a criação

Answer 145

* Capacidade medida em Redshift Unidades de processamento (RPUs) * Você paga por RPU-hora (por segundo) mais armazenamento * RPUs base * Você pode ajustar a capacidade de base * O padrão é AUTO * Mas você pode ajustar de 32-512 RPUs para melhorar o desempenho da consulta * Max RPU's * Pode definir um limite de uso para controlar os custos * Ou aumente-o para melhorar o rendimento

Answer 146

* Redshift Spectrum * Grupos de Parâmetros * Gerenciamento de carga de trabalho * Integração de parceiros da AWS * Janelas de manutenção / faixas de versão

Answer 147

* Sem endpoints públicos (ainda) * Deve acessar dentro de uma VPC

Answer 148

SYS_QUERY_HISTORY SYS_LOAD_HISTORY SYS_SERVERLESS_USAGE …e muito mais

Answer 149

* Registros de conexão e usuário ativados por padrão * Dados opcionais de log de atividades do usuário * Em /aws/redshift/sem servidor/

Answer 150

QueriesCompletedPerSecond, QueryDuration, QueriesRunning, etc. * Dimensões: DatabaseName, latência (curta/média/longa), QueryType, stage

Answer 151

* Banco de dados relacional hospedado * Aurora Amazônica * MySQL * PostgreSQL * MariaDB * Oráculo * Servidor SQL * Não para “big data” * Pode aparecer no exame como um exemplo do que não usar * Ou no contexto da migração de RDS para Redshift, etc.

Answer 152

* Os bancos de dados RDS oferecem total Conformidade ACID * Atomicidade * Consistência * Isolamento * Durabilidade

Answer 153

* MySQL e PostgreSQL – compatível * Até 5 vezes mais rápido que o MySQL, 3 vezes mais rápido que o PostgreSQL * 1/10 do custo de bancos de dados comerciais * Até 64 TB por instância de banco de dados * Até 15 réplicas de leitura * Backup contínuo para S3 * Replicação entre zonas de disponibilidade * Dimensionamento automático com Aurora Serverless

Answer 154

* Isolamento de rede VPC * Em repouso com KMS * Dados, backup, snapshots e réplicas podem ser criptografados * Em trânsito com SSL

Analysis Flashcards

(180 cards)