Big Data - BI Flashcards

Question

Data warehouse é um repositório de dados dinâmico, que sofre alterações frequentes, de modo a permitir que sejam feitas consultas em base de dados constantemente atualizada

Answer 1

Errado. Os dados em um Data Warehouse não são voláteis, ou seja, eles não mudam, salvo quando é necessário fazer correções de dados previamente carregados. No ambiente operacional, ao contrário, os dados sofrem alterações frequentes, pois são, em geral, atualizados registro a registro, em múltiplas transações.

Answer 2

Certo. Data Mining é a etapa do KDD (Knowledge Discovery in Databases - Descoberta de Conhecimento em Bases de Dados) em que os dados preparados são processados, ou seja, é onde se faz a mineração dos dados propriamente dita. Nesse contexto, são aplicadas técnicas para identificação de padrões sobre os dados disponíveis. Esse processo tem o intuito de trabalhar os dados registrados ao longo do tempo de vida de um negócio a fim de se identificar padrões que representam alguma informação sobre o comportamento do negócio. KDD 1. Seleção dos dados 2. Pré-processamento e limpeza dos dados alvo 3. Transformação dos dados pré-processados 4. Mineração dos dados transformados 5. Interpretação e avaliação dos padrões 6. Conhecimento (relatórios, etc)

Answer 3

Errado. A mineração de dados (Data Mining) pode ser utilizada para encontrar novos padrões, visando: * Predição: o sistema encontra padrões para predizer (prever) o comportamento futuro de algumas entidades; * Descrição: o sistema encontra padrões relevantes sobre os dados, em uma forma compreensível para o usuário. A mineração de dados envolve o ajuste de modelos aos dados observados ou a determinação de padrões a partir destes dados. Os modelos ajustados fazem o papel do conhecimento inferido, sobre o qual o julgamento humano subjetivo é exigido na verificação se os modelos refletem conhecimento útil ou interessante.

Answer 4

Errado. O Data Warehouse é um conjunto de dados orientado por assuntos, não volátil, variável com o tempo e integrado, criado para dar suporte à decisão. Data Marts são subconjuntos de dados de um Data Warehouse. E, por fim, é o Data Mining (Mineração de Dados) o processo de identificar informações relevantes, tais como padrões, associações, mudanças, anomalias e estruturas, em grandes conglomerados de dados que estejam em banco de dados ou outros repositórios de informações.

Answer 5

Errado. Segundo Bill Inmon (1997), um data warehouse é uma coleção de dados orientada a assuntos, integrada, não volátil e variante ao longo do tempo, para suporte à tomada de decisão. Deve-se definir o nível de segurança a ser implementado no DW, de modo a que se permita o acesso devido aos usuários autorizados

Answer 6

Letra A. ETL, vem do inglês Extract Transform Load, ou seja, Extração Transformação Carga. O ETL visa trabalhar com toda a parte de extração de dados de fontes externas, transformação para atender às necessidades de negócios e carga dos dados dentro do Data Warehouse. Os projetos de Data Warehouse consolidam dados de diferentes fontes. A maioria dessas fontes tendem a ser bancos de dados relacionais ou flat files, mas podem existir outros tipos de fontes também. Um sistema ETL precisa ser capaz de se comunicar com bases de dados e ler diversos formatos de arquivos utilizados por toda a organização. E para que seja possível entender as etapas do processo de ETL faz-se necessário a compressão de seus componentes: - Extração: é a coleta de dados dos sistemas de origem (também chamados Data Sources ou sistemas operacionais), extraindo-os e transferindo-os para o ambiente de DW, onde o sistema de ETL pode operar independente dos sistemas operacionais; - Limpeza, Ajustes e Consolidação (ou também chamada transformação): é nesta etapa que realizamos os devidos ajustes, podendo assim melhorar a qualidade dos dados e consolidar dados de duas ou mais fontes. O estágio de transformação aplica uma série de regras ou funções aos dados extraídos para ajustar os dados a serem carregados. Algumas fontes de dados necessitarão de muito pouca manipulação de dados. Em outros casos, pode ser necessário trabalhar algumas transformações, como por exemplo, junção de dados provenientes de diversas fontes, seleção de apenas determinadas colunas e tradução de valores codificados (se o sistema de origem armazena 1 para sexo masculino e 2 para feminino, mas o Data Warehouse armazena M para masculino e F para feminino, por exemplo); - Entrega ou Carga dos dados: consiste em fisicamente estruturar e carregar os dados para dentro da camada de apresentação seguindo o modelo dimensional. Dependendo das necessidades da organização, este processo varia amplamente. Alguns Data Warehouses podem substituir as informações existentes semanalmente, com dados cumulativos e atualizados, ao passo que outro DW (ou até mesmo outras partes do mesmo DW) podem adicionar dados a cada hora. A latência e o alcance de reposição ou acréscimo constituem opções de projeto estratégicas que dependem do tempo disponível e das necessidades de negócios; - A parte de Gerenciamento é composta por serviços para auxiliar no gerenciamento do DataWarehouse. Aqui nós temos tasks específicas para gerenciamento de jobs, planos de backup, verificação de itens de segurança e compliance.

Answer 7

Letra A. a) Certa. Um Data Warehouse (Armazém ou Depósito de Dados) é um sistema utilizado para armazenar informações consolidadas de um banco de dados, possibilitando a análise de grandes volumes de dados, coletados a partir de sistemas transacionais (OLTP). b) Errada. Define-se Gestão do Conhecimento como a busca da melhoria de desempenho das instituições por meio de processos de procura, extração, compartilhamento e criação de conhecimento, aplicando diferentes ferramentas e tecnologias de informação e de comunicação. c) Errada. Define-se Business intelligence (Inteligência de negócios – BI) como o processo de coleta, estruturação, avaliação, disponibilização e monitoramento de informações para suporte ao gerenciamento de negócios. d) Errada. Etapa do processo de Descoberta de Conhecimento em Bases de Dados (KDD – Knowledge Discovery in Databases) que corresponde à execução de um algoritmo particular que, sob algumas limitações aceitáveis de eficiência computacional, encontra padrões ou modelos nos dados. e) Errada. OLAP (On-line Analytical Processing - Processamento Analítico On-Line) é o processo de manipulação e avaliação de um grande volume de dados sob múltiplas aspectos. A seguir mais algumas observações que merecem destaque neste momento. No contexto das tecnologias relacionadas ao Business intelligence, duas aplicações são identificadas e muito cobradas em provas: * a primeira, que sustenta o negócio por meio de ferramentas OLTP (On Line Transaction Processing); e * a segunda, que analisa o negócio por meio de ferramentas OLAP (On Line Analytical Processing).

Answer 8

Errado. Quanto mais detalhe, mais baixo o nível de granularidade. Quanto menos detalhe, mais alto o nível de granularidade. destaca que existe a possibilidade de utilizar um nível duplo de granularidade (níveis duais de granularidade). Esta técnica se enquadra nos requisitos da maioria das empresas. São criadas duas camadas: uma camada para os dados levemente resumidos e outra para os dados históricos. Com a criação de dois níveis de granularidade, é possível atender a todos os tipos de consultas, com um melhor desempenho, visto que a maior parte do processamento analítico se dirige aos dados levemente resumidos que são compactos e de fácil acesso e para as ocasiões em que um maior nível de detalhe deve ser analisado, existe o nível de dados históricos, o qual é complexo e de alto custo (INMON, 1997).

Answer 9

Errado. Conceito de DW

Answer 10

Errado. A primeira parte da questão, descrita como: “dados para a formação de Data Warehouses podem ser provenientes de e-mails, conversas de telefone, documentos, planilhas”, está correta! Conforme destaca Heuseler (2010), dados não-estruturados podem ser incorporados ao processo de Data Warehousing. “No processo de obtenção de e-mails, por exemplo, devem-se separar os conteúdos trocados em razão de simples conversas entre amigos daqueles que tratam de temas que sejam realmente de interesse da corporação. Além de sua relevância, é importante determinar qual o conteúdo deste texto, ou seja, dar significado a este para que a análise possa ganhar em riqueza. Nota-se claramente que a grande preocupação neste momento de obtenção dos dados é o do tratamento do conteúdo adquirido, de maneira a tornar este significativo para análises”. Para “entender” estes textos, existem duas abordagens a serem consideradas: linguística e temática: - A abordagem linguística trata o texto de acordo com a língua na qual ele está escrito, sendo sua utilização muito complexa e pouco flexível (uma análise deve ser feita para cada língua). - A abordagem temática, destacada na questão, utiliza a análise de strings de caracteres para classificar o texto em determinadas categorias, que são definidas previamente de acordo com o objetivo da empresa.

Answer 11

Letra A. a) Errada. Um dos maiores perigos na implementação de um DW (Data Warehouse) é a criação de DMs (Data Marts) independentes. O advento de ferramentas de drag-and-drop facilitou o desenvolvimento de soluções individuais, de acordo com as necessidades da empresa. Estas soluções podem não considerar a arquitetura de forma global. Assim, os DMs independentes transformam-se em DMs legados, ou legamarts, que dificultam, quando não inviabilizam futuras integrações. Eles são parte do problema e não da solução! b) Errada. A estratégia adotada na questão é conhecida como Bottom Up pois considera que um DW pode ser composto a partir de DMs (Data Marts) previamente desenvolvidos. Na estratégia conhecida como Top Down todo o DW (Data Warehouse) estará construído para então disponibilizar os DMs (Data Marts), ou seja, parte-se de uma visão geral de alto nível para uma visão mais detalhada. Em outras palavras, nesse contexto é realizada a modelagem integral do DW, seguida pelas extrações de dados. Considera que se deve desenvolver um DW completo e centralizado antes que partes dele, sumarizadas, possam ser derivadas na forma de DMs. A principal vantagem é a criação de um modelo único. O revés fica por conta do maior tempo de projeto. c) Errada. A estratégia adotada na questão, conhecida como Bottom Up, possui uma estrutura que já pode ser utilizada pela empresa antes de se finalizar a construção completa do DW. Assim, Bottom Up permite um retorno de investimento a curto prazo, mais rápido, quando comparado à estratégia Top Down. d) Errada. A estratégia Top down tem como objetivo a construção de um sistema OLAP incremental a partir de DMs independentes. Nesse caso, o DW abastece os DMs que abastecem OLAP. Na estratégia Bottom Up, os DMs abastecem o DW e OLAP. e) Certa. No que se refere ao método de construção de Data Warehouse conhecido como Bottom- up, destacado na questão, tem-se que o foco é em uma área por vez, com o crescimento gradual do DW (Data Warehouse). Considera que um DW possa ser composto a partir de DMs (Data Marts) previamente desenvolvidos. A vantagem é a obtenção de resultados a intervalos mais curtos, garantindo muitas vezes sustentação ao projeto. A desvantagem é a maior dificuldade de se consolidar informações entre as diversas áreas, não garantindo a padronização dos metadados, e podendo criar inconsistências de dados entre os DMs.