ICD Flashcards
Pirâmide do conhecimento: D-I-C-I-S
- Dado: registros factuais (sozinhos não tem significado)
- Informação: interpretação dos dados (contextualização)
- Conhecimento: organização e compreensão das informações
- Inteligência: conhecimento tratado
- Sabedoria: resultado alcançado a partir da análise dos diferentes cenários
Arquitetura Cliente-Servidor: A-A-D
Organizada em 3 camadas (computação lógica e física): cada camada é independente e pode ser desenvolvida simultaneamente sem impactar as outras camadas.
* Apresentação: interface com usuário
* Aplicativo: onde os dados são processados
* Dados: onde os dados são armazenados
Ciência de Dados
ciência que combina diversos campos multidisciplinares (computação, estatística, mat. aplicada etc) para realizar coleta, preparação e análise de dados de diversas fontes com o intuito de resolver problemas complexos.
Big Data
conjunto de dados com grande variedade, que chegam em volume e velocidade crescente.
5V do big data
- Volume: grande quantidade de dados não estruturados
o Aumenta com: + dispositivos móveis, poder de processamento, internet das coisas
o Diminui com: custo de armazenamento em disco rígido - Velocidade: dados são recebidos muito rapidamente
- Variedade: provindos de diversas fontes (estruturados ou não)
- Veracidade: garantia de autenticidade
- Valor: informações analisadas geram resultado
Big Data X Data Science
- Big Data: alto volume de dados que são produzidos a todo momento, em grande velocidade e variedade, que não pode ser processados por bancos de dados tradicionais. Relacionado à tecnologia, ambiente computacional.
- Data Science: ciência que estuda o big data, extraindo o valor dos dados, identificando padrões e desenvolvendo métodos de análise para o uso em solução de problemas. Relacionado à criação de modelos capazes de extrair padrões de dados.
- Inteligência Artificial
mais abrangente; criação de máquinas inteligentes para reconhecer objetos, vozes, faces, que raciocinam e solucionem problemas (especialmente os repetitivos). Isso é possível a partir de uma programação prévia, que vai apresentar características para as máquinas, inserindo informações abundantes relacionadas ao mundo.
- Machine Learning
segunda etapa da IA; o sistema começa a aprender sozinho a partir do que os humanos definiram como certo e errado, solucionando problemas de forma autônoma.
- Redes Neurais
subcampo do machine learning; simula um neurônio no computador; sistemas compostos por várias entradas, que aprendem por meio da atualização e ampliação dessas conexões.
- Deep Learning
sistema composto por algoritmos inspirados no cérebro humano, que aprende com uma grande quantidade de dados, executando uma tarefa repetidamente, se ajustando a cada tentativa, melhorando seus resultados com mais dados e modelos maiores. Se organizam em camadas abaixo da rede neural artificial.
Deep Learning é subconjunto das redes neurais.
Ambiente operacional
OLTP: (Processamento de Transações Online) e OLAP: (Processamento Analítico Online)
OLAP: (Processamento Analítico Online)
tipo de processamento de dados que envolve a consulta dessas transações (registros) em um banco de dados. Ajuda as empresas a extrair análise dos dados para tomada de decisão; onde são realizadas as consultas gerenciais; é utilizado no Data Mart e no Data Warehouse; nível estratégico.
OLTP: (Processamento de Transações Online)
tipo de processamento de dados de várias transações que ocorrem simultaneamente; permite a execução em tempo real de um grande número de transações por um grande número de pessoas; onde são feitas as inclusões e exclusões dos dados; nível operacional.
Etapas típicas de desenvolvimento de um sistema de informação: L – A – P – I – T – I
Levantamento de requisitos, análise, projeto, implementação, testes, implantação
Levantamento de Requisitos
levantamento de todos os problemas, solicitações e restrições operacionais do usuário final e as regras de negócio.
Análise
Processo de mapear os requisitos essenciais do sistema. (nível conceitual)
Projeto
Mapear os requisitos da análise e os tecnológicos, definir as soluções físicas do sistema (linguagem, plataforma, estrutura, interface, design) e montar um protótipo para validação dos usuários. (nível lógico)
Implementação
Executar o projeto, desde a normatização e implementação do banco de dados, codificação do sistema e a integração com outros sistemas.
Testes
Verificação e validação do sistema em um ambiente de testes, com os dados reais.
Implantação
Após aprovado nos testes, ocorre a implantação do sistema no ambiente de produção, confecção dos manuais e treinamento dos usuários.
Problema mais comum na criação de um sistema
o usuário não sabe exatamente o que quer, tendo dificuldade de passar os requisitos corretos no início do projeto. Novas demandas do usuário vão surgindo no decorrer do processo (usuário insaciável), sendo necessário alterar todo o projeto, implicando um aumento considerável dos gastos, devido a perda de tempo, recursos humanos e investimentos.
Nível de abstração para desenvolvimento de um sistema de informação: C – L – F
Nível conceitual, nível lógico e nível físico
- Nível Conceitual
Nível de abstração no qual não se consideram os requisitos tecnológicos (levantamento de requisitos e a análise estão nesse nível); nível de visão pelos usuários; não sabem como os dados são armazenados.
- Nível Lógico
Nível de abstração no qual começam a ser considerados os requisitos tecnológicos; quais dados estão gerenciados no banco de dados.
- Nível Físico
Nível de abstração no qual devem ser considerados todos os requisitos tecnológicos; descreve como os dados são realmente armazenados; detalhes complexos da estrutura.
Visão tridimensional de Sistema de Informação: D – P - E
- Dados: se preocupa com os requisitos estruturais do sistema
- Processos: se preocupa com as funções do sistema
- Eventos: preocupa com os requisitos temporais e mensagens do sistema
Business Intelligence
conjunto de técnicas para auxiliar na transformação de dados brutos (grandes quantidades) em informações significativas a fim de analisar o negócio. Refere-se ao processo de coleta, organização e análise dessas informações que oferecem suporte à gestão do negócio. (dados estruturados e desestruturados)
Knowledge Discovery Database (KDD)
“Descoberta de Conhecimento em Base de Dados”: processo de transformação de dados em conhecimento. Objetivo do KDD: descobrir conhecimento útil, válido, relevante e novo sobre uma determinada atividade, através de algoritmos, tendo em conta as ordens de magnitude crescente nos dados.
Data mining
conjunto de ferramentas que, através do uso de algoritmos, são capazes de explorar grandes bases de dados de modo a identificar padrões potencialmente úteis para prever resultados.
Técnicas de mineração de dados: A – C – A – P
- Associações: quando um evento pode ser correlacionado com outro
- Classificação: reconhecimento de padrões que resultam em nova classificação de dados
- Agrupamento: encontrar grupos ou fatos que não eram previamente conhecidos
- Previsão: descobrir padrões que podem conduzir a previsões sobre o futuro
Tarefas de mineração de dados: A – C – E – C
- Associação: descreve tendências ou padrões revelados pelos dados, oferecendo uma interpretação, como a influência de certa variável ao resultado.
- Classificação: utilizando as classificações dos dados existentes, define regras para a classificação de um novo registro; a qual classe determinado registro pertence (valor categórico)
- Estimação: estabelecimento de uma função que mais se ajusta ao comportamento de variáveis dependentes, sendo possível prever um valor futuro a partir de dados históricos de uma base de dados. (valor numérico)
- Clusterização: utilizada para aproximar registros similares, porém não necessitam estar previamente classificados. (cluster = registros semelhantes entre si)
Modelagem dimensional
modelagem de projeto lógico de banco de dados usada para Data Warehouses ou Data Mart (ambiente OLAP), que contrasta com a modelagem entidade-relacionamento.
2 requisitos fundamentais para o sucesso de um ambiente OLAP:
- Simplicidade na organização dos dados, permitindo seu fácil entendimento por usuários finais;
- Bom desempenho na geração de consultas e relatórios de apoio nos processos decisórios, pela redução significativa de operações de junções de dados.
Diagrama Estrela
modelo dimensional de um negócio, em que cada face representa uma dimensão ou perspectiva de interesse do negócio e o seu núcleo contém medidas tomadas na interseção das faces; adotada por Data Warehouse
Visão multidimensional: F – M – U – D
- Facilita o entendimento e visualização de problemas típicos de suporte à decisão
- Mais intuitiva para o processamento analítico
- Utilizada pelas ferramentas OLAP
- Diferença da visão multidimensional para a visão tabular do ambiente relacional: enquanto a estrutura relacional é uma visão tabular (tabela), a visão multidimensional representa o cubo. É uma representação intuitiva do evento, porque todas as dimensões coexistem para todo ponto no cubo e são independentes umas das outras.
Processo de análise de dados: E – C – P – M – A – U
- Entendimento do negócio: definidas as perguntas, o objetivo da análise de dados e o plano a ser seguido;
- Compreensão dos dados: coletar e explorar os dados, aumentando a compreensão sobre sua estrutura, atributos e contexto;
- Preparação dos dados: processo de limpeza, filtragem, estruturação, redução e integração dos dados;
- Modelagem dos dados: seleção dos dados, definição e construção do modelo;
- Avaliação do modelo: os resultados são avaliados, para verificar se a precisão obtida está satisfatória e coesa;
- Utilização do modelo: após serem validados, os resultados dos modelos são utilizados e monitorados.
Tarefas do Machine Learning
- Aprendizado supervisionado - São apresentadas ao computador exemplos de entradas e saídas desejadas, fornecidas por um “professor”. (resultados pré-definidos)
- Aprendizado não-supervisionado - Não existem resultados pré-definidos para o modelo utilizar de referência; o modelo irá identificar sozinho padrões para criar uma estrutura de referência.
- Aprendizado por reforço - O programa interage com um ambiente dinâmico, em que o modelo deve desempenhar determinado objetivo; é fornecido feedback quanto às recompensas e punições, na medida em que é navegado o espaço do problema.
Algoritmos (técnicas) de Machine Learning
- Classificação: - Aprendizado supervisionado - Discreto - Atribui uma classe para uma nova observação a partir de características de observações passadas. ex: Regressão Logística, Árvore de decisão.
- Regressão - Aprendizado supervisionado - Contínuo - Usado para estimar o valor de algo baseado em uma série de dados históricos. ex: Regressão linear simples, Regressão linear múltipla
- Agrupamento/Clusterização: - Aprendizado não-supervisionado - Discreto - Algoritmo agrupa os dados em um conjunto baseado em padrões e características em comum identificados de forma autônoma
- Associação - Aprendizado não-supervisionado - Obter regras que buscam associação entre os dados, busca elementos que ocorrem simultaneamente dentro de um conjunto
- Redução da dimensionalidade - Aprendizado não-supervisionado - Contínuo - Seleciona as melhores variáveis que serão inseridas em um modelo de teste para reduzir o tempo de treino, reduzir os erros de previsão e otimizar todo o processo
Dados de treino X Dados de teste
- Dados de treino: apresentados ao algoritmo de machine learning para criação do modelo.
- Dados de teste: são os dados que serão apresentados ao modelo após a sua criação, simulando previsões reais que o modelo realizará, permitindo que o desempenho real seja verificado.
Matriz de confusão
tabela que permite extrair métricas que auxiliam na avaliação de modelos de machine learning para classificação — quando a variável resposta é categórica; permite a visualização do desempenho de um algoritmo de classificação.
- Verdadeiro positivo (VP): no conjunto real, a classe que buscamos foi prevista corretamente.
- Falso positivo (FP): no conjunto real, a classe que buscamos foi prevista incorretamente.
- Falso verdadeiro (FN): no conjunto real, a classe que não buscamos foi prevista corretamente.
- Falso negativo (FN): no conjunto real, a classe que não buscamos foi prevista incorretamente.