Estatística multivariada Flashcards
Como se dá a organização de dados na estatística multivariada?
Considerar os dados na forma de arrays facilita a exposição do assunto
matéria e permite que cálculos numéricos sejam realizados de forma ordenada e eficiente maneiras. A eficiência é dupla, pois os ganhos são alcançados em ambos (1) descrever cálculos como operações em matrizes e (2) a implementação dos cálculos em computadores, que agora usam muitas linguagens e pacotes estatísticos para realizar operações de array.
Quais são as principais medidas avaliadas na estatística descritiva básica?
.
Qual a principal propriedade da correlação?
Como é calculada a covariância amostral?
Como é calculada a correlação amostral?
Quais são as matrizes básicas da estatística descritiva?
Qual é a base da maioria das técnicas multivariadas?
A maioria das técnicas multivariadas é baseada no conceito simples de distância, especificamente a distância em linha reta ou distância Euclidiana.
Qual a diferença entre a distância euclidiania e a distância estatística?
A distância euclidiania, que vem do teorema de piágoras, sendo uma linha reta entre dois pontos calculado por:
d²(O, P)=x1²+x2²+…+xp²=c² (partindo da origem). Ou, entre dois pontos que não partam da origem:
d²(x, y)=(x1-y1)²+(x2-y20²+…+(xp-yp)²=c².
a distância estatística diferencia pois calcula a distância entre varições e, oportunamente, a presença de correlação.
Por que a distância euclidiana pode não ser adequada para todos os propósitos estatísticos?
Ela não leva em consideração a correlação entre as variáveis nem a variabilidade diferencial entre elas.
O que é a distância estatística e como ela difere da distância euclidiana?
A distância Euclidiana é insatisfatória para fins estatísticos porque cada coordenada contribui igualmente para o cálculo da distância, sem considerar as variações de magnitude que podem estar sujeitas a flutuações aleatórias.
Por que é desenvolvida a “distância estatística” na análise multivariada?
Ela é pondera coordenadas com base em sua variabilidade.
Como a distância estatística difere da distância Euclidiana padrão?
A distância estatística difere da Euclidiana padrão ao incorporar pesos baseados nas variações das amostras, resultando em coordenadas “padronizadas” que são usadas na fórmula Euclidiana para determinar a distância.
Como a correlação entre variáveis afeta a medida de distância em análise multivariada?
A correlação entre variáveis afeta significativamente a medida de distância, pois variáveis correlacionadas alteram a forma como a distância é percebida no espaço multivariado. A distância estatística é ajustada para levar em conta essa correlação, além da variabilidade de cada variável.
O que a elipse de distância constante representa em um gráfico de dispersão bidimensional?
Representa os pontos que estão a uma distância estatística constante do centro, levando em conta a variabilidade e correlação entre as variáveis.
Como a distância estatística é generalizada para espaços multivariados?
A generalização é feita usando a matriz de covariância dos dados para calcular a distância estatística em espaços de dimensão maior que dois.
O que são contornos de igual probabilidade em estatística?
São linhas que conectam pontos com a mesma probabilidade de ocorrência, refletindo a distribuição conjunta das variáveis.
Por que contornos de igual probabilidade formam uma elipse em vez de um círculo quando há correlação entre as variáveis?
Porque a correlação distorce a distribuição uniforme, estendendo mais a dispersão ao longo da direção da correlação, resultando em uma elipse.
O que acontece com a forma dos contornos de igual probabilidade quando as variáveis têm a mesma variabilidade mas são correlacionadas?
Os contornos são elípticos e inclinados em relação aos eixos, com eixos de igual comprimento representando a mesma variabilidade nas variáveis correlacionadas.
Por que valores maiores em uma direção com maior variabilidade são menos surpreendentes?
Valores maiores são menos surpreendentes em uma direção com maior variabilidade porque esses valores são esperados dentro do intervalo natural de dispersão dos dados.