Mini test 1 Flashcards
Données quantitative
une donnée à laquelle nous pouvons associer un chiffre
Donnée qualitative
n’a pas de chiffre associé
Données quantitatives continues
sont celles où, si notre instrument de mesure était plus précis, nous aurions pu ajouter des décimales à notre nombre
Données quantitatives discrètes
des entiers
Type de graphique : quantitative
histogramme
Type de graphique : qualitative
diagramme à bandes
Type de graphique : quantitative + quantitative
nuage de points
Type de graphique :
quantitative + qualitative
diagramme à moustaches
Type de graphique : qualitative + qualitative
tableau de contingence OU diagramme à bande avec couleur de remplissage
Médiane
point au milieu de nos données une fois triées par ordre de grandeur
Moyenne
somme de toutes les données, diviser par le nombre de données
Mode
la valeur la plus commune d’une variable
Étendue
la valeur la plus élevée moins la valeur la plus faible
Variance
moyennes des distances à la moyenne au carré
Écart-type
racine-carrée de la variance
Coefficient d’asymétrie
un coefficient positif est associé à une longue queue à droite, et qu’un coefficient négatif est associé à une longue queue à gauche
Coefficient d’aplatissement
combien une distribution est pointue ou aplatie
Un coefficient d’aplatissement > 3 possède plus de données … (plus pointue) qu’une distribution normale
au centre
Quelles sont les transformations associées à une longue queue à droite ?
Logarithmique : chacune des observations d’une variable soit remplacée par le logarithme de cette observation
Transformation racine carrée
Exposant fractionnaire
Quelles sont les transformations associées à une longue queue à gauche ?
Exposant supérieur à 1
Si log trop fort, on peut essayer racine carrée
Comment sont les variables dans une matrice de données ?
Quantitatives
Un seul type de données
Que contient la diagonale d’une matrice de la somme des carrés et des produits croisés ?
la variabilité de chacune des variables par rapport à sa moyenne respective, que l’on nomme la somme des carrés
Que retrouve-t-on autour de la diagonale d’une matrice de la somme des carrés et des produits croisés ?
une idée de comment deux variables varient ensemble ou non, que l’on nomme la somme des produits croisés
Vrai ou faux, une matrice de la sonne des carrés et des produits croisés a toujours autant de lignes que de colonnes
Vrai
Que retrouve-t-on sur la diagonale d’une matrice de variance-covariance ?
la variance de chacune des variables et dans les autres cellules nous retrouvons la covariance entre deux variables
À quoi sert une matrice de corrélation ?
à remettre toutes les relations à une même échelle
Que contient à chacune des intersections une matrice de corrélation ?
la corrélation entre chacune des variables
À quoi sert le concept de distance multivariée ?
• Savoir si deux observations se ressemblent en mesurant si elles sont loin l’une de l’autre
À quoi est équivalent une distance euclidienne ?
Équivalente à l’hypoténuse d’un triangle rectangle (en p dimensions)
À quoi est sensible une distance euclidienne ?
aux différences d’échelles entre nos variables
Quand utilise-t-on la distance de Bray-Curtis ?
Si la matrice de données contient des abondances d’espèces, en particulier si cette dernière contient beaucoup de zéros
Quelles sont les 3 étapes principales de la distance de Bray-Curtis ?
3 étapes principales : On regarde d’abord pour chaque espèce le minimum entre les deux sites, que l’on multiplie par 2, puis on en fait la somme. On divise ensuite Ce total par l’abondance totale de toutes les espèces aux deux sites. Et finalement on fait 1 moins cette valeur
Quelles sont les matrices pour mesurer l’association entre les variables dans un tableau de données ?
La matrice de variance-covariance, qui est affectée par l’échelle des données
La matrice de corrélation, qui permet de remettre toutes les variables à la même échelle et éviter ces problèmes
Quels sont les 3 calculs pour mesurer la distance entre les observations ?
La distance euclidienne pour les données continues (attention aux différences d’échelle)
La distance de Bray-Curtis pour les décomptes
La distance de Jaccard pour les présences-absences
Que cherche à faire une analyse en composantes principales (acp) ?
Cherche à résumer la variation dans une matrice de données
Quel est le rôle des variables dérivées de l’acp ?
Les variables dérivées sont extraites de façon que la première explique le plus de variabilité possible dans tout le jeu de données
La deuxième choisie pour expliquer la variabilité résiduelle, tout en demeurant orthogonale à la première
Comment fonctionne une acp ?
Transforme un jeu de données de p variables en k nouvelles variables (où k = p) orthogonales (non-corrélées), appelées composantes principales.
Si une certaine association linéaire existe entre les variables, la variance sera concentrée dans les premières composantes.
À chaque observation (ligne) et à chaque variable (colonne) correspond une nouvelle coordonnée dans ce nouveau système d’axes.
Quand faut-il choisir la matrice de covariance comme matrice d’association de l’acp ?
Les unités sont comparables entre les variables
Les différences de variance sont interprétables
Quand faut-il choisir la matrice de corrélation comme matrice d’association de l’acp ?
Les unités sont différentes entre les variables
Nous voulons ignorer les différences de variance
Qu’est-ce qu’une eigenvalue ?
Valeur propre
Quantité de la variance originale expliquée par chacune des nouvelles variables dérivées
Leur somme sera donc identique à la somme de la variance de la matrice originale
Qu’est-ce qu’un egenvector ?
• Liste des coefficients qui vont montrer la contribution de chaque variable originale dans la construction des variables dérivées