Intra Flashcards
Une caractéristique essentielle pour la corrélation et la régression
La variance
Années quantitatives vs qualitatives + le meilleur?
Quantitative:
+ de données
Peut faire médiane
+ fréquent
Qualitatives:
Données plus petites
Pas un de meilleur, ça dépend de la situation
Comment fonctionne les recherches?
On part d’observation, puis hypothèse + vérifier si valide
Déf. variable
Tout ce qui varie
Opposé: constante
Déf. unité d’analyse
Entité qui fournit l’information sur la variable
2 types de variable
Indépendante (x)
Variable prédictrice
Ce qui déclenche une réaction
Dépendante (y)
Variable résultante
Suit influence de x
4 types d’échelle de mesure
Nominale:
Catégorie d’entité
Dichotomique ou multichotomique
AUCUNE opération mathématique
Ordinale:
A une gradation
On perd la distance, connait juste la position (connait pas l’écart)
Plus grand/plus petit seulement
Intervalle:
Gradation entre les chiffres
Écart entre réponse le même
Addition/soustraction
Proportions:
Donne le + d’infos, peut distinguer différence
Écart entre réponses le même
Zéro absolu existe!
Addition/soustraction/multiplication/division
Est ce qu’on peut passer d’échelle en échelle
Oui, mais seulement de proportion à nominale pas le contraire
(passer à des échelles avec - infos)
Échelle de Likert
Échelle ordinale, mais avec des chiffres pour préciser que l’écart est le même
(si juste les mots = ordinal, mais avec les chiffres = intervalle)
Importance vue d’ensemble
Si on fait questionnaire avec question ordinal, mais veut faire régression après = pas possible
Validité vs fidélité
Validité:
Mesure le bon concept
Fidélité:
Résultats devraient être similaires
Utilité de recueillir en forme de variable
Permet de résumer une grande quantité d’infos dans quelque chose de simple
Descriptive vs inférentielle
Descriptive:
Décrit un échantillon
Inférentielle:
Déterminer qlqch d’une population grâce à un échantillon
Catégories peuvent créer de 2 façons
Relié à la théorie
Catégorie intuitive
Ce qu’il faut s’assurer dans un tableau de fréquence avec catégorie
Que 2 chiffres ne sont pas dans la même catégorie
inclu/exclu
Histogramme et variables
Ligne horizontale:
Ligne x
Abscisse
Ligne vertical:
Ligne y
Ordonnée
3 caractéristiques des distributions
Étendue
Forme (symétrie/aplatissement)
Tendance centrale
Déf. étendue
Différence entre valeur minimale et maximale
Asymétrie déf.
Asymétrie positive:
La droite qui va vers le bas va vers le positif
+ de score faible
Asymétrie négative:
La droite qui va vers le bas va vers le négatif
+ de score élevé
Aplatissement déf.
Leptokurtique (leap):
Pic vers le haut
Kurtose positive
Platykurtique:
Plateau vers le haut
Kurtose négative
Caractéristiques distribution normale (4)
-Majorité des scores sont au centre
-Courbe normale est un polygone de fréquence
-Beaucoup de phénomènes naturels se distribuent de cette manière
Symétrique (asymétrie et aplatissement = 0)
Unimodale
Moyenne, mode et médiane presque identique
Atteint jamais 0
Tendance centrale déf.
Le centre d’une distribution de fréquence (valeur typique d’une observation)
Mesure de tendance centrale
Moyenne
Médiane
Mode
Déf. mode
Score le plus fréquent
Différents types de mode
Unimodale, bimodale et multimodale
Déf. médiane
Partage la distribution en 2 groupes égaux
Pas affecté par scores extrêmes!
Déf. moyenne (4)
-Plus utilisée
-Influencé par valeurs extrêmes et sensible aux changements
-Fait le moins d’erreur
-Erreur moyenne à 0!
Déf. déviance
Différence entre valeur observé et la moyenne
Tendance centrale et niveau de mesure
Nominale: mode
Ordinale: Mode et médiane
Intervalle et Proportions: Mode, médiane et moyenne
Est ce que la moyenne est toujours la meilleure mesure?
Non! pas si valeur extrême
Devrait on utiliser la moyenne dans une distribution bimodale ou multimodale
Non parce qu’elle va tomber dans le milieu
Devrait on utiliser la moyenne dans une distribution leptokurtique ou platykurtique
Leptokurtique = ok
Platykurtique = moins bon
Quelle mesure de tendance centrale utilisée selon l’asymétrie
Asymétrie nulle:
Mode=Md=Moyenne
Asymétrie négative:
Mode = meilleure
Md = meh
Moyenne = nope
Asymétrie positive:
Moyenne = meilleure
Md = meh
Mode = nope
Lorsqu’il y a une grande variance est ce que la moyenne est bonne
La moyenne devient un moins bon estimateur
(pourrait exister des sous-groupes)
DONC utiliser moyenne avec écart-type
Caractéristiques variance (4)
Plus la variance est grande, plus le phénomène est intéressant
Valeur minimal = 0 (constante)
Valeur maximal = infini
Peut pas être plus bas que 0
Déviance vs variance
Déviance:
Différence entre UNE valeur observée et sa moyenne
Variance:
Degré de différence entre les observations et la moyenne
Formule déviance vs au carré vs variance
Déviance:
une valeur - moyenne et additionné pour toutes les données
Mettre au carré:
Pour ne pas que ça donne zéro
Variance:
Même chose mais divisé par population - 1
Variance peut JAMAIS être NÉGATIVE
Comment interpréter variance
Si proche de 0:
Moyenne = peu d’erreur d’estimation
Science = peu intéressant
Si loin de 0
Moyenne= plus d’erreur d’estimation
Science= intéressant
Si = 0
Constante
Plus il y a d’observations loin de la moyenne, plus la variance va être élevé
Si on rajoute des valeurs proches de la moyenne s va diminuer
Déf. écart-type
Plus simple à comprendre que la variance
On l’obtient en prenant la racine carré de la variance
Une variance plus grande = écart-type plus grand
Déf. coefficient de variabilité
Interpréter variance si les moyennes ne sont pas identiques
Écart-type/moyenne
Variable avec CV plus grand = peut détecter différences individuelles entre les observations
Trois stratégies pour interpréter une observation à partir de sa position
Rang absolu
Percentile
Score Z (valeur étalon)
Rang absolu déf. avantage et désavantage
Transformation des valeurs en position (rang)
Avantage:
Facile à comprendre
Utile pour faire choix
Désavantage:
Mesure ordinale donc perd précision
Taille entre les rangs est inconnu
Peut être interprété seulement si on connait n
Percentile déf. + avantage et désavantage
Positionne les gens par rapport aux autres observations
Avantages:
Comparer un score à une norme
Facilement compréhensible
Fournit plus de détails que le rang absolu
Désavantage:
Percentile est moins adaptée aux petits échantillons
Sensible aux déviations
Score z déf.
Positionne les gens par rapport à la moyenne
Prend en compte la variabilité pas comme le percentile
Tient en compte tendance centrale et différences individuelles (variabilité)
Comment déterminer position de l’observation par standardisation
valeur - moyenne
Si positif = au dessus de la moyenne et vice-versa
Plus le z est grand, plus grand écart avec la moyenne
Est ce que la variabilité a un impact même si moyenne est la même
Oui
Score z de 0 =
z=1
Même chose que la moyenne
Écart type
Convertir toutes les observations en score z permet quoi
les variables auront toutes la même moyenne et le même écart type
Quand peut on utiliser le score z
Elle peut être normal ou asymétrique mais elle doit être unimodale
Comment calculer le score z
valeur - la moyenne divisé par l’écart type
Comment faire en sorte que la distribution se rapproche de la distribution normale
En augmentant n
Densité et distribution normale
Densité loin de la moyenne est petite
Déf. densité
Densité = proportion = probabilité = percentile
Comment obtenir proportion
n/N
Si la distribution n’est pas normale qu’est ce qu’on peut calculer
le score z mais pas la densité
Comment savoir si un événement est rare
Apparait moins que 5% dans une distribution
Recensement vs sondage
Recensement = population
Sondage = échantillon
Paramètres vs statistiques
Paramètre: population (lettre grec)
Statistique: échantillon (lettre latin)
Ce qui est important quand on détermine un écahntillon
Représentativité
Si on connait pas les paramètres d’une population comment prendre un échantillon
Échantillon aléatoire
Deux critères pour l’échantillon aléatoire simple
-Critère de la chance égale
Chance égale d’être choisi (pas à une sortie de métro)
-Critère de l’indépendance des réponses
Réponse d’une personne ne doit pas être influencée
Anonymat, deux personnes d’une même famille
Exigent que chaque différence x moins moyenne est indépendante
Plus un échantillon est grand, plus il a de chance
d’être représentatif et de faire moins d’erreur
MAIS à un certain point ça n’augmente plus
Pourquoi lorsqu’on calcule la variance ou l’écart type d’un échantillon on divise par n-1
Degré de libération qui compense le biais en exagérant la variance
CAR un échantillon exclut généralement les valeurs extrêmes
Vrai ou Faux
Il n’y a pas de biais d’inférence avec la population
Vrai
H1 vs H0
H1 = prédiction, la théorie est juste
H0 = Théorie ou prédiction est erronée
Le test de référence se fait toujours sur
H0
Soit rejet de H0 ou non-rejet de H0
Le rejet de H0 mène à l’acceptation de H1, mais pas l’inverse!!
En effet, si H0 n’est pas rejeté ça veut pas dire que H1 est 100% faux
Principaux concepts d’inférence
On peut jamais prouver que H1 est fausse à partir d’un échantillon, il faudrait examiner la population ce qui est impossible
Déf. erreur d’échantillonage
Fluctuation naturelle entre les échantillons tirés de la même population (pas les mêmes valeurs)
Déf. erreur type de la moyenne
Fluctuation naturelle entre les moyennes des échantillons tirés de la même population
Hypothèses pour savoir si ils proviennent de la même population
Rejet de H0 si la différence entre les moyennes est plus grande que l’erreur type de la moyenne
Erreurs type 1 vs type 2
Types 1 (alpha):
Conclure qu’il existe une différence entre 2 moyennes alors qu’en réalité il n’y en avait pas
Conclure à tort au rejet de H0
Types 2 (beta):
Conclure qu’il n’existe pas différence entre 2 moyennes alors que la différence existe
Conclure à tort au non-rejet de H0
Déf. erreur type de la moyenne
Fluctuation typique entre les moyennes des échantillons provenant de la même population
Écart-type divisé par racine carré de n
Comment calculer IC (intervalle de confiance)
moyenne + ou - (Erreur type de la moyenne * z)
Z pour intervalle de confiance de 0,05 : 0,01 et 0,001
z=1,96 pour 0,05
z=2,58 pour 0,01
z=3,1 pour 0,001
Rejeter H0 = à quoi
Que l’échantillon fait partie de la population
Comment réduire le risque d’un alpha
Accroitre les bornes de l’IC
Augmentant erreur type de la moyenne
Choisir un seuil alpha plus petit
Réduire nombre d’observations n
Si je réduis mon risque d’erreur de type 1 j’augmente…
Le risque d’erreur de type 2
Comment réduire le risque d’une erreur bêta?
Réduire les bornes de l’IC
Réduire l’erreur type de la moyenne
Choisir seuil alpha plus grand
Augmentant le nbre d’observations
Déf. corrélation
Lien entre deux variables (H1) ou (H0)
Connaissant x il est possible d’estimer y
Max +1 et Min -1
Corrélation négative vs positive
Négative:
Si les deux diminuent
Positive:
Si les deux augmentent
Corrélation varie selon 2 choses
-Taille
Plus forte est rxy plus grande la réaction de l’incertitude
-Direction
Positives ou négatives
Une corrélation négative ne veut pas que la corrélation est faible?
Vrai
Plus élevée est la corrélation (taille), plus…
x nous renseigne sur y
La corrélation indique que x cause y
FAUX
Corrélation n’indique pas de cause à effet
Il y a corrélation si
La position des observations restent identiques
Même si la position est inversée!
Si les scores x et y sont… (3)
Similaires = association positive
Inversés = association négative
Aléatoire = pas d’association rxy=0
Pour faire une corrélation il faut faire quoi à nos variables
Standardiser (pas d’unité de mesure)
Postulats de Pearson (3)
x et y mesures à intervalle et variables continues
Distribué normalement sans valeur extrême
Relation xy est linéaire!
Déf. relation linéaire
Changement constant, ligne droite
Si la variable n’a pas de variance la corrélation sera…
de zéro!
Deux causes de le manque de variance
Observations sont trop homogènes (Donner exam 1004 à des gens avec un PHD)
Variable est incapable de distinguer entre les observations (Donner exam de 4e année à des élèves de l’uni)
Manque de difficulté
3 choses nécessaires pour une cause
Corrélation entre x et y
Cause doit précéder l’effet
Délai entre la cause et l’effet
Seuil de signification
H1 = corrélation p< 0,05
H2= pas de corrélation p> 0,05
Proportion de variance/ coefficient de détermination
rxy à la deux donne la variance commune entre x et y
ET
à quel point la corrélation viendra réduire notre incertitude quant à la relation entre x et y
Coefficient de non détermination
1 - rxy ^ 2
Incertitude restante
But de la régression
Utiliser la relation générale rxy pour faire une prédiction individualisé et plus précise que la moyenne
Plus le rxy est grand plus la prédiction est
juste
Régression simple standardisé vs non-standardisé
Standardisé:
Passe toujours par 0
La relation entre x et y est moins forte si droite est couchée
Non-standardisée:
Produit un estimé en valeur original
Ordonnée à l’origine ne sera pas zéro
Intègre que le x et y n’ont pas la même moyenne et écart type
Comment trouver valeur prédite ^y
rxy * Zx
En régression comment on appelle le rxy
Régression standardisé (B) bêta
inconvénients régression simple standardisée
Produit un estimé de y en score Z plutôt qu’en valeur de l’échelle originale
DONC seulement utile pour déterminer si une variable x est liée à une variable y sur le plan théorique
Coefficient de régression rxy en valeur non standardisé
b
Si rxy est négatif, B et b
sont négatifs aussi + même chiffre
Ordonnée à l’origine
a
Prend en considération qu’ils ne sont pas de la même moyenne
Ajuste la valeur ^y pour qu’elle soit sur l’échelle de y
Est ce qu’on utilise B ou b
B = contexte théorique
est ce que x prédit y
b = même échelle
contexte pratique
Erreur d’estimation avec régression
Plus élevé corrélation rxy, plus élevé le B et b
Plus élevé le coefficient, plus précise la prédiction
DONC qté d’erreur plus faible
4 types d’erreur
Écart- type:
Écart typique entre observation et moyenne
Erreur type échantillonnage:
Plusieurs échantillons provenant de la même population ne vont pas contenir les mêmes personnes
Erreur type de la moyenne:
Écart typique entre la moyenne d’échantillons tirés de la même population
Erreur type d’estimation (régression):
Écart typique entre le score prédit et le score réel
Comment calculer erreur d’estimation
^y - y
valeur prédite - véritable valeur
Comment trouver intervalle de confiance avec régression
^Y +- z * Se
Relation entre Se et b ou B
Plus faible est rxy ou B, plus élevée sera Se (pas pour b)
Si rxy ou B est parfait, Se=0