sem 2: Organiser, visualiser et décrire les données Flashcards
nomme les différentes échelles
nominale
ordinale
d’intervalle
de rapport (ratio)
décrit échelle nominale
classification selon catégories (categorical), sans rang (faible)
qualitatif
absence d’ordre
permet de comparer la taille des catégories
ex: secteur d’activités des entreprises, classement des fonds selon leur stratégie d’investissement
décrit échelle ordinale
-classification selon des catégories (categorical) hiérarchisées
-qualitatif
-présence d’ordre
ex: classement selon cote de crédit (A, B, C)
décrit échelle d’intervalle
-permet de calculer les écarts entre les données et les comparer
-quantitatif
-unité de mesure arbitraire, mais constante
-permet additions et soustractions
ex: température, aversion au risque d’un individu
décrit échelle de rapport/ratio
-permet de calculer le lien de proportionnalité entre 2 valeurs
-possède un zéro absolu; absence totale de la mesure
-quantitatif
ex: argent, rendement, échéance
décrit les données transversales (cross-sectional data)
observation de plusieurs variables individuelles captés à un point spécifique dans le temps
ex: données de plusieurs entreprise le 6 juin
décrit les séries temporelles (time series data)
observation d’une seule variation sur différentes périodes
ex: les rendement mensuels d’un indice boursier
décrit la distribution de fréquences
répartition des données en intervalles par ordre de grandeur
contient fréquence absolue
facilite l’analyse des données
peut etre utilisée avec tous types d’échelles de mesure
comment construire distribution de fréquences
- ordre croissant
- calculer amplitude (max - min)
- choisir le nombre d’intervalles (n)
- créer les intervalles (min + amplitude)
- construire tableau du plus petit au plus grand
décrit la fréquence relative
fréquence absolue divisé par nombre totale (%)
lien avec fonction de DENSITÉ de probabilité
décrit la fréquence relative cumulée
somme des fréquences relatives
lien avec fonction de PROBABILITÉ cumulative (0 à 1)
décrit l’histogramme
diagramme en batons
x = intervalles
y = fréquence absolue
décrit la courbe de fréquences
segments se reliant par des points
x = point milieu de l’intervalle
y = fréquence absolue
décrit la courbe de fréquence relatives cumulées
permet de déterminer le nombre d’observations inférieur à une valeur donnée
x = valeur maximale de l’intervalle
y = fréquence absolue
avantage moyenne arithmétique
affecté par la taille et amplitude des données
facile à utiliser
désavantage moyenne arithmétique
influencé par valeurs extrêmes
comment trouver la médiane
impair = n/2 + 1
pair = moyenne de n/2 et n/2 + 1
avantages médiane
pas affectée par valeurs extrêmes
désavantages médiane
se concentre uniquement sur la position relative des données triées
aucune info sur la taille ou l’amplitude
avantages mode
peut etre utiliser avec échelles nominales donc qualitatives
désavantages mode
pass applicable aux données continues donc peu utilisé en finance
décrit la moyenne pondéré (weighted mean)
beaucoup utilisé en finance
poids positif = position longue
poids négatif = position courte
x = rendement de l’actif
décrit la moyenne géométrique (geometric mean)
calcul de taux moyen de croissance d’une variable
ex: calcul du rendement dans le temps d’un actif
comment trouver la moyenne géométrique
G = racine enième des X (x >= 0)
Rg = somme des produits de (1 + Rt)^1/T - 1
décrit la moyenne harmonique
type spécial de moyenne pondérée ou le poids est inversement proportionnel à sa grandeur (plus de poids est élevé, moins on va en avoir)
application: “cost-averaging” qui implique un investissement constant sur les marchés financiers
comment trouver la moyenne harmonique
Xn = n/ somme des (1/X) pour X >= 0
met en ordre croissant les moyennes géométriques, arithmétique et harmonique
harmonique
géométrique
arithmétique
s’applique si les données sont identiques
décrit et nomme les quantiles
valeur égale ou inférieur à une fraction des données
médiane = 2
quartile = 4
quintile = 5
déciles = dix
percentiles = cent
la dispersion mesure quoi
la variabilité autour de la tendance moyenne
décrit la dispersion absolue
qté de la variabilité sans comparaison à un point de référence
ex: amplitude, écart absolu moyen, variance
décrit la dispersion relative
qté de la dispersion par rapport à un point de référence
ex: risque actif, coefficient de variation
avantages amplitude
facile à calculer
désavantages amplitude
aucun info sur la forme ou la distribution
affecté par valeur extrèmes
décrit l’écart absolue moyen et comment le trouver
moyenne des écart absolue par rapport à la moyenne (comme la variance)
avantage écart absolu moyen
donne image précise de la distribution p/r a amplitude
désavantages écart absolu moyen
plus difficile à manipuler mathématiquement (versus variance)
avantage variance
mesure la + utilisé
désavantages variance
absence d’unité donc difficile à interpréter et communiquer
décrit écart type
mesure la plus utilisé pour estimer le risque
décrit semi-variance
seus les risqueés liés aux écarts négatifs par rapport à la moyenne ou autre valeur cible
décrit coefficient de variation et comment le trouver
mesure relative de la dispersion des données qui permet de comparer portefeuilles entre eux
écart type / moyenne
plus le cv est élevé, plus l’écart type est élevé donc plus c’est risqué
décrit l’asymétrie (skewness) d’une distribution
on fait souvent l’hypothèse que les rendements sont distribués NORMALEMENT
Cela facilite calcul, car distribution completement décrite par moyenne et écart-type
les moments permettent de décrire la distribution selon autres:
moment ordre 1: moyenne
ordre 2: variance
ordre 3: coeff d’asymétrie
ordre 4: coeff d’aplatissement
décrit le coefficient d’asymétrie
coeff d’asymétrie négatif = normale vers la droite
coeff d’asymétrie positif = normale vers la gauche (ce qu’on préfere car signifie une plus grande fréquence d’excellentes performances)
décrit le coefficient d’aplatissement (kurtosis)
Ke > 0 = leptokurtique, donc distribution pointue p/r a la normale
Ke < 0 = platikurtique, donc aplatie p/r a la normale
pour l’excess de kurtosis, il faut ajouter le terme “-3(n -1)^2 / (n - 2)(n - 3)”
l’analyse de la dépendance entre 2 variables se fait via:
nuage de points
analyse de corrélation (coefficient de pearson)
le coefficient de corrélation de pearson est toujours entre quels valeurs ?
-1 et 1