Cours 5: Analyse de données expérimentales Flashcards
5.1 - Introduction
Lorsque l’on étudie un phénomène, il faut souvent analyser des ensembles de mesures qui peuvent varier dans le
temps ou selon divers facteurs d’influence.
ertonmirdre car incertitude fontcheffhern
Seul le bon sens ne peut pas nous
permettre d’interpréter des données
expérimentales et d’en tirer des conclusions
sur le phénomène à l’étude.
Phrygie Stabilisé ou
Traitement de
données Conclusions
Une connaissance des méthodes statistiques devient essentielle en génie car l’expérimentation reste un moyen
important dans la collecte de données.
Points à considérer lorsque l’utilisation des méthodes statistiques est
envisagée :
* Avoir des connaissances non statistiques du problème (réflexion
sur la problématique à l’étude)
* Planifier les expériences et faire les analyses le plus simple
possible (dépendance design – analyse)
* Faire la distinction entre les différences significatives pratique et
statistique (résultat statistique vs valeur pratique)
* Avoir une idée du coût de la tenue des expériences (planifiées ou
pas, par itération, extensives)
Le premier phénomène ressortant des observations est :
La variabilité
des données
Prise de décisions Résolution de problèmes
On travaille rarement sur une population entière (taille infinie, étude destructive, grand
nombre de lot de production, coûts élevés d’échantillonnage, etc.). On travaille plutôt sur un
échantillon judicieusement choisi de la population d’intérêt.
Sous-ensemble (de taille n) de la population
Ensemble de N individus sur
lesquels porte l’étude
L’individu est l’unité sur laquelle
on mesure une ou plusieurs
variables
La variable est la caractéristique
visée par l’étude
Dans le cas où on étudie le temps de réponse d’un
nouveau capteur pour une application donnée :
* Le nombre total de capteurs produits est la
population
* L’échantillon correspond au nombre de capteurs
qui seront testés
* Le capteur est l’individu et le temps de réponse
est la variable.
Méthodes
d’échantillonnage
L’échantillon doit être pigé au hasard dans la population, de telle sorte que tous les individus ont la même chance d’être
pigés, ce qui permet d’avoir un échantillon aléatoire
Échantillon:
Statistique descriptive
Étude de l’échantillon
Logiciels non spécialisés comme Excel
Méthodes de traitement de données brutes visant à
structurer, à résumer et à présenter les données.
Résultats obtenus se limitent aux données étudiées
Dans ce cas les statistiques sont appelées estimations des paramètres
- Histogrammes
- Paramètres numériques : moyenne, médiane, variance, écart-
type, coefficient de variation, … - Représentation graphique du lien entre deux variables
- Boîtes à moustaches (box-plots)
Population:
Statistique inférentielle
Étude de la population via l’échantillon
Elle comprend des méthodes de planification et
d’analyse de données dont l’objectif principal est
de généraliser à la population totale les résultats
obtenus à partir d’un échantillon.
Dans ce cas les statistiques sont appelées paramètres
* Choix d’un plan d’expériences
* Analyse de la variance (ANOVA) et covariance
* Analyse de régression (simple ou multiple_
* Tests statistiques
* Intervalles de confiance
5.2 – Statistique descriptive
Types de variables
Selon leur valeurs possibles:
Discrète et continue (pression différentielle)
Selon leur rôle dans l’étude :
explicative (Hauteur d’eau)
Réponse (pression différentielle (tension))
5.2 - Statistique descriptive
Notion de distribution
Des mesures de pression différentielle ont été cueillies (conditions constantes) lors d’une expérience visant à mesurer
la hauteur d’un liquide dans une cuve.
Condition : remplissage comple
Description graphique de la variabilité
Quelles sont les raisons de cette
dispersion (variabilité)?
* Variabilité naturelle
* Effet inconnu ou connu
* Bruit sur la mesure
*
…
Comment est-ce que cette dispersion
peut être caractérisée ?
Pour construire cette représentation, l’échelle de mesure est inscrite sur l’axe horizontal et on y
situe les limites des classes. L’échelle des fréquences est présentée sur l’axe vertical.
- Les intervalles (classes) devraient tous être de même longueur pour favoriser la clarté visuelle de l’information.
- Le nombre de classes devrait augmenter en fonction de n (nombre d’observations) et se situer en général entre 5
et 15 dans la plupart des cas. Créer un nombre de classes à peu près égal à la racine carrée du nombre
d’observations constitue fréquemment une bonne solution dans la pratique.
Pour l’exemple de la mesure de pression différentielle, nous avons 𝑛 = 337.
En utilisant la recommandation pour le nombre de classes idéal, on a 337 = 18,3
- Théoriquement, la distribution est l’ensemble des valeurs possibles d’une variable auxquelles est associé la
probabilité d’observer chaque valeur (distribution de probabilités) - La distribution de probabilités peut être vue comme étant le modèle théorique ou le «vrai» modèle pour une
expérience donnée. - Pratiquement, la distribution est la répartition des valeurs observées (fréquence de chaque réponse), c’est une
distribution empirique.
5.2 - Statistique descriptive
Caractérisation d’une distribution
Chacun de ces indicateurs comprend
des descriptions numériques.
Les distributions peuvent être caractérisées par ces trois indicateurs :
* Le centre représente la valeur espérée de la caractéristique mesurée (centre de gravité de la distribution).
* La dispersion représente la quantité de variation attendue du processus de mesure de la caractéristique. Elle nous
renseigne sur l’étendue des valeurs possibles que l’on peut s’attendre d’observer. Comme nous l’avons déjà étudié
lors du Cours 2, elle nous informe de la incertitude.
* La forme renseigne sur l’étalement de la variation des valeurs. Elle nous informe pour déterminer si la variation
autour de la moyenne est symétrique ou non ou possiblement multimodale.
Mode, moyenne, médiane
Pression différentielle
Diagramme à boite à moustaches
Moustache supérieure
Moustache inférieure
- À l’intérieur du rectangle on place la moyenne.
- Le haut, le bas et le milieu du rectangle sont définis par les quartiles Q3, Q1 et Q2.
- Les deux segments de droite en haut et en bas correspondent aux limites des moustache et sont définis par l’écart
interquartile. Les observations au-delà des limites sont considérées extrêmes. - Pour calculer les quantiles, à la base, il faut diviser les observations en suivant une méthode statistique. Des logiciels comme
Excel peuvent faire ce type de calcul, ainsi que des logiciels spécialisés comme STATISTICA.
Dans notre exemple (pression
différentielle), on peut conclure
que 9 observations peuvent être
considérées extrêmes.
Mesures de dispersion
Étendue, Variance, Écart-type, coefficient de variation, erreur type, dispersion, Quartiles, Étendue inter quartiles
Si les incertitudes sont petites et sont dispersées de façon aléatoire autour de la valeur moyenne, la répartition des
mesures aura une distribution de forme normale (distribution gaussienne). La probabilité qu’une mesure individuelle se
trouve dans les limites particulières est la suivante :
Distribution de probabilité (P) des
données autour de la valeur moyenne
À titre informatif, la loi normale est caractérisée par deux
paramètres : sa moyenne et sa variance 2
.
On dit qu’une variable aléatoire X obéit à une loi normale de
moyenne (−∞ < 𝜇 < ∞) et de variance 2 0 lorsqu’elle
représente la fonctionnalité de densité :
Mesures de forme
Deux mesures, l’asymétrie et l’aplatissement, sont utilisées pour caractériser la distribution autour des valeurs
centrales.
L’allure générale de la distribution peut être plus ou
moins voutée ou aplatie par rapport à une courbe
normale (Gaussienne). Plus la distribution est grande
(écart-type), plus la courbe sera plate.
Une distribution est dite symétrique si les observations
se répartissent de façon uniforme autour des trois
valeurs centrales : la moyenne, le mode et la
médiane. Si non, elle peut être étalée à droite ou à
gauche.
Les boîtes à moustaches permettent d’avoir une première idée sur le degré d’asymétrie d’une distribution
Notation (paramètres)
La notation est différente, mais la méthode de calcul est la même
Pourquoi n-1 et non n?
Pour calculer la variance d’un échantillon, on inscrit au dénominateur la taille de cet échantillon moins 1, soit n-1. Si l’on
connaissait la véritable moyenne de la population, on pourrait définir la variance d’un échantillon comme la moyenne des
carrés des écarts entre les valeurs de cet échantillon et .
On connait rarement la valeur de dans la pratique, ce qui oblige à utiliser plutôt la somme des carrés des écarts par
rapport à la moyenne ҧ 𝑥 de l’échantillon.
Les valeurs observées 𝑥𝑖 tendent cependant à être plus proches de leur moyenne ҧ 𝑥 que de la moyenne de la population,
ce qui amène à compenser en inscrivant n-1 au dénominateur plutôt que n.
5.3 – Statistique inférentielle
Introduction
L’inférence statistique se définit comme un raisonnement à l’aide duquel on tire, à partir de renseignements fournis par
les données d’un échantillon, des conclusions au sujet d’une population.
Il existe deux façons d’effectuer de l’interférence statistique. On peut utiliser des tests d’hypothèse ou des tests
statistiques ou construire des intervalles de confiance.
Les deux approches sont équivalentes, c’est-à-dire
qu’elles fourniront les mêmes conclusions, mais pas
exactement de la même façon.
Intervalle de confiance
Une estimation ponctuelle d’un paramètre inconnu d’une population basée sur une valeur d’une statistique sur un
échantillon, dans bien des situations, ne fournit pas assez de renseignements sur le paramètre d’intérêt. La raison à la
base de ceci est que l’on ignore les chances que cette valeur a d’être proche de la vraie valeur de .
Un intervalle estimé de la forme L U pourrait s’avérer plus utile avec des bornes L et U qui sont des variables
aléatoires, car il s’agit des données d’échantillon.
Pour estimer par intervalle un paramètre inconnu , il faut donc trouver deux statistiques L et U, telles que :
L’intervalle L, U ainsi obtenu est un intervalle de confiance à 100(1-)% pour le paramètre inconnu . L’expression
1- indique le degré de confiance ou niveau de confiance associé à l’intervalle.
- On dira plutôt qu’il est possible d’affirmer avec 100(1- )% de confiance que le paramètre sera compris dans
l’intervalle observé L, U. - Plus un intervalle de confiance est long, plus on a la certitude qu’il renferme la vraie valeur . Toutefois, plus il est
long, moins il fournit de renseignements sur la vraie valeur de . - L’idéal consiste à avoir un intervalle relativement court et un degré de confiance élevé.
Détermination d’un intervalle de confiance sur la valeur moyenne
Distribution normale (Gausienne)
Distribution loi de Student
thermocouple: Vous avez acquis cinq mesures de tension lors d’une expérience avec un thermocouple étalon à 0 °C : 0,96 mV, 1,04
mV, 1,02 mV, 1,01 mV et 0,97 mV . Calculez l’intervalle de confiance pour un niveau de confiance de 95%.
L’intervalle de confiance sur la valeur
moyenne est donc :
0,96 mV 1 mV 1,04 mV