CM Flashcards
C’est quoi le principe ETL
- Extract : on identifie et on extrait les données brutes
- Transform : on va transformer ces données brutes pour les rendre facilement exploitables
- Load : on va charger ces données transformées dans une base
Dans quels domaines on va utiliser les sciences de la donnée
Math
Analyse
Optimisation
Statistiques
Programmation informatique
Définir la donnée
Tout est fait de données —> photo, vidéo, recherche, réseaux sociaux
Population définition
Groupe d’objets d’intérêt
Définition variable
Une mesure, une propriété ou une caractéristique qui peut changer ou varier
—> opposé d’une constante
Variable qualitative
Décrit des qualités ou des caractéristiques (comme le pays, l’origine, le sexe)
Variable quantitative
Caractéristiques mesurables
—> taille, poids, température
Définition statistiques
Mesure calculée sur une ou plusieurs variables
Type de donnée quantitative et qualitative
Qualitative :
- nominale
- ordinale
Quantitative :
- discrète
- continue
Définir une variable qualitative ordinale et nominale
Ordinale : variables qualitatives avec ordonnancement (pas numériques mais peuvent être ordonnées)
Nominale : variables qualitatives sans ordonnancement
Définir une variable quantitative discrète et continu
- Discrète : les valeurs des données sont séparées et distinctes, ENTRE DEUX VALEURS CONSÉCUTIVES IL Y’A RIEN
- continue : les données sont infinies et ininterrompues, infinité de valeurs entre deux termes consécutifs
Comment on peut récolter des données
- questionnaire
- entretien
- observation
- analyse de documents
- web scraping
- mesures de machine
Comment on appelle les données collectées et les données collectées non traitées
Les données brutes
Données sources ou données primaires
Comment on obtient des données
- fait sur un événement naturel (mesure)
- sondage
- récolter de manière automatique
Rôle d’un data
Pas de créer la donnée mais de savoir l’exploiter
Comment structurer des données
- feuilles de calcul
- bases de données (Avec des tables)
Comment est organisé un tableau ?
- colonnes (columns) = variable
- rows (lignes) = valeur pour chaque variable
Sur quoi repose la base de données relationnelles
- structure
- modèle rigide
- langage
Base de données non relationnelles
Structure
Modèle flexible
Scalabilité horizontale
Définir la somme, la moyenne et la médiane
Somme : total des valeurs
Moyenne : total des valeurs divisé par le nombre de lignes
Médiane : valeur qui permet de couper l’ensemble des valeurs en deux parties égales
Définir la variance, l’écart type, le compte
- Variance : mesure de la dispersion par rapport à la moyenne
- Écart type : racine carrée de la variance
- compte : nombre d’occurence d’une valeur
C’est quoi une distribution
Répartition des fréquences des observations —> c’est la 1er étape de l’analyse des données
Comment représenter la distribution de variable
Histogramme
Courbes de densité
Boite à moustache
C’est quoi une corrélation
Mesure qui montre à quel point les paires de variables quantitatives évoluent ensemble
Différence entre corrélation et causalité
- corrélation : explique à quel point les variables sont liées mais n’explique pas pourquoi ni comment
- causalité : pourquoi ces variables sont liées
Définir la corrélation de Pearson + comprise en quoi et quoi
Entre -1 et 1
- Mesurer la force et la direction de la relation linéaire entre deux variables quantitatives
À qui correspondent les colonnes et les lignes
Colonnes = variable
Lignes = données
Qu’utilise-t-on pour les données
- excel
- tableau
- python
Rôle de pandas
Librairie python permettant de construire et de manipuler des tableaux de données
Que peut on faire avec pandas
- effectuer des opération
- pré-filtrer
- organiser les colonnes / lignes
Qu’est ce que la théorie de Gestalt définit ?
Définit les principes de la perception
Quels sont les types de perception de la théorie Gestalt ?
- proximité
- similarité
- continuité
Principe de la théorie de la proximité
Les éléments les plus proches vont être perçus comme appartenant à un même groupe
Expliquer le principe de la similarité
Les éléments ayant le plus de similarités graphiques vont induire un sens identique, des fonctions similaires ou une importance commune
Définir le principe de la continuité
Plus la proximité des éléments visuels est importante, plus nous les voyons dans la continuité comme s’ils ne formaient plus qu’une partie unique
Types de graphe
- diagramme en bâton (histogramme)
- graphe de ligne
- nuage de points
- camembert
Types de données textuelles
- structurées (json)
- séminaire structuré (HTML)
- non structuré (livre)
Rôle du web scraping et principe
Télécharger et récupérer le texte d’une page internet
(Si la page possède des liens vers d’autres pages on appelle cela le CRAWLING)
Avec quel logiciel on fait le scraping ?
Beautiful soup BS4
C’est quoi le TAL
TRAITEMENT AUTOMATIQUE DES LANGUES
- discipline de l’informatique qui permet aux machines de comprendre, générer et analyser le langage humain (texte ou parole)
—> combine des techniques mathématiques et linguistiques
Applications pour le TAL (traitement automatique de la langue)
- traduction automatique (Google traduction)
- analyse de sentiments
- assistants vocaux (Siri)
- résumé automatique de texte
- génération de texte (chatGPT)
Étapes du traitement automatique de la langue
- PARSER : récupérer le texte et le formater
- ANALYSER : nettoyer et catégoriser
Les librairies les plus utilisées pour un graphique
- Matplotlib
- Seaborn
- Plotly
- Bokeh
Règles de base d’un graphe
- choisir le bon format
- vérifier que la représentation colle bien à l’idée et surtout aux données
- avoir un titre et une légende
- choisir les bonnes couleurs
- choisir la bonne échelle
- ne pas laisser d’éléments superflus
- ne pas mélanger les données qui n’ont aucun rapport
À ces prémices, l’ia c’était quoi ?
À ces prémices l’ia n’était qu’un ensemble d’algorithme servant à effectuer des tâches récurrentes très souvent en force brute
Définir le machine Learning
(Aussi appelé apprentissage automatique) c’est une discipline regroupant les connaissances des mathématiques, statistiques et informatiques
Méthodes de machine Learning
- modèles graphiques
- réseaux de neurones
- arbres de décisions
- régressions
- algorithme génétiques
Qu’est ce que les poids
Ce sont des paramètres de nombres variables permettant aux modèles d’apprendre
Étapes du développement d’une ia
- optimiser les données selon une fonction donnée
- classifier les données
- approximer un comportement
- générer des données
Quel est l’intérêt principal des algorithmes d’optimisation
Réduire le temps d’apprentissage d’un modèle en ajustant ses paramètres de manière plus efficace —> réduire les erreurs
Méthodes d’optimisation la plus utilisée pour ajuster les paramètres des modèles d’apprentissage en ligne
Gradient descendant
Quelle dimension est utilisée pour la réduction de la dimensionnalité
Analyse en composantes principales (ACP/PCA)