CM Flashcards

1
Q

C’est quoi le principe ETL

A
  • Extract : on identifie et on extrait les données brutes
  • Transform : on va transformer ces données brutes pour les rendre facilement exploitables
  • Load : on va charger ces données transformées dans une base
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Dans quels domaines on va utiliser les sciences de la donnée

A

Math
Analyse
Optimisation
Statistiques
Programmation informatique

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Définir la donnée

A

Tout est fait de données —> photo, vidéo, recherche, réseaux sociaux

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Population définition

A

Groupe d’objets d’intérêt

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Définition variable

A

Une mesure, une propriété ou une caractéristique qui peut changer ou varier
—> opposé d’une constante

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Variable qualitative

A

Décrit des qualités ou des caractéristiques (comme le pays, l’origine, le sexe)

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Variable quantitative

A

Caractéristiques mesurables
—> taille, poids, température

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

Définition statistiques

A

Mesure calculée sur une ou plusieurs variables

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Type de donnée quantitative et qualitative

A

Qualitative :
- nominale
- ordinale
Quantitative :
- discrète
- continue

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Définir une variable qualitative ordinale et nominale

A

Ordinale : variables qualitatives avec ordonnancement (pas numériques mais peuvent être ordonnées)
Nominale : variables qualitatives sans ordonnancement

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Définir une variable quantitative discrète et continu

A
  • Discrète : les valeurs des données sont séparées et distinctes, ENTRE DEUX VALEURS CONSÉCUTIVES IL Y’A RIEN
  • continue : les données sont infinies et ininterrompues, infinité de valeurs entre deux termes consécutifs
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Comment on peut récolter des données

A
  • questionnaire
  • entretien
  • observation
  • analyse de documents
  • web scraping
  • mesures de machine
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Comment on appelle les données collectées et les données collectées non traitées

A

Les données brutes
Données sources ou données primaires

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Comment on obtient des données

A
  • fait sur un événement naturel (mesure)
  • sondage
  • récolter de manière automatique
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Rôle d’un data

A

Pas de créer la donnée mais de savoir l’exploiter

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Comment structurer des données

A
  • feuilles de calcul
  • bases de données (Avec des tables)
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
17
Q

Comment est organisé un tableau ?

A
  • colonnes (columns) = variable
  • rows (lignes) = valeur pour chaque variable
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
18
Q

Sur quoi repose la base de données relationnelles

A
  • structure
  • modèle rigide
  • langage
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
19
Q

Base de données non relationnelles

A

Structure
Modèle flexible
Scalabilité horizontale

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
20
Q

Définir la somme, la moyenne et la médiane

A

Somme : total des valeurs
Moyenne : total des valeurs divisé par le nombre de lignes
Médiane : valeur qui permet de couper l’ensemble des valeurs en deux parties égales

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
21
Q

Définir la variance, l’écart type, le compte

A
  • Variance : mesure de la dispersion par rapport à la moyenne
  • Écart type : racine carrée de la variance
  • compte : nombre d’occurence d’une valeur
22
Q

C’est quoi une distribution

A

Répartition des fréquences des observations —> c’est la 1er étape de l’analyse des données

23
Q

Comment représenter la distribution de variable

A

Histogramme
Courbes de densité
Boite à moustache

24
Q

C’est quoi une corrélation

A

Mesure qui montre à quel point les paires de variables quantitatives évoluent ensemble

25
Q

Différence entre corrélation et causalité

A
  • corrélation : explique à quel point les variables sont liées mais n’explique pas pourquoi ni comment
  • causalité : pourquoi ces variables sont liées
26
Q

Définir la corrélation de Pearson + comprise en quoi et quoi

A

Entre -1 et 1
- Mesurer la force et la direction de la relation linéaire entre deux variables quantitatives

27
Q

À qui correspondent les colonnes et les lignes

A

Colonnes = variable
Lignes = données

28
Q

Qu’utilise-t-on pour les données

A
  • excel
  • tableau
  • python
29
Q

Rôle de pandas

A

Librairie python permettant de construire et de manipuler des tableaux de données

30
Q

Que peut on faire avec pandas

A
  • effectuer des opération
  • pré-filtrer
  • organiser les colonnes / lignes
31
Q

Qu’est ce que la théorie de Gestalt définit ?

A

Définit les principes de la perception

32
Q

Quels sont les types de perception de la théorie Gestalt ?

A
  • proximité
  • similarité
  • continuité
33
Q

Principe de la théorie de la proximité

A

Les éléments les plus proches vont être perçus comme appartenant à un même groupe

34
Q

Expliquer le principe de la similarité

A

Les éléments ayant le plus de similarités graphiques vont induire un sens identique, des fonctions similaires ou une importance commune

35
Q

Définir le principe de la continuité

A

Plus la proximité des éléments visuels est importante, plus nous les voyons dans la continuité comme s’ils ne formaient plus qu’une partie unique

36
Q

Types de graphe

A
  • diagramme en bâton (histogramme)
  • graphe de ligne
  • nuage de points
  • camembert
37
Q

Types de données textuelles

A
  • structurées (json)
  • séminaire structuré (HTML)
  • non structuré (livre)
38
Q

Rôle du web scraping et principe

A

Télécharger et récupérer le texte d’une page internet
(Si la page possède des liens vers d’autres pages on appelle cela le CRAWLING)

39
Q

Avec quel logiciel on fait le scraping ?

A

Beautiful soup BS4

40
Q

C’est quoi le TAL

A

TRAITEMENT AUTOMATIQUE DES LANGUES
- discipline de l’informatique qui permet aux machines de comprendre, générer et analyser le langage humain (texte ou parole)
—> combine des techniques mathématiques et linguistiques

41
Q

Applications pour le TAL (traitement automatique de la langue)

A
  • traduction automatique (Google traduction)
  • analyse de sentiments
  • assistants vocaux (Siri)
  • résumé automatique de texte
  • génération de texte (chatGPT)
42
Q

Étapes du traitement automatique de la langue

A
  • PARSER : récupérer le texte et le formater
  • ANALYSER : nettoyer et catégoriser
43
Q

Les librairies les plus utilisées pour un graphique

A
  • Matplotlib
  • Seaborn
  • Plotly
  • Bokeh
44
Q

Règles de base d’un graphe

A
  • choisir le bon format
  • vérifier que la représentation colle bien à l’idée et surtout aux données
  • avoir un titre et une légende
  • choisir les bonnes couleurs
  • choisir la bonne échelle
  • ne pas laisser d’éléments superflus
  • ne pas mélanger les données qui n’ont aucun rapport
45
Q

À ces prémices, l’ia c’était quoi ?

A

À ces prémices l’ia n’était qu’un ensemble d’algorithme servant à effectuer des tâches récurrentes très souvent en force brute

46
Q

Définir le machine Learning

A

(Aussi appelé apprentissage automatique) c’est une discipline regroupant les connaissances des mathématiques, statistiques et informatiques

47
Q

Méthodes de machine Learning

A
  • modèles graphiques
  • réseaux de neurones
  • arbres de décisions
  • régressions
  • algorithme génétiques
48
Q

Qu’est ce que les poids

A

Ce sont des paramètres de nombres variables permettant aux modèles d’apprendre

49
Q

Étapes du développement d’une ia

A
  • optimiser les données selon une fonction donnée
  • classifier les données
  • approximer un comportement
  • générer des données
50
Q

Quel est l’intérêt principal des algorithmes d’optimisation

A

Réduire le temps d’apprentissage d’un modèle en ajustant ses paramètres de manière plus efficace —> réduire les erreurs

51
Q

Méthodes d’optimisation la plus utilisée pour ajuster les paramètres des modèles d’apprentissage en ligne

A

Gradient descendant

52
Q

Quelle dimension est utilisée pour la réduction de la dimensionnalité

A

Analyse en composantes principales (ACP/PCA)