TD SCRAPPING Flashcards

1
Q

Quelle librairie va-t-on utiliser pour le scrapping

A
  • resquests —> pour récupérer le contenu html
  • Beautiful soup (Bs4) —> pour analyser et extraire le texte
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

En quoi consiste le web scraping

A

Consiste à extraire des données d’un site web de manière automatisée

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

Comment importer les deux premières librairies

A

Import requests
From bs4 import BeautifuSoup

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

Étapes de l’analyse de texte

A
  • convertir le texte en liste de mots
  • compter la fréquence des mots
How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

Avec quelle bibliothèque on fait le traitement du langage naturel

A

Avec SpaCy

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Parler de la loi de Zipf

A

Elle stipule que dans un corpus de texte, la fréquence d’un mot est inversement proportionnelle à son rang : petit mot apparaît souvent et grand mot apparaît rarement

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Comment remédier à la présence peu fréquentes de certains mots en scraping

A
  • regroupement des mots rares
  • utilisation de lemmatisation
  • Filtrage des mots non pertinents
How well did you know this?
1
Not at all
2
3
4
5
Perfectly