TD SCRAPPING Flashcards
1
Q
Quelle librairie va-t-on utiliser pour le scrapping
A
- resquests —> pour récupérer le contenu html
- Beautiful soup (Bs4) —> pour analyser et extraire le texte
2
Q
En quoi consiste le web scraping
A
Consiste à extraire des données d’un site web de manière automatisée
3
Q
Comment importer les deux premières librairies
A
Import requests
From bs4 import BeautifuSoup
4
Q
Étapes de l’analyse de texte
A
- convertir le texte en liste de mots
- compter la fréquence des mots
5
Q
Avec quelle bibliothèque on fait le traitement du langage naturel
A
Avec SpaCy
6
Q
Parler de la loi de Zipf
A
Elle stipule que dans un corpus de texte, la fréquence d’un mot est inversement proportionnelle à son rang : petit mot apparaît souvent et grand mot apparaît rarement
7
Q
Comment remédier à la présence peu fréquentes de certains mots en scraping
A
- regroupement des mots rares
- utilisation de lemmatisation
- Filtrage des mots non pertinents