Veille informationnelle Flashcards
Date création du Web, où quand, par qui.
Le Web a été créée en 1989 par l’informaticien Sir Tim Berners Lee à Genève au CERN.
Création internet
Internet a été créée par l’armée américaine dans les années 50
L’histoire du WEB 1
1994 : ou WEB de documents (comme histoire du cinéma) : grosse influence des documents imprimés, les premières pages Web ressemblaient à celles d’un livre. Amazon a commencé en étant une librairie en ligne.
L’histoire du WEB 2
2004 : Le web social. Au début des années 2000, tout le monde commençait à avoir internet. Les blogs, le web des conversations, c’était plus intéractif. Le début de Wikipédia. C’est devenu moins pro.
L’histoire du WEB 3
2009 : apparition du Web sémantique (assez rare), de données. Ce n’est pas l’avenir, mais une surcouche d’informations pour structurer les données.
Le règne des smartphones : le Web mobile, les applis, tout devient en temps réel. Multiplication des multimédias. Plus de vidéos, de podcasts. : un web plus structuré que le XLM.
Le WEB de 2022
L’internet des objets (IOT), les métaverses. Le WEB 3 : web basé sur les blockchains, de façon à ce qu’il soit décentralisé.
Pourquoi la recherche d’information est complexe sur le WEB ?
A : abondance de l’information
H : hétérogénéité de l’information et son degré de fragmentation
M : le manque de structuration
R : le renouvellement continuel
M : le multilinguisme
M : la multiplicité des outils de recherches leur caractère.
M : la question cruciale de la fiabilité.
La Sérendipité
L’art et la faculté de trouver par hasard les informations
Bruit documentaire
Ce sont les réponses non pertinentes, suite à une requête via un outil de recherche (Google, catalogue), qui parasitent l’obtention des réponses par leur trop grand nombre ou leur mauvaise qualités.
Silence documentaire
Lorsqu’une requête retourne peu ou pas de documents pertinents, alors que ces documents peuvent êtres disponibles via l’outil de recherche utilisé.
Le modèle Pull
Consiste à aller extraire l’information sur un serveur. Concrètement, cela peut correspondre à faire directement une recherche via un moteur, ou sur une site, ou une base de données.
Le modèle Push
C’est le serveur qui envoie automatiquement l’information sous forme d’alertes ou de notification au client, généralement selon des critères définis préalablement. C’est le principe des notifications, des fils d’actualité dans les réseaux sociaux, ou encore des flux RSS.
Comment fonctionne un moteur
de recherche ?
Avec 3 éléments : le robot d’exploration, l’indexeur et l’interface WEB
Robot d’exploration
(Sur Google) Il est nommé également spider ou crawler, il collecte le contenu de milliards de pages web dans une base de données structurée en
champs.
(Googlebot crawle des milliards de pages par jour! )
Le robot ne crawle pas toutes les pages tous les jours, il se donne des priorités dans la collecte (notamment les sites renouvelés fréquemment).
Indexeur (base de données)
Il s’occupe de l’indexation automatique des pages web collectées par le robot pour construire l’index de la base de données. Il le fait par vagues successives.
L’index de Google contiendrait des dizaines de milliers de milliards d’URL.
L’index principal contient les contenus texte et multimédia des pages.
L’index inversé contient les mots clés (sauf mots vides).