Veille informationnelle Flashcards

1
Q

Date création du Web, où quand, par qui.

A

Le Web a été créée en 1989 par l’informaticien Sir Tim Berners Lee à Genève au CERN.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
2
Q

Création internet

A

Internet a été créée par l’armée américaine dans les années 50

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
3
Q

L’histoire du WEB 1

A

1994 : ou WEB de documents (comme histoire du cinéma) : grosse influence des documents imprimés, les premières pages Web ressemblaient à celles d’un livre. Amazon a commencé en étant une librairie en ligne.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
4
Q

L’histoire du WEB 2

A

2004 : Le web social. Au début des années 2000, tout le monde commençait à avoir internet. Les blogs, le web des conversations, c’était plus intéractif. Le début de Wikipédia. C’est devenu moins pro.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
5
Q

L’histoire du WEB 3

A

2009 : apparition du Web sémantique (assez rare), de données. Ce n’est pas l’avenir, mais une surcouche d’informations pour structurer les données.
Le règne des smartphones : le Web mobile, les applis, tout devient en temps réel. Multiplication des multimédias. Plus de vidéos, de podcasts. : un web plus structuré que le XLM.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
6
Q

Le WEB de 2022

A

L’internet des objets (IOT), les métaverses. Le WEB 3 : web basé sur les blockchains, de façon à ce qu’il soit décentralisé.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
7
Q

Pourquoi la recherche d’information est complexe sur le WEB ?

A

A : abondance de l’information
H : hétérogénéité de l’information et son degré de fragmentation
M : le manque de structuration
R : le renouvellement continuel
M : le multilinguisme
M : la multiplicité des outils de recherches leur caractère.
M : la question cruciale de la fiabilité.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
8
Q

La Sérendipité

A

L’art et la faculté de trouver par hasard les informations

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
9
Q

Bruit documentaire

A

Ce sont les réponses non pertinentes, suite à une requête via un outil de recherche (Google, catalogue), qui parasitent l’obtention des réponses par leur trop grand nombre ou leur mauvaise qualités.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
10
Q

Silence documentaire

A

Lorsqu’une requête retourne peu ou pas de documents pertinents, alors que ces documents peuvent êtres disponibles via l’outil de recherche utilisé.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
11
Q

Le modèle Pull

A

Consiste à aller extraire l’information sur un serveur. Concrètement, cela peut correspondre à faire directement une recherche via un moteur, ou sur une site, ou une base de données.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
12
Q

Le modèle Push

A

C’est le serveur qui envoie automatiquement l’information sous forme d’alertes ou de notification au client, généralement selon des critères définis préalablement. C’est le principe des notifications, des fils d’actualité dans les réseaux sociaux, ou encore des flux RSS.

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
13
Q

Comment fonctionne un moteur
de recherche ?

A

Avec 3 éléments : le robot d’exploration, l’indexeur et l’interface WEB

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
14
Q

Robot d’exploration

A

(Sur Google) Il est nommé également spider ou crawler, il collecte le contenu de milliards de pages web dans une base de données structurée en
champs.
(Googlebot crawle des milliards de pages par jour! )
Le robot ne crawle pas toutes les pages tous les jours, il se donne des priorités dans la collecte (notamment les sites renouvelés fréquemment).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
15
Q

Indexeur (base de données)

A

Il s’occupe de l’indexation automatique des pages web collectées par le robot pour construire l’index de la base de données. Il le fait par vagues successives.
L’index de Google contiendrait des dizaines de milliers de milliards d’URL.
L’index principal contient les contenus texte et multimédia des pages.
L’index inversé contient les mots clés (sauf mots vides).

How well did you know this?
1
Not at all
2
3
4
5
Perfectly
16
Q

Interface web

A

L’interface met en relation le système et l’usager, et gère l’interaction entre les deux parties. Permet d’effectuer sa recherche à partir de critères
simples ou avancés. C’est nous qui effectuons les recherches. Exemple : les pages de résultat.

17
Q

Les moteurs WEB

A

Google : l’incontournable n°1 mondial
Le Google dépersonnalisé : Startpage
Bing (Microsoft)
Yahoo : s’est rapproché de Bing
Baidu : spécialisé sur la Chine
Yandex : spécialisé sur la Russie
Les solutions respectueuses de la vie privée : Qwant,
Duckduckgo, Lilo, Ecosia, BraveSearch

18
Q

L’évolution des moteurs

A

Le moteur de recherche devient de plus en plus un moteur de réponses grâce à l’I.A.
L’intelligence artificielle permet aux moteurs de « comprendre » l’intention de l’internaute et lui offrir le contenu le plus adapté, en « interprétant » les requêtes en se basant entre autres sur le comportement des internautes (taux de clic, temps passé sur chaque page…).
« effets pervers ! » Le moteur de réponses est inefficace pour les recherches complexes.

19
Q

Les principaux critères de classement des moteurs

A

1) POPPI: la pertinence :
- Occurrence et densité des mots-clés
- Présence dans l ’URL, dans la balise titre ou positionnement dans la
page
- Proximité et ordre des mots-clés (si saisie de plusieurs mots clés)
- I : influence de l’I.A.

2) L’audience
L’indice de clic (fréquentation du site)

3) La notoriété
Indice de popularité ou page rank…jusqu’à quand ?

5) La qualité et la conception du site. On peut demander de rapprocher deux noms. Google ne comprend pas, il va calculer la fréquence. Il commence tous juste à comprendre le sens des mots.

20
Q

PageRank

A

Pagerank : Note de 1 à 10, basée sur l’analyse automatisée du nombre de liens hypertextes pointant vers une page
- Créé dès 1998
- Plus une page a un score élevé, plus elle fera l’objet de liens pertinents par d’autres pages ayant un score important.

21
Q

RankBrain

A

RankBrain utilise des techniques d’intelligence artificielle pour convertir de grandes quantités de texte en vecteurs mathématiques.
- Lancé en 2015
L’objectif est d’aider le système à deviner le sens de mots ou de phrases qu’il ne
connaît pas, dans chaque langue.