Catalogage, indexation, recherche Flashcards
Grands types de banques de données
- bibliographiques
- textuelles
- numériques
- d’images
Métamoteur
logiciel qui interroge simultanément plusieurs moteurs de recherche
Condensation
opération consistant à extraire l’info utile d’un document puis à la mettre en forme pour produire un résumé
Types d’images
- scientifique (macro ou micro, devient lisible par sa légende)
- événementielle (la légende donne une partie de la signification)
- anecdotique (sa lecture se suffit à elle-même)
Niveaux de description des images
- catalographique (infos qui servent au classement)
- morphologique (description technique)
- sémantique (description du contenu)
Relations sémantiques dans un thésaurus
- équivalence (EP indique synonyme non retenu)
- hiérarchie (TG et TS)
- association (TA indique termes qui devraient être compris ensemble)
Folksonomie / indexation personnelle
système de classification collaborative décentralisée spontanée basé sur une indexation effectuée par des non-spécialistes
Les 4 phénomènes documentaires majeurs en France pendant les Trente Glorieuses (1946-1975)
- explosion de la production documentaire
- début utilisation des outils informatiques
- prise de conscience de l’importance cruciale de l’info dans la société
- structuration des systèmes d’org documentaire dans les entreprises
Hypercard
- logiciel développé par Bill Atkinson pour Apple en 1987
- fonctionne par piles de cartes composées d’un fond et de calques utilisant des outils graphiques (formes géométriques…)
- créé de l’hypertexte entre des cartes d’une même pile
PageRank
- algorithme à la base du moteur de recherche de Google
- classe pages web en fonction du nb de liens entrants: plus il y a de pages qui pointent vers un doc, plus ce doc sera considéré comme important
Google Scholar
moteur de recherche d’articles et publications scientifiques
Opérateurs booléens
ET, OU, SAUF
Document
contenu intellectuel + le support sur lequel il est sauvegardé
Supports de documents utilisés aujourd’hui
- papier
- optique
- électronique
Dictionnaire thématique
fournit concepts et intros générales sur un thème donné
Encylopédie de référence sur Internet
Encyclopaedia Universalis
Portail de référence pour les textes législatifs et réglementaires
Légifrance
Opérateurs de proximité
- terme 1 NEAR terme 2 -> les 2 termes sont dans la même zone de texte
- terme 1 ADJ terme 2 -> les 2 termes se suivent immédiatement
Langage contrôlé / documentaire
utilisation de termes extraits d’une liste d’autorité ou d’un thésaurus
Les 3 grands types de langage contrôlé
- classification
- liste d’autorité/de vedettes-matières
- thésaurus
Partie de vedette matière qui exprime l’essentiel du sujet
Tête de vedette
Partie de vedette matière qui apporte des précisions à la tête de vedette
Sous-vedette
Thésaurus
liste hiérarchisée de termes normalisés (les descripteurs)
2 types de caractéristiques essentiels d’un doc
- physiques (nature, support)
- intellectuelles (mode de publication, source)
Les types de flux documentaires
- entrants
- circulants
- sortants
RAMEAU
- Répertoire d’Autorité-Matière Encyclopédique et Alphabétique Unifié
- vocabulaire de termes faisant autorité + ensemble de règles qui régissent l’utilisation de ces autorités
- géré par la BnF
- d’usage obligatoire pour les biblis participant au Sudoc
Les 5 zones de l’ISBN
préfixe (978 pour les livres) - groupe national/linguistique - éditeur - titre - clé de contrôle
Flux documentaires internes
- verticaux (validation hiérarchique)
- horizontaux (partage d’infos)
Web invisible
partie du web non identifiée ni indexée par les robots des moteurs de recherche
Moteur de recherche sémantique
est capable d’analyser le sens d’une requête formulée en langage naturel
Critères de pertinence des mots-clés pour les moteurs de recherche
- nombre d’occurrences dans une page
- présence aux endroits clés (titres…)
- mise en exergue (gras…)
Clustering
méthode d’analyse statistique qui permet entre autres aux moteurs de recherche de proposer des termes associés aux mots-clés tapés
SAE (système d’archivage électronique)
a pour vocation d’assurer la conservation d’un doc numérique sur le long terme tout en empêchant les modifications ultérieures
Check-in
entrée d’un doc dans un système d’information
Check-out
sortie temporaire d’un doc d’un système d’information, permet à une seule personne à la fois de travailler dessus pour éviter les conflits de version
Workflow (flux de travaux)
représentation d’une suite de tâches ou opérations effectuées par une personne, un groupe…
Enjeux des systèmes d’information
- accès rapide à l’info
- optimisation ressources
- gérer connaissance
- protéger l’info
Outils liés aux moteurs de recherche
- SEO
- métamoteur
- crawler
- opérateur de recherche
Enjeux principaux autour des données
- OPEN DATA (mise à disposition)
- LINKED DATA (indexation sur le web pour qu’on les retrouve)
- BIG DATA (traitement et interrogation d’ensembles très volumineux)
Cotation type d’un roman de Katherine Pancol
R PAN
Ancienne pratique de cotation : roman “Muchachas” de Katherine Pancol
R PAN MUC
Les 2 genres de de fiction qu’on met facilement à partir + leurs cotations types
- roman policier – RP
- science fiction – RSF
Genre de fiction que les biblis isolent de + en + des autres
le roman de terroir
Cotations et rangement des BD, comics et mangas
- par scénariste ou titre de la série selon ce qui est le plus susceptible d’être utilisé
- BD
- CO
- MA
Classement des films
par nom de réalisateur si film d’auteur sinon par titre
Cotation de la poésie et du théâtre
- P / T si on veut tout regrouper sans distinction de pays (pertinent pour le théâtre)
- 800 si on veut un classement fin (système préféré par les amateurs de poésie)
Cotation d’un ouvrage anonyme ou collectif (= + de 3 auteurs)
on prend les 3 premières lettres du titre
Cotation d’un documentaire
indice Dewey + les 3 premières lettres de l’auteur ou du titre
Indexation
- classifier les connaissances contenues dans les docs pour permettre la recherche
- sert à classer les docs sur les rayonnages pour permettre le libre accès
Les 2 sortes d’indexation
- Systématique – création d’un indice qui
permet d’établir la cote du document (indice + les trois
premières lettres du nom de l’auteur ou du titre) - Analytique – création d’un ou plusieurs
mots clés qui permettent la recherche alphabétique
matière
Les 2 approches possibles d’un contenu
Au niveau de la discipline :
• Langages classificatoires
• Indexation systématique
ex/ classification décimale
Au niveau du sujet :
• Langages matières
• Indexation analytique
ex/ RAMEAU, thésaurus
Analyse documentaire
- analyse du contenu d’un doc
- identification des concepts, du sujet, du point de vue selon lequel le sujet est traité
Les 4 grandes classifications
- 1876 – la CDD
- 1897 – classification de la Bibliothèque du
Congrès - 1905 – la CDU
- la BBK (classification soviétique)
CDD [000]
Informatique, information, ouvrages généraux
CDD [100]
Philosophie, parapsychologie et occultisme, psychologie
CDD [200]
Religion
CDD [300]
Sciences sociales
CDD [400]
Langues
CDD [500]
Sciences de la nature et mathématiques
CDD [600]
Technologie (sciences appliquées)
CDD [700]
Art, Beaux-arts et arts décoratifs
CDD [800]
Littératures et techniques d’écriture
CDD [900]
Géographie, histoire
Structure de l’indice Dewey
- 10 grandes classes > 10 divisions > 10 subdivisions > .extensions
- aucun indice n’a moins de 3 chiffres
- après le point de l’extension, toutes les séries de 3 chiffres sont séparées par un espace
Tables auxiliaires
- 6 tables qui viennent compléter les indices Dewey principaux
donnent :
- précision sur la forme de l’ouvrage (dictionnaire, manuel, périodique, étude biographique)
- catégories de personnes concernées (hommes, femmes, malades, groupes ethniques)
- précision géographique, historique, ethnique ou linguistique
Dewey – plusieurs sujets traités dans un même document
- règle du sujet prépondérant
- règle du sujet qui subit l’influence – ex/ “Influence de la bible dans la littérature américaine” => classé en
littérature - règle de l’indice interdisciplinaire – premier indice proposé dans l’index (abréviation o.i.)
- règle de l’indice général – ex/ cinéma (791.43) et télévision (791.45) => classé en 791.4
Dewey – règle générale d’utilisation du zéro
- pas de construction avec deux 0 de suite ou
plus - on supprime un zéro à l’indice auxiliaire s’il se place derrière un indice principal se terminant par zéro – ex/ 610 (médecine) + 03 (dictionnaire) => 610.3
Dewey – règles générales de construction d’un indice
- indice principal 1 + indice principal 2 (si autorisé)
- indice principal + partie d’un autre indice (si autorisé)
- indice signalé par * + éléments de tables spécifiques
Avantages RAMEAU
- traduire le contenu d’un document de façon unifiée
- évolutif: la liste s’enrichit en fonction des documents à indexer
Indexation matière
- donne accès à docs par sujet
- forme d’indexation analytique
- on va jusqu’au + spécifique (du moins pour la BnF, pour les plus petites biblis, cela obligerait à créer des vedettes quasi vides) – ex/ picodon pour le fromage picodon
Notices d’autorité
permettent de gérer l’ensemble des points d’accès aux notices bibliographiques – ex/ les fiches de vedettes RAMEAU
Library of Congress Subject Headings
- 1ère liste de vedettes matières
- ancêtre direct de Rameau
- 1946: traduction en français par l’université Laval à Québec – RVM (Répertoire de Vedettes Matières)
Répertoire de Vedettes Matières
- créé en 1946 à Québec comme traduction du LCSH
* convention Bpi avec Laval en 1974 => utilisation du RVM en France (jusque là, pas vraiment de règle d’indexation)
LAMECH
- 1985 – création
* 1986 – devient Rameau – utilisation par la BnF
Blanc Montmayeur
- liste de vedettes matières d’abord privilégiée par les BM car beaucoup - de règles contraignantes
- 1994 – Electre passe de Blanc Montmayeur à Rameau – BM commencent à adopter massivement Rameau
Ordre logique des VM (RAMEAU)
- Concept (TV et subd. sujet)
- Lieu
- Temps
- Genre / Forme
Chaîne de VM construite (RAMEAU)
- Tête de Vedette (TV)
- Subdivision sujet – pas 2 à la fois sauf exceptions si on ne peut pas faire autrement et si les subd sont compatibles entre elles – ex/ sein – cancer – diagnostic
- Subdivision géographique
- Subdivision chronologique
- Subdivision de forme – intellectuelle / matérielle / genre artistique
Types de sujets en TV (RAMEAU)
- noms communs
- noms géographiques + chronologie spécifique – ex/ France – 1789-1799 (Révolution)
- noms géographiques
- noms propres
- collectivités – ex/ Bibliothèque nationale de France
Exemples de subdivisions géographiques : le cinéma et l’Iran (RAMEAU)
- cinéma iranien => type particulier de cinéma avec un ensemble de codes, étudié en tant que tel
- cinéma – iran => le cinéma en Iran
Subdivision géographique directe (RAMEAU)
- pays
- continents
- territoires contestés – ex/ Jérusalem
- territoires d’outre-mer – ex/ Guadeloupe
ex/ hôpitaux – Belgique
Subdivision géographique indirecte (RAMEAU)
- noms de lieux compris à l’intérieur d’un pays (villes, cours d’eau…) – ex/ hôpitaux – Belgique – Bruxelles (Belgique)
- villes anciennes et sites archéologiques
Les 3 types de datation (RAMEAU)
- subdivision chronologique spécifique
- subdivision chronologique d’emploi général
- autres formes de datation
Subdivision chronologique spécifique (RAMEAU)
- liée à un lieu – ex/ 1871 (Commune)
- liée à lieu + subdivision de sujet – ex/ Chili – Conditions économiques – 1970-1973
- liée à une forme d’art spécifique
- liée à une langue – ex/ Anglais (langue) – 450-1100 (vieil anglais)
Subdivision chronologique d’emploi général (RAMEAU)
- dater les sujets non datés
- par grandes périodes, millénaires, siècles
- peuvent être ouvertes – ex/ 1800-…
- sont + détaillées à partir du 20e siècle – ex/ 1900-1945
Autres formes de datation (RAMEAU)
- (précisions chronologiques) – ex/ Guerre Mondiale (1939-1945)
- adjectifs de périodisation – pas de datation pour la Préhistoire – on utilise l’adjectif “préhistorique”
Subdivisions de forme (RAMEAU)
- apportent informations sur la nature du document, sa présentation matérielle…
- peuvent être spécifiques à certains sujets – ex/ [instrument de musique] – méthodes
- peuvent être doublées
Descripteurs RAMEAU
- LANGAGE NATUREL => dépouiller la presse / chercher ce qui est plus neutre ou plus utilisé – ex/ noir-américain plutôt que afro-américain
- FRANÇAIS sauf si terme étranger passé dans le langage courant – ex/ marketing plutôt que mercatique
- PLURIEL sauf si le singulier a un sens à part – ex/ cinéma = le septième art / cinémas = salles de cinéma
- LOCUTIONS – ex/ espaces verts
- FORMES DÉCONSTRUITES – ex/ vache folle, Affaire de la
- VEDETTES AVEC (PRÉCISIONS) – ex/ souris (informatique) / cuisine (produit spécifique de base)
Catégories de personnes RAMEAU
- âge / sexe
- socioprofessionnelles – ex/ agriculteurs
- états physiologiques particuliers – ex/ femmes enceintes
- groupes économiques / politiques / religieux / sociaux – ex/ actionnaires
- catégories de personnes + adjectifs de nationalité / ethniques / d’origine géographique – ex/ enfants navajo
Précisions apportées à une subdivision géographique (RAMEAU)
- ville (pays étranger) – ex/ Tel Aviv (Israël)
- ville française (département) – ex/ Lille (Nord)
- ville américaine (État abrégé) – ex/ San Francisco (Calif.)
- État américain (États-Unis) – ex/ Colorado (États-Unis)
Réforme RAMEAU (2016-2022)
- simplifier la syntaxe
- adapter au web de données
- il y aura une entrée pour chaque subdivision – ce ne sera plus possible de faire porter des recherches type sommeil – ouvrages pour la jeunesse pour trouver des livres sur le sommeil pour enfants
- la précision [+ subd géogr] n’existe plus car maintenant tous les sujets noms communs admettent la localisation