
## [Descripteurs](https://www.cnrtl.fr/definition/descripteur)
Les descripteurs sont des mots-clés, des termes qui servent à traduire des concepts, à caractériser l'information contenue dans un document. Ils servent à indexer les documents pour en faciliter la recherche.
D'après la définition de l'AFNOR de 1987, un descripteur est "choisi parmi un ensemble de termes équivalents pour représenter sans ambiguïté une notion apparaissant dans un document ou dans une demande de recherche documentaire."
Contrairement à un mot-clé, c'est un terme issu d'un vocabulaire contrôlé. Les descripteurs sont bien souvent normalisés dans un thésaurus.

---
## [Folksonomie](https://bbf.enssib.fr/consulter/bbf-2006-04-0066-002)
Une folksonomie est un système de classification collaborative dont le vocabulaire n’est ni contrôlé ni organisé. Ce type d’indexation n’est pas réalisé par des documentalistes mais par des non-spécialistes, par tout un chacun. Les termes utilisés pour décrire les documents sont souvent appelés mots-clés, tags ou étiquettes. N’étant pas du tout prédéfinis, ces termes dépendront de l’indexeur. Un même document sera donc décrit avec des mots-clés différents d’un indexeur à l’autre. La recherche d’information sera donc réalisée en passant d’un mot-clé à un autre, d’un synonyme à un autre. La recherche peut paraitre plus longue mais l’avantage c’est que l’abondance de tags pour un même document augmente les chances que les termes utilisés pour indexer un document correspondent à ceux utilisés par la personne qui réalise la recherche.
---

## [HAL (Hyperspace Analogue To Language) ](http://oro.open.ac.uk/33902/)
Le HAL est une méthode statistique pour déterminer les mots liés avec d’autres dans un corpus :
Voici le processus d’indexation du HAL :
1. Filtrage des mots – Les documents sont épurés des mots vides : « la », « la », « a », « été », « pour », « il », « y », « des », « en ». Cette étape se fait via une liste stop words.
2. Matrice des cooccurrences – Le HAL calcule dans un premier temps une matrice de cooccurrence. Cette matrice contient des poids qui indiquent si deux mots sont cooccurrents dans le texte. Prenons le document Doc 1. Les mots « Sarkozy » et « débute » sont voisins (côte à côte) dans le texte : ils sont comptés comme cooccurrents. « campagne » est le voisin du voisin de « Sarkozy » : ils seront comptés comme cooccurrents mais avec un poids plus faible que le couple précédent. En pratique voici la formule qui permet de calculer le poids :
Poids = taille de la fenêtre + 1 – distance entre les deux mots
La taille de la fenêtre est la distance maximale acceptée pour le calcul du poids.
3. Calcul des vecteurs de cooccurrence
On peut déduire des vecteurs de cooccurrence via la matrice précédente. Un vecteur correspond à l’union des contextes gauches et droits d’un mot.
4. Calcul des similarités entre les vecteurs de cooccurrence - On peut ensuite calculer les distances entre les vecteurs de cooccurrence grâce à la distance du cosinus.
Le résultat de ces calculs montre par exemple que la similarité entre « UMP » et « PS » est de 80% : sim(UMP, PS) = 4 / (rac(5) * rac(5)) = 0,8.
Il existe d’autres algorithmes du même genre : LSI (Indexation Sémantique Latente), (PLSI (Indexation Sémantique Latente Probalistique), LDA (Latest Dirichlet Allocation).
---

## [Rameau](https://rameau.bnf.fr/informations/rameauenbref)
RAMEAU est le vocabulaire d’indexation utilisé par un grand nombre de bibliothèques francophones. Il est utilisé par la Bibliothèque Nationale de France, par un nombre important de bibliothèques spécialisées ainsi que dans les bibliothèques municipales et départementales. Les mots contenus dans la liste RAMEAU comportent les liens classiques de tout thésaurus (liens associatifs, génériques et spécifiques). Mais contrairement à un thésaurus qui est spécialisé dans un domaine précis (comme l’archéologie, l’architecture…), RAMEAU couvre toutes les disciplines scientifiques.
L’avantage de l’utilisation de la liste RAMEAU, en plus de recouvrir plusieurs domaines, est la pré-coordination des mots de l’encyclopédie de RAMEAU. La pré-coordination signifie que l’ordre des mots lors de la saisie est important lorsque l’on fait une recherche. Par exemple, « Droit – Informatique » se rapportera à « l’informatique juridique » tandis que la recherche « Informatique – Droit » désignera le « droit de l’informatique ».
---

## [Métadonnées](https://www.enssib.fr/le-dictionnaire/metadonnees)
Une métadonnée est une donnée qui décrit une autre donnée dont le support peut être physique ou numérique.
Une notice bibliographique peut être considérée comme une métadonnée puisqu’elle décrit un document qui est une donnée.
D’une manière générale, il existe trois grands types de métadonnées :
Les métadonnées qui décrivent une source pour permettre son identification et sa recherche. Ces métadonnées peuvent ainsi par exemple donner des renseignements sur le titre, le nom de l’auteur ou fournir un résumé du document. Ce type de métadonnées facilite la recherche documentaire.
Les métadonnées qui renseignent sur la structure d’un document avec par exemple une explication de l’agencement des chapitres d’un livre.
Les métadonnées qui aident à l’administration avec par exemple des renseignements concernant les dates de création du document, son type, les personnes qui sont autorisée à accéder à cette ressource, comment conserver et stocker cette information, etc. Ces métadonnées sont utiles pour gérer les ressources d’information.
En 1995, un atelier fut organisé à Dublin concernant les métadonnées donnant naissance à une norme sur les métadonnées (ISO 15836-2003, RFC 5013). L’ensemble des métadonnées traitées durant cet atelier sont appelées métadonnées Dublin Core et sont cataloguées par la Dublin Core Metadata Initiative (DCMI).
---

## [MODS](https://fr.wikipedia.org/wiki/Metadata_Object_Description_Schema)
MODS (Metadata Object Description Schema) est un modèle destiné au traitement de données bibliographiques, en particulier dans le contexte des bibliothèques, mais peut être élargi à d'autres usages. Ce modèle permet de décrire des ressources très diverses telles que des textes, images, partitions, sites Web …
Il a été développé en 2002 par la Bibliothèque du Congrès. Celle-ci en assure la gestion et met à disposition des utilisateurs de MODS un schéma XML (qui est une recommandation du W3C), dont la version actuelle est la 3.4.
Le standard MODS est utilisé dans de nombreuses bibliothèques à travers le monde.
Principes de représentation
Pour convertir un document au format MODS, des normes sont à respecter. Chaque information concernant ce document doit être disposée entre les balises qui lui correspondent.
Voici une liste des balises principales caractérisant un document respectant la norme MODS, ainsi qu’une description de celles-ci:
∙ titleInfo : élément englobant qui regroupe les informations relatives au(x) titre(s) de la ressource. Les éléments constitutifs du titre sont encodés dans des éléments spécifiques du type title, subTitle…
∙ name : informations identifiant une personne ou une collectivité et précisant son rôle (responsabilité). Cet élément contient des éléments plus spécifiques du type namePart, description…
language : langue(s) sous une forme textuelle ou codée.
abstract : résumé.
subject : élément englobant qui regroupe les sujets. Il peut contenir des éléments plus spécifiques du type topic, temporal, titleInfo…
identifier : identifiant normalisé (ISBN, URI par exemple)
location : institution qui conserve et/ou met à disposition la ressource décrite (exemplaire)
Ces différentes appellations permettent de respecter le modèle MODS et d’obtenir un format universel, facilitant par conséquent une exploitation de ces documents.
Extrait du fichier MODS :
```xml=
<modsCollection>
<mods>
<location>
<url>http://www.canadiana.org/ECO/ItemRecord/40145</url>
</location>
<titleInfo>
<title>On Algonkin names for man </title> [champ « Title » de la notice]
</titleInfo>
<name>
<namePart>Trumbull, J. Hammond</namePart> [champ « Principal Author »]
</name>
<abstract>Title from title screen."[From the Transactions of the American Philological Association, 1871]." </abstract> [champ « General Note »]
<subject>
<topic>Algonkin language -- Etymology.</topic>
</subject>
<subject>
<topic>Algonquin (Langue) -- Étymologie.</topic>
</subject>
<typeOfResource>text</typeOfResource>
<recordInfo>
<recordContentSource>Canadiana.org</recordContentSource>
</recordInfo>
</mods>
(…)
</modsCollection>
```
NB : Les notes en rouge ont été rajoutées pour une meilleure compréhension
---

## [Notice documentaire](https://www.enssib.fr/services-et-ressources/questions-reponses/notice-de-catalogue-et-notice-bibliographique)
Une notice documentaire est une fiche qui décrit un document. Elle comporte un ensemble d'indications permettant d'identifier, de localiser et de décrire sommairement le document en question.
Une notice peut être décrite de façon normalisée grâce à des langages de description de schéma (exemple : MODS).
---

## [Ontologie](https://www.cnrtl.fr/lexicographie/ontologie)
Une ontologie correspond à un vocabulaire contrôlé et organisé et à la formalisation explicite des relations créées entre les différents termes du vocabulaire. »
Par exemple si un terme est défini comme étant une sous-catégorie d’un autre terme alors il existe une relation entre ces deux termes.
Pour réaliser cette formalisation, on peut utiliser un langage particulier. Un des langages utilisés pour décrire les relations entre les différents termes d'un vocabulaire s'appelle RDF. Le langage SKOS permet également de développer les ontologies.
Les ontologies peuvent être considérées « comme un prolongement du thésaurus et une manière de le rendre viable et fonctionnel sur le web. Dès lors, une ontologie serait une version de thésaurus bien plus sophistiquée, avec une vision pluridimensionnelle des termes.
---

## [RDF (Resource Definition Framework)](https://blogs.univ-poitiers.fr/glossaire-mco/2013/03/29/resource-description-framework/)
D’après le site descripteurs, « RDF (Resource Definition Framework) est un langage qui sert de cadre formel pour décrire des "ressources". Dans le contexte RDF, tout ce qui est manipulé s’appelle ressource. À chaque élément décrit correspond un triplet RDF qui définit précisément cet élément. Cet ensemble d’information peut alors être traité automatiquement par un programme informatique.
Pour aller plus loin, le triplet recouvre :
le sujet : la ressource décrite. […]
le prédicat : propriété ou attribut. […]
l’objet : valeur pour telle propriété. […] »
---

## [Référentiel](https://www.cnrtl.fr/definition/r%C3%A9f%C3%A9rentiel)
D’après le site « guideinformatique.com », un référentiel est une « mise en commun intellectuelle de terminologie, de pratiques ou de règles servant de référence. Le référentiel rassemble ainsi sous un vocabulaire commun (et généralement explicite) toutes les notions que s’échangent les différents services et logiciels de l’entreprise. »
Les référentiels servent de cadre commun et existent sur des supports très variés allant du papier au disque dur en passant par les bandes magnétiques.
Il existe différents types de référentiels :
Dictionnaires explicatifs/traductifs,
Encyclopédies,
Répertoires spécialisés : tables ou recueils où les matières sont rangées dans un ordre qui les rend facile à trouver,
Annuaires,
Lexiques : dictionnaires spécialisés reprenant les termes utilisés dans une science ou une technique,
Thésaurus…
---

## [SKOS (Simple Knowledge Organisation System)](https://www.w3.org/2004/02/skos/)
SKOS ou Système simple d’organisation des connaissances) est un langage de représentation de schémas de concepts, qui recouvre les langages documentaires tels que les thésaurus, classifications, etc.
Son nom a été choisi pour mettre en évidence l’objectif même visé par ce langage : « proposer un système permettant d’exprimer et de gérer des modèles interprétables par les machines dans la perspective du web sémantique. »
Ce modèle est défini comme « simple » par opposition à d’autres modèles, comme OWL, plus à même de représenter des structures sémantiques plus riches telles que les ontologies, mais de ce fait également plus complexes à utiliser.
SKOS est depuis le 18 août 2009, une recommandation du World Wide Web Consortium* (W3C).
Principes de représentation de SKOS
Le formalisme de représentation utilisé par SKOS repose sur les graphes RDF. Le concept constitue le centre du graphe auquel peuvent notamment être attachés en tant que propriétés RDF :
les indications portant sur le concept lui-même :
des termes préférentiels ou alternatifs, les équivalents dans d’autres langues,
les termes cachés, très pratiques pour gérer des variantes correspondant à des fautes d’orthographes courantes, ce qui permettra de les prendre en compte en recherche sans qu’elles apparaissent en affichage ou en impression du thésaurus,
la représentation par une image ;
les différents types de notes : notes de définition et d’application (scope note), exemples, notes historiques, etc. ;
les relations sémantiques : hiérarchie et association.
Composition de SKOS
L’élément essentiel est le « SKOS Core », ou le noyau de SKOS. Ce terme de noyau est à prendre au sens propre car il s’agit bien des classes et des propriétés de base. Elles peuvent être complétées par les « SKOS Extensions », les extensions de SKOS, qui permettent de:
représenter les relations de manière plus fine : il est possible, par exemple, de préciser si la nature d’une relation de hiérarchie est de type tout/partie ou classe/instance ;
préciser certains attributs d’un concept : une note historique, par exemple.
---

## [Taxonomie](https://www.cnrtl.fr/definition/Taxonomie)
Dans une taxonomie, le vocabulaire contrôlé est organisé sous forme hiérarchique simple. Cette hiérarchisation correspond souvent à une spécialisation. Il existe donc un lien précis entre un terme du vocabulaire et ses enfants. Ce lien donne un sens supplémentaire, une signification. D'un vocabulaire contrôlé, on passe à un vocabulaire organisé.
Les taxonomies permettent de traduire des relations hiérarchiques de type généralisation ou spécialisation entre les descripteurs.
Thésaurus
Un thésaurus est un vocabulaire contrôlé (ensemble de descripteurs) et organisé (ensemble de relations entre les descripteurs) servant à représenter des concepts.
Les relations existantes entre les descripteurs sont des relations d'équivalence (synonymes), des relations de hiérarchisation (spécification ou généralisation) et des relations d'association (du type "relatif à" ou "similaire à").
Ainsi lorsque l’on recherche un mot avec un thésaurus, la recherche s’étendra à tous les mots équivalents, parents et associés. L’utilisateur aura donc plus de chance de trouver un résultat correspondant à sa recherche.
Par exemple un thésaurus reliant « vente » à « production », « voiture » à « véhicule », et « France » à « Europe », permettra pour une question portant sur les ventes de voitures en France de trouver des ressources indexées avec « production » « véhicule » « Europe ».
---

## [URI (Uniform Ressource Identifier)](http://www.standard-du-web.com/uniform_resource_identifier.php)
Une URI est un identifiant uniforme de ressource. D’après le site descripteurs, « L’URI est le protocole qui normalise la syntaxe de la chaîne de caractères qui identifie une ressource physique (image, document sur le web) ou abstraite (concepts) ». Une URI doit permettre d’identifier une ressource de manière unique et pérenne sur un réseau (par exemple le web). D’après le site descripteurs, « cet identificateur permet aussi de distinguer des ressources entre elles. Parmi les URI, on peut distinguer: l’URL (Uniform resource locator = Localisation de ressource uniforme) » qui identifie une ressource sur un réseau, la localise et permet d’en obtenir une représentation. Il existe également l’URN (Universal Resource Name = Nom de ressource uniforme) qui identifie la ressource indépendamment de sa localisation. Le code ISBN, qui est l’identifiant unique d’un livre et permet de le retrouver dans n’importe quelle librairie ou bibliothèque dans le monde entier, est aussi une forme d’URI.
---

## [Vocabulaire](https://www.cnrtl.fr/definition/vocabulaire)
Le but d’un vocabulaire est d’organiser et de clarifier l’information qui nous entoure. Un vocabulaire est un ensemble de termes définis et partagés par un groupe afin d’échanger de l’information. La signification du vocabulaire est dépendante du groupe qui l'utilise. Il n'y a pas nécessairement d'organisation logique des termes entre eux. Le glossaire d'un livre est un vocabulaire.
---

## [W3C (World Wide Web Consortium)](https://fr.wikipedia.org/wiki/World_Wide_Web_Consortium)
Le World Wide Web Consortium est un organisme de standardisation qui a été fondé en 1994.
Il est chargé de définir des standards pour les technologies liées aux web telles que HTML ou RDF.