# Le balisage fort avec la TEI
## Entretien avec Laurent Romary
- Peux-tu te présenter ?
- Comment se traduit la question de la reproductibilité et de la transparence en SHS, LSH ? On parle beaucoup de la difficulté de reproduire des expériences, des résultats statistiques.
- Qu'est-ce qu'un "résultat", qu'est-ce qu'une recherche "robuste" en SHS?
- Quelles sont tes pratiques de recherche pour qu'elles soient reproductibles et transparantes ?
- En quoi la TEI aide à être plus transparent dans la recherche?
- Quel est l'Intérêt de mettre un texte au format TEI par rapport au format epub par exemple ?
- A quel moment il est intéressant de basculer dans la TEI ? A quel stade du travail de recherche dois-je passer à l'encodage ? Est-ce que cela vaut la peine si j'ai déjà beaucoup avancé dans mon projet de recherche ?
- Est-ce très compliqué pour un débutant ? quelles sont les compétences informatiques : ex. dois-je maîtriser XML ? quels sont les prérequis?
- Comment s'assurer de la qualité de l'encodage ? Quelles sont les bonnes pratiques, notamment si on travaille en groupe ?
- Ces techniques d'encodage sont-elles uniquement liées à la question du partage de données ou est-ce aussi utile si je travaille en solo?
- Concrètement, de quoi ai-je besoin pour faire de la TEI? de quelles solutions techniques ?
- As-tu un exemple de question de recherche que la TEI a permis de faire émerger? Montrer que la TEI va plus loin que le balisage, que c'est utile pour de l'analyse exploratoire par exemple.
- Quelle est ta pratique de la TEI ?
Illustrer si possible par des exemples concrets, ne pas dépasser 10mn.
## Ressource textuelle
### Exploiter des textes avec la TEI
La question de la reproductibilité, pour soi comme pour les autres, soulève entre autres celle de la pérennité de l'information scientifique. Or, les données produites avec des logiciels propriétaires et/ou sous des formats spécifiques à un outil offrent encore moins de garantie d'accessibilité sur le long terme. La Text Encoding Initiative (TEI) constitue un exemple de format de balisage standard.
#### A quels besoins de recherche la TEI répond-elle ?
Si vous utilisez des textes (littéraires, législatifs, archives, *etc*.), une technique de balisage de données peut vous permettre d'aller au-delà du seul décompte brut d'occurrences : la Text Encoding Initiative (TEI). Lou Burnard, l'un des fondateurs de la TEI, prend l'exemple du mot "Paris" : s'agit-il de la ville du Texas, de la capitale fraçaise, voire du prénom d'une héritière américaine ? Si trier manuellement le bon grain de l'ivraie est possible - mais non sans risque d'erreur - à l'échelle d'un petit *corpus*, il s'avère nettement plus complexe de travailler sur **une masse de documents plus importante et/ou plus hétérogène**. La TEI permet de résoudre ce problème.
Dans ce cas, *quid* des *corpus* peu volumineux ? **Le balisage en TEI permet de rendre vos données textuelles "intelligentes"**: il est possible de **baliser des personnages, des langues de citation, des catégories grammaticales, des passages barrés**, *etc*. Qui peut le plus peut le moins : s'il existe plus de 500 éléments combinables entre eux, il est possible de travailler avec un jeu de balises réduit. Pour traiter un roman, 5 ou 6 balises peuvent suffire.
#### Quelles garanties de pérennité ?
L'encodage des données en TEI permet de concevoir des *corpus* à très forte valeur ajoutée. Dès lors se posent les questions de l'**accès**, de la **conservation** voire du **partage** de cette plus-value. Si le recours à certains logiciels proposant des outils d'encodage de données est commode, sur le long terme, leur utilisation peut nuire à la reproductibilité de vos travaux. En effet, l'un des avantages de la TEI est d'offrir un **codage standard, affranchissant ainsi ses utilisateurs de toute dépendance logicielle**.
Si certains logiciels intègrent le codage en TEI, d'autres reposent sur des codages qui leur sont propres (ex. Alceste, Lexico3, *etc*.) ainsi que le souligne Burnard [@burnardWhatTextEncoding2014] : "Si vous souhaitez partager les ressources textuelles que vous créez avec d'autres personnes (ou avec vous-même à quelques décennies de distance), vous devriez vous préoccuper de la tendance de nombreux systèmes informatiques à appliquer leur propre façon de stocker l'information".
**Normalisation n'est pas synonyme de fermeture** : l'un des enjeux de la TEI est d'offrir un système de balise évolutif grâce à son extensibilité.
#### La TEI en pratique
Bernard et Bohet définissent ainsi la TEI [@bernardLitterometrieOutilsNumeriques2017] : "Il s'agit d'un balisage s'appuyant sur le langage XML et qui se présente comme un dictionnaire de balises couvrant à peu près toutes les situations". Il s'agit de permettre à une machine de lire ces données.
La TEI permet d'**introduire dans le texte des informations allant bien au-delà des éléments formels** comme le montre [ce comparatif tiré de Wikipédia](https://fr.wikipedia.org/wiki/Text_Encoding_Initiative#Exemple_introductif) entre d'une part, un encodage en HTML, où l'on prend en compte uniquement les aspects de présentation, et d'autre part, un encodage en TEI, où l'on peut introduire des informations sur les personnages, la versification des éléments.
Le travail s'effectue sur des données numériques ; si les données sont issues d'une numérisation, elles doivent au préalable être traitées avec un logiciel de reconnaissance optique des caractères (OCR) [@humanumGuideBonnesPratiques2015].
Il existe des **éditeurs** tels que [XML Copy Editor](https://framalibre.org/content/xml-copy-editor). Certains logiciels incluent un **convertisseur** ; on peut citer :
* le [logiciel TXM](http://textometrie.ens-lyon.fr/spip.php?rubrique96)
* le [logiciel Odette](http://obvil.sorbonne-universite.site/developpements/odette) permet de passer d'un document en traitement de texte à des données en XML/TEI
Exemple de texte encodé : Oscar Wilde. *The Importance of Being Earnest* [disponible sur le site web TEI by example](https://teibyexample.org/examples/TBED05v00.htm?target=wilde)
#### Sources
Bernard, Michel, and Baptiste Bohet. 2017. Littérométrie: outils numériques pour l’analyse des textes littéraires. Paris, France: Presses Sorbonne nouvelle.
Burnard, Lou. 2014. What Is the Text Encoding Initiative? : How to Add Intelligent Markup to Digital Resources. Encyclopédie Numérique. Marseille: OpenEdition Press. http://books.openedition.org/oep/426.
Humanum. 2015. ‘Le Guide Des Bonnes Pratiques Numériques’. TGIR des humanités numériques. https://www.huma-num.fr/ressources/guide-des-bonnes-pratiques-numeriques.
## Ressources pédagogiques, manuels d'utilisation, ... sur la TEI
[Manuel d'encodage TEI Renaissance et temps modernes](http://www.bvh.univ-tours.fr/XML-TEI/ManuelWeb/Manuel_TEI_BVH.html)
## un sujet d'exercice
Du même type que ceux de la page : https://www.fun-mooc.fr/courses/course-v1:inria+41016+session02/jump_to_id/74cf3209cd7f48e8a0701ab2b68ffd8e
Avec avec un sujet qui part de sources TEI
Proposition de Laurent :
- source : https://www.ortolang.fr/market/corpora/fr-parl
- Evaluer les tours de paroles dans des débats parlementaires.
- Aller chercher les usages d'un mot particuliers
- Tockeniser un texte, profil de vocabulaires
package lxml ou xmletree sur Python à récupérer et installer pour les notebook Jupyter