# **Guide d'Annotation corpus FReND** La tâche de détection de la négation et de sa portée nécessite des quantités massives de données qui sont disponibles aujourd'hui presque exclusivement en anglais. Le French Resource of Negation Data est une ressource linguistique de données de négation en français annotées manuellement. Ce corpus a pour finalité d'alimenter des systèmes français de détection de la négation et de sa portée, lors de l'entraînement. # Textes Ce corpus reprend les textes de trois autres corpus et y ajoute une couche d'annotation de la négation. Les licences qui sont citées ci-dessous, nous permettent d'utiliser les textes, de les adapter et les redistribuer dans un but non-commercial. * **Le corpus Sequoia[^1]** Contient des textes de l'Europarl fr, de l'Est Républicain, du Wiki fr, et de l'agence européenne du médicament. Licence : LGPL-LR (Lesser General Public License For Linguistic Resources) https://www.rocq.inria.fr/alpage-wiki/tiki-index.php?page=CorpusSequoiaFr * **Le corpus litbank en français (litbank-fr)** Contient des textes littéraire du XIX^e^ et du XX^e^ Licence : CC BY-NC-SA 4.0 https://github.com/lattice-8094/fr-litbank * **PayeTonCorpus[^2]** Contient des témoignages d'actes sexistes recueillis sur 13 sites [Tumblr](https://www.tumblr.com). Licence : CC BY-NC-SA 4.0 https://www.ortolang.fr/market/corpora/payetoncorpus/ [^1]:Candito M. et Seddah D., 2012 Cross-lingual transfer-learning approach to negation scope resolution CEUR Workshop Proceedings, CEUR-WS, 2020 [^2]:Cognition, Langue, Langages, Ergonomie - UMR 5263 (CLLE) (2021) PayeTonCorpus [Corpus] ORTOLANG (Open Resources and TOols for LANGuage) - www.ortolang.fr, v1, https://hdl.handle.net/11403/payetoncorpus/v1 ==Ajout de statistiques== # Campagne d'annotation 7 annotateurs, tous linguistes de formation, ont annoté ==Nb== phrases du corpus FReND en utilisant le schéma proposé et l'outil Brat. ![](https://i.imgur.com/HLvDL7L.png) ![](https://i.imgur.com/X23fXgG.png) Les textes ont été distribués de la façon suivante : tout le monde a l'intégralité des textes 'frwiki' dans Sequoia, ensuite, chaque annotateur annote 20% de chaque sous-corpus des ressources citées ci-dessus. Pour 2 parts sur 5 il y a toujours une annotation en double. ==Accord inter-annotateur== # Définition de la tâche d'annotation Nous cherchons à annoter les mots exprimant la négation (=indices, en **gras**) ainsi que la partie de la phrase qui est affectée par le(s) mot(s) de négation (=portée). L'indice est hors de la portée, car on voit la négation comme un opérateur changeant la polarité de la phrase. La portée, marquée par des crochets [...] peut aller à droite ou à gauche, s'étendre des deux côtés (1), être discontinue (2), ou se chevaucher (3 et 4): 1. [Les hormones protègent] les hommes, **pas** [les femmes] 2. L'étude vise également à vérifier que [cette information] est recevable, **ne** [génère] **pas** [de stress], [...]. 3. Le traitement continuera jusqu'à l'apparition d'[un effet] **in**[désirable] inacceptable. 4. Le traitement continuera jusqu'à l'apparition d'[un effet indésirable] **in**[acceptable]. On cherche à donner la même analyse à des constructions négatives qui ont le même sens. * [Watson a été] **im** [prudent]. * [Watson] **n'**[a] **pas** [été prudent]. Ainsi, pour les constructions actives/passives, on adoptera la même approche. Il est tout de même à noter que nous annotons uniquement les formes de surface, c'est-à-dire les phrases comme elles sont attestées dans notre corpus. Pour certaines expressions de négation cela implique qu'il est impossible de récupérer la proposition niée dans la portée, par exemple parce que l'indice de négation comporte une autre dimension lexicale au-délà de celle-ci. * [Jean] **a empeché** [Marie de prendre son déjeuner]. Explication : "Jean Marie de prendre son déjeuner" n'est pas une proposition bien formée, mais dans la forme de surface on ne peut pas reconstituer le sens non-nié du verbe (qui serait peut-être 'permettre'). De plus que les indices et les portées, qui sont des éléments obligatoires d'une négation, on annote parfois, faculativement un autre élément qu'on appelle focus. Le focus est <ins>souligné</ins>. Il s'agit de la partie de la portée qui est le plus explicitement niée. Dans l'exemple suivant, jusqu'au pont est le focus, car ce n'est pas forcément l'action de conduire qui est niée, mais plus spécifiquement l'information qu'on serait allé jusqu'au pont. * [Ils] **n'**[ont] **pas** [conduit <ins>jusqu'au pont</ins>]. # Schéma d'annotation Le schéma d'annotation contient 2 niveaux. Le schéma permet la classification de mots en indices, portée ou rien (en effet, le corpus contient des phrase affirmatives). ```flow st=>start: Start e=>end: End op=>operation: Indice de négation sub1=>subroutine: Annoter l'indice (mot/morphème ou multi-mot) cond=>condition: Yes or No? op3=>operation: Portée cond2=>condition: Yes or no? sub2=>subroutine: Annoter la portée io=>inputoutput: Associer la portée à l'indice st->op->cond cond(yes)->sub1->op3->cond2 cond(no)->e cond2(no)->e cond2(yes)->sub2->io(right)->e->; ``` # Indices Ils fonctionnent en tant que opérateur et nient le contenu linguistique qui se trouve dans leur portée. Ils sont explicitement exprimés par un item lexical. | unité linguistique | exemple(s) | | -------- | -------- | | mot | sans | | multi-mots | ne ... pas ; plus ... jamais | | morphème | il-, in-, ... | Nous marquons les indices **en gras** dans ce manuel. Liste non-exhaustif des indices selon leur catégorie syntaxique : | catégorie syntaxique | exemple(s) | | -------- | -------- | | Noms | absence, manque | | Verbes | manquer, exclure, échouer, ... | | Conjonctions | ni...ni | | Adjectifs | absent, négatif | | Adverbes | ne...pas, jamais, plus, rien, aucun, nul, aucunement, nullement, guère, nulle part, non | | Prépositions | sauf, au lieu de à l'exception de, sans | | Affixes | im, in, ir, dis- | | Pronoms indéfinis négatifs | personne, rien, aucun, nul, pas un | Dans certains cas, il est possible que les indices nient des éléménts extra-linguistiques ou des éléments récupérables par l'inférence pragmatique. Dans l'exemple suivant, 'non' exprime un jugement de valeur contre 'l'instauration de la dictature de la femme enceinte'. Dans ce cas, nous annotons uniquement l'indice. * **Non** mais toi tu veux instaurer une dictature de la femme enceinte! Quand l'indice de négation est un verbe fléchi (avec auxiliaire) on prend l'ensemble de mots qui expriment le verbe comme indice. * [Jean] **a manqué** [son rendez-vous]. (Attention tout de même au cas particulier de verbes copules et verbes d'état.) Certains verbes sélectionnent des compléments obliques/indirects avec une préposition donnée. C'est-à-dire que sans cette préposition, le verbe n'a pas le même sens. Il faut donc inclure ces prépositions dans l'indice. Exemple : * [Tamara] **a dispensé** [Jeanine] **de** [cours de sémantique]. Si on dit la phrase suivante, on n'a pas de négation : * Tamara a dispensé un cours de sémantique. **Attention ! Certaines construction syntaxiques se forment grâce à une préposition qui n'est pas forcément demandée par le verbe qui est indice de négation. Dans ce cas, il ne faut pas inclure la préposition dans l'indice.** Exemple : * [Les policiers] **ont refusé** [de perquisitionner la chambre de Rafaël]. * [Le policiers] **ont refusé** [le faux permis de conduire]. ## Tests pour les indices mots/expressions ### NPIs Pour savoir si quelque chose est un indice de négation, on peut faire le test du Negative Polarity Items (NPIs). Un *negative polarity item* est un mot ou une expression qui peut uniquement paraître dans le contexte d'une négation et parfois quelques autres contextes très rares, mais pas dans les phrases affirmatives ordinaires. Voici quelques exemples : | NPI | exemple avec négation | exemple sans négation| | -------- | -------- |-------- | | quoi que ce soit | Il n'a pas fait quoi que ce soit. | *Il a fait quoi que ce soit.| | quelque x que ce soit | Il a rejeté quelque proposition que ce soit. |*Il a accepté quelque proposition que ce soit.| Si on veut par exemple savoir si 'refuser' est un indice de négation on peut faire le test de la façon suivante : * Il a refusé quoi que ce soit. La phrase est grammaticale, le NPI a pu se placer avec succès dans la portée de refuser, donc refuser est un indice de négation. Par contre, si on teste le mot 'réussir', la prhase devient bizarre. * *Il a réussi quoi que ce soit. Conclusion : 'refuser' est un indice de négation et 'réussir' ne l'est pas. **Attention ! Les NPIs peuvent apparaître aussi dans des contextes conditionnels et interrogatifs (voir l'exemple ci-dessous). Il est important de réaliser le test avec une phrase affirmative.** * Paul pourrait embrasser qui que ce soit. Explication : la condtionnelle rend la phrase ci-dessus plus ou moins acceptable, mais 'embrasser' n'est pas un indice de négation, voir l'exemple ci-dessous avec une phrase affirmative. * *Paul embrasse qui que ce soit. ### Test avec 'ni' Si on peut ajouter 'ni' en tant que conjonction à un mot ou syntagme, ce mot ou syntagme est un indice de négation. * Il a laissé tombé ses amis sans les aider ni de les écouter. Ca marche très bien, 'sans' est donc un indice de négation. Par exemple, la phrase suivante ne réussit pas bien le test avec 'ni', mais pourtant 'au lieu de' est un indice de négation. * ???Il a laissé tombé ses ami au lieu de les aider ni de les écouter. ### Que faire quand on obtient des réponses différents selon les tests ? **Attention ! Certains mots ne réussissent pas très bien les tests (par exemple le test de ni ou la paraphrase). Si le mot réussit un test de NPI, il peut s'agir d'un indice de négation. Si le test avec les NPI ne fonctionne pas, il ne s'agit probablement pas d'une négation.** Si un mot réussit le test des NPI, on vérifie si la paraphrase avec négation est accessible. Cela peut impliquer de dévier légèrement de la forme de surface. * Jean à renoncé à tous ses rêves. * Jean a renoncé à quoi que ce soit. * Ce n'est pas le cas que Jean a gardé/poursuivi ses rêves. Explication : La sémantique garder/poursuivre n'est pas accessible par la forme de surface, mais 'renoncer' réussit le test des NPI et on a tout de même accès à une paraphrase négative (même s'il faut faire pas mal d'efforts); on conclue donc qu'il s'agit d'un indice de négation. ### Si on a classé un verbe comme indice de négation, peut on aussi étendre ce statut à ses dérivées morphologiques ? **Attention : il est important de refaire les tests pour chaque lexème, même s'il s'agit de dérivation morphologique car les relations sémantiques entre dérivations ne sont pas toujours stables.** Exemple : Il ne faut pas conclure de test qu'un nom dérivé d'un verbe indice de négation l'est aussi. * [Mohamed] **a empêché** [le criminel d'incendier la ville]. * J'ai eu un grand empêchement sur la route. Expliquation : empêcher verbe est un indice de négation (voir test NPI + paraphrase) mais "empêchement" n'en est pas (voir chapitre suivant). ## Tests pour les morphèmes Il y a deux éléments clés pour distinguer les morphèmes négatifs : la transparence et compositionalité. La transparence veut dire qu'en enlevant le morphème, on obtient un mot qui a toujours du sens. Compositionalité veut dire que le sens du morphème + le mot doit être égal au sens de pas + mot. Par exemple : | mot | transparence ?| compositionalité ?| | -------- | -------- |-------- | | inacceptable | oui, car acceptable = compréhensible | oui, car inacceptable = pas acceptable| | démoralisé | non, moralisé n'a pas de sens | non, démoralisé n'est pas égal à 'pas moralisé'| Pour déterminer s'il s'agit d'un morphème de négation, il n'est pas nécessaire de s'interrogér sur la productivité et les processus de dérivation. Ainsi, on ne traitera pas toujours le morphème de la même façon dans des contextes différents. Ainsi, dans *malheureux* on peut dire que *mal + heureux* est transparent et que mal est un opérateur de négation, car "malheureux" veut dire la même chose que "pas heureux". Mais pour 'mal payé' on ne va pas dire que 'mal' est un indice de négation, car "mal payé" ne veut pas dire "pas payé". ## Double négation Les indices peuvent aussi être incorporés dans une autre négation comme dans l'exemple : * Holmes ... **n'**[a laissé] **aucun** [coin de la maison] **in** [exploré]. Il faut aussi annoter la double négation, même si ça résulte en une neutralisation: * **pas** [**in**[habituel]] Attention aux apostrophes ! Il faut les inclure car ils remplacent les 'e' du mot : * [Il] **n'** [est] **pas** [venu]. ## Ce qui ne sont pas d'indices de négation : ### Ne explétif * Avant que..., ne * De peur que ..., ne *Les comptes suisses d'Andrew Wang ont probablement été bloqués avant que les rétrocommissions n'aient été distribuées en Europe.* Il ne s'agit pas d'une négation, car les propos dans la portée de ce 'ne explétif' ne sont pas niés. ### Indices de modalité * sans aucun doute * non seulement * sans compter sur ### Les restrictions La restriction est introduit par des indices comme * ne ... que * seul La restriction est un phénomène qui est lié à la négation mais tout de même différent. Notamment, ce qui qui se trouve dans la portée d'une restriction n'est pas nié. * Il n'y a que Jean qui est venu Cette phrase n'implique pas que Jean n'est pas venu. Par contre, elle implique que d'autres personnes ne sont pas venues, mais ces personnes ne sont pas mentionnées dans la phrase. Il serait donc extrêmement difficile d'annoter quels éléments sont niés : il s'agit d'un ensemble d'alternatives pertinentes qu'on doit inférer depuis le contexte et les connaissances du monde. ```flow st=>start: Start e=>end: End op=>operation: Indice de négation io=>inputoutput: Annoter l'indice cond=>condition: Classique? cond2=>condition: Morphème? cond3=>condition: Transparence? cond4=>condition: Compositionnalité? cond5=>condition: Ne explétif? cond6=>condition: Modalité? cond7=>condition: Restriction? cond8=>condition: Test NPI? io2=>inputoutput: Ne pas annoter sub1=>subroutine: Phrases problématiques cond9=>condition: Discussion/adjudication st->op->cond cond(yes)->io()->e cond(no)->cond2 cond2(yes)->cond3 cond2(no)->cond5 cond5(yes)->io2->e cond5(no)->cond6 cond6(yes)io2->e cond6(no)->cond7 cond7(yes)->io2->e cond7(no)->cond8 cond8(yes)->io->e cond8(no)->sub1->cond9 cond9(yes)->io->e cond9(no)->io2->e cond3(yes)->cond4 cond3(no)->io2->e cond4(yes,left)->io->e cond4(no,bottom)->io2->e io->e->e ; ``` # La portée La portée est la partie de la phrase affectée par la négation. ## Test "Il n'est pas le cas que..." On peut utiliser le test de la paraphrase "Ce n'est pas le cas que". * Un stroumpf n'est pas jaune. * Il n'est pas le cas qu'[un stroumpf est jaune]. * [Un stroumpf] **n'**[est] **pas** [jaune]. Un autre test sont les Questions-réponses: * Nous n'avons pas conduit jusqu'au pont. Test : 1. Peut-on inférer qu'ils ont conduit? 2. Peut-on inférer qu'ils ont conduit jusqu'au pont? La réponse à la prémière question est 'oui', alors pour la deuxième elle est 'non'. Cela indique que "conduit jusqu'au pont" doit être mis dans la portée et que "conduit" tout seul ne suffit pas. ## Indices de négation prépositionnels Il faut annoter le syntagme nominal qui est dans la portée. * Je fais une recette **sans** [oeufs]. ## Morphèmes de négation ### Phrases à verbe copule ou d'état (adjectifs attributs) Il faut annoter toute la phrase : * [J'ai été assez] **im**[prudent pour ...]. * [Dépenser tout mon salaire en bitcoins semble] **in**[envisageable]. ### Sans copule ou verbe d'état (adjectifs épithètes, mais à l'intérieur d'un sytagme nominal) Il faut limiter la portée au syntagme nominal dont l'adjectif fait parti : * Il a pris [une décision] **im**[prudente]. * Il s'agit d'[un plan] **in**[envisageable]. Il faut inclure le reste du syntagme nominal, car cela correspond au contenu sémantique de la paraphrase : * La décision n'était pas prudente. * Le plan n'était pas envisageable. ### Adverbes avec morphème de négation Quand un adverbe composé d'un indice de négation est complément du verbe, la négation porte sur la syntagme verbal entier. * afin d'[inscrire] **in**[dûment sur les listes électorales des sympathisants politiques]. ### Morphème de négation sur un nom Dans ce cas, on limite la portée au nom. * Une peine d'**in**[éligibilité] * Une **in**[compatabilité] de système d'exploitation. Par contre : * [Une peine] **in**[éligible] * [Un système d'exploitation] **in**[compatible] Explication : pour les cas des noms, la paraphrase ne porte pas du tout au délà du nom (voir ci-dessous). Les paraphrases ne sont pas du tout réussies car il est très étrange de mettre les noms 'peine' et 'système d'exploitation' sous la portée de la négation : * *Il n'est pas le cas que c'est une peine d'éligibilité. * *Il n'est pas le cas que c'est un système d'exploitation de compatbilité. ## Élements à inclure dans la portée ### Contenu élidé d'une construction elliptique Si les éléments élidés sont récupérables dans la phrase, il faut les annoter. [Jean] adore le footing et **n'**[aime] **pas** [le rugby]. ### Pronoms explétifs, relatifs, interrogatifs, existentielle Les pronoms explétifs sont marqués dans la portée : * [Il] **ne** [pleut] **pas**. Les pronoms relatifs qui apparaissent dans une subordonnée négative, sont dans la portée de la négation : * On l'a aidé à se mettre sur un rocher [où il] **ne** [pouvait] **p** [être vu]. Les pronoms interrogatifs comme quand et pourquoi sont inclus dans la portée, car ce sont des compléments du prédicat et peuvent être affectés par la négation. Indice incorporé dans une construction existentielle: le sujet existentiel fait partie de la portée s'il est nié par l'indice. * [Il] **n'**[y avait] **pas** [de lumière]. ### Appositions ou informations entre parenthèses On annote aussi les appositions et informations entre parenthèses. Ces éléménts sont syntaxiquement dépendants d'éléments présents dans la portée, même si leur contenu n'est pas nié. * [Si de nombreux vénérables (généralement ceux des loges bourgeoises modérées qui désapprouvent les excès du combisme)] **ne** [donnent] **pas** [suite]... ## Élements à exclure de la portée ### Modificateurs discursifs Les modificateurs de niveau de discours ne doivent pas être inclus dans la portée quand ils ne sont pas affectés par la négation (e.g. *cependant, maintenant, en fait*). Dans l'exemple ci-dessous, 'donc' n'est pas dans la portée de la négation : * [Il] **ne** [faut] donc **pas** [confondre faits et opinions]. ### Conjonctions de coordination et de subordination Les conjonctions de coordination et subordination sont exclues de la portée, sauf si elles peuvent être des arguments de prédicat (comme les pronoms relatifs). * [Je] **ne** [suis] **pas** [allé à la piscine], parce que l'eau était trop froide. * [Je] **n'**[ai] **pas** [fait de gâteau], mais j'ai cueilli des fleurs. * [Je] **ne** [comprends] **pas** [que tu sois venu]. Dans le dernier exemple la conjonction de subordination est incluse car il s'agit d'un argument du prédicat. Constructions conditionnelles: si un indice de négation est présent dans la proposition subordonnée d'une construction conditionnelle, l'indice porte sur la clause subordonnée, sans inclure la conjonction conditionnelle. * En fait, si [vous]**n'**[y étiez] **pas** [allé aujourd'hui], il est fort probable... ### Signes de ponctuation Exclusion des signes de ponctuation. ### Elements dans une autre phrase Si la portée est dans une autre phrase (une question par ex.), elle n'est pas annotée. Cela est souvent le cas avec l'indice 'non', comme dans l'exemple ci-dessous où la portée porte sur les propos cités entre guillemets. * "Vous avez envoyé balader quelqu'un qui se voulait gentil et soucieux de vous." Je lui répète donc que **non**, j'étais très visiblement occupée ### Les antécédents des anaphores et les référents des sujet zéro Contrairement aux constructions elliptiques, nous n'incluons pas les antécédents des pronoms anaphoriques et sujets zéro dans la portée. C'est-à-dire qu'on ne fait pas de tâche de résolution d'anaphore pendant l'annotation. De même pour retrouver l'antécédent d'un pronom zero, comme dans les constructions avec gérondif, participe passé et infinitif après un verbe à montée. * Léo va à la plage et [il] **n'**[a] **pas** [envie d'aller à la montagne]. * Yolande a accepté l'offre de stage, [étant] **in**[capable de continuer sa recherche d'emploi]. * Paul veut **ne plus** [devoir sortir la poubelle]. # Le focus N'est pas obligatoire. Il s'agit de l'élément de la portée le plus fortement nié par la négation. Le focus est indiqué par du <ins>souligné</ins> dans ce manuel. * [Je] **n'**[ai] **pas** [envie d'aller <ins>en Irlande</ins>]. On ne peut pas conclure que la personne n'a pas envie d'aller autre part. * [Il] **n'**[a] **pas** [de maison <ins>en briques</ins>]. Tout à fait possible que la personne possède une maison dans une autre matière. # Outil d'annotation On utilisera l'outil brat sur le serveur du laboratoire. On annotera : Obligatoirement : * les indices * la portée Facultativement : * le focus Pour des empans discontinus, il faut utiliser le bouton "add Fragment". Il est important de lier la portée aux indices et le focus à la portée concernée.