Annotation Lexicale : Une Mesure de Complexité Contextuelle
Responsable : Sandrine Ollinger
Membres : Lucie Barque, MCF linguistique, Université Sorbonne Paris Nord et LLF (CNRS et Université Paris Cité), Mathieu Constant, Pr Informatique, ATILF et Université de Lorraine, Marianne Clausel, Pr Mathématiques, IECL et Université de Lorraine, Nabil Gader, IE CNRS, ATILF, Richard Huyghe, Pr linguistique française, Université de Fribourg, Évelyne Jacquey, CR, CNRS, ATILF, Sandrine Ollinger, IR CNRS, ATILF
Liens externes : Espace de travail
Le projet ALUMCoco se déroule du mois de février au mois de novembre 2024. Il est porté par le GR PAL et bénéficie d’un financement de l’ATILF et du pôle scientifique CLCS de l’Université de Lorraine.
Présentation générale
Si l’on considère l’énoncé En cette saison, le soleil se lève tard., il est assez aisé d’associer l’occurrence de soleil qui s’y trouve au sens « I.a L’astre autour duquel tourne la Terre, considéré depuis la Terre. [Le soleil s’est levé à 8h13.] », emprunté au Réseau Lexical du français , plutôt qu’à « II.2 Partie d’un lieu physique éclairé par la lumière du soleil I.a. [Ne reste pas à l’ombre, viens au soleil !] », ou « III personne qui favorise le bonheur. [Tu es le soleil de ma vie.] » ; deux autres sens du mot SOLEIL empruntés à cette même ressource.
Cette activité d’annotation, connue sous le terme de tâche de désambiguïsation lexicale, n’est cependant pas toujours aussi aisée. Elle est même réputée complexe (Véronis 2003 et Martin 2004) aussi bien pour une annotation manuelle que pour son pendant automatique. Les premières expériences que nous avons menées dans le cadre du projet BEL-RL-fr et du GR PAL confirment cette complexité et nous fournissent des premières indications sur sa variation en fonction des situations d’annotation.
Face à une instance d’annotation telle que nous la réalisons, l’annotateur — qu’il soit humain ou automatique — est confronté à un contexte textuel donné En cette saison, le __soleil__ se lève tard., dans lequel il doit associer une occurrence donnée (soleil) à un sens (I.a), issue d’un inventaire de sens donné (Réseau Lexical du français). Chacun des éléments (contexte, occurrence, sens et inventaire de sens) comporte des caractéristiques propres, à partir desquelles on peut envisager d’établir différentes échelles de complexité : L’occurrence est-elle incluse dans une expression de plusieurs mots dont le sens n’est pas compositionnel ? Combien de sens distincts partagent la même forme graphique et la même partie du discours que le sens en présence ? Comment l’inventaire de sens est-il structuré et formalisé ?
Tandis qu’une précédente étude (Barque, Huyghe, Foegel En prép.) nous a conduits à explorer de tels facteurs dans une tâche d’annotation en classes sémantiques, le projet ALUMCoCo se concentre sur la question de la complexité du contexte textuel.
Lors de nos campagnes d’annotation manuelle, différentes hypothèses ont d’ores et déjà émergé :
• Si le contexte est très court, l’annotation est plus difficile : Regarde le __soleil__ ! (quel sens ?) ; John regarde le __soleil__ en prenant son petit-déjeuner. Un jour de plus, le temps passe vite. (sens I.a).
• S’il y a des mots du contexte qui entrent en relation syntagmatique avec le mot que l’on souhaite annoter, l’annotation est plus facile : Le soleil se lève lentement. (sens I.a) ; Le __soleil__ s’étend lentement. (sens II.2).
• S’il y a d’autres mots du contexte qui appartiennent à la même classe sémantique que le mot que l’on souhaite annoter, l’annotation est plus facile : Léa, la fleuriste, c’est le __soleil__ de la rue, son sourire réchauffe le cœur de tous les passants. (sens III, classe sémantique des personnes) ; Le __soleil__ perce la brume et traverse la colonnade des pins. (sens I.a, classe sémantique des objets naturels).
Chacune de ces hypothèses s’appuie sur un ensemble de caractéristiques linguistiques pour lesquelles nous pouvons envisager l’enrichissement de nos données à l’aide de diverses couches d’annotations automatiques ou manuelles.
De nombreux travaux de désambiguïsation lexicale automatique approximent cette question de complexité en évaluant l’apport de différentes caractéristiques du contexte (lemmes, parties du discours…) à la qualité de l’annotation obtenue. C’est le cas des travaux d’Audibert (2004), qui procède de manière systématique pour établir la taille et la position (gauche, droite) des indices contextuels à considérer pour optimiser les résultats de modèles de classification de type Naïve-Bayes ou liste de décisions. Notre objectif est cependant différent : nous cherchons à déterminer les facteurs contextuels qui entravent l’identification d’un sens. Existe-t-il une corrélation entre les facteurs envisagés et la difficulté de la tâche d’annotation ? Certains facteurs sont-ils significatifs qu’ils soient considérés seuls ou combinés à d’autres facteurs ? Cette corrélation est-elle la même dans le cas d’une annotation manuelle ou automatique et quels que soient les modèles de classification utilisés pour l’annotation automatique ?
Avant d’étendre notre jeu de données et de nous lancer dans la mesure effective du degré de complexité des contextes rencontrés, le projet ALUMCoCo vise à formaliser les critères de mesure de complexité contextuelle et à les rendre explicites pour un statisticien. Il nous permettra ainsi de conceptualiser un instrument de mesure en vue de son implémentation informatique.
Méthodologie
Nous disposons actuellement d’un ensemble de 262 contextes textuels annotés manuellement par deux annotatrices, dans lesquels les occurrences du lemme SOLEIL ont été associées à des sens du Réseau Lexical du français (6 sens décrits). Un arbitrage de cette annotation a été réalisé et un accord inter-annotatrices mesuré, qui peut être considéré comme un indice de difficulté de la tâche. Nous disposons également d’un modèle de désambiguïsation lexicale (Sinha, Ollinger, Constant 2022) entraîné sur les données du Réseau Lexical du français, avec lequel annoter automatiquement ce même ensemble de contextes. L’application de ce modèle fournit en sortie une annotation et une liste des annotations envisagées, accompagnées de leur probabilité.
La première phase du projet consistera à étendre notre corpus pour atteindre un ensemble de 500 contextes textuels et à enrichir ce corpus au moyen de différentes couches d’annotation. Une réunion de travail de trois jours s’en suivra, consacrée à l’étude des contextes. Elle aura pour objet d’établir une échelle de complexité sur laquelle classer les contextes rencontrés. Les 500 contextes feront alors l’objet d’une classification effective, afin d’éprouver les critères et l’échelle établie. Le projet se terminera par une réunion de présentation des résultats à l’ensemble du GR PAL.
Références
Laurent Audibert. (2004) Word sense disambiguation criteria: a systematic study. In COLING 2004: Proceedings of the 20th International Conference on Computational Linguistics, pages 910–916, Geneva, Switzerland. COLING.
Lucie Barque, Pauline Haas, Richard Huyghe, Delphine Tribout, Marie Candito, Benoit Crabbé, and Vincent Segonne. (2020) FrSemCor: Annotating a French Corpus with Supersenses. In Proceedings of the Twelfth Language Resources and Evaluation Conference, pages 5912–5918, Marseille, France. European Language Resources Association.
Lucie Barque, Richard Huyghe, and Martial Foegel. (En prep.) Why semantic classification is difficult : a statistical study of the linguistic factors explaining inter-annotator agreement in the FrSemcor corpus.
Robert Martin. (2004) Étiquetage sémantique du lexique français, In Le Français moderne, vol 72, n°1, Catherine Fuchs et Benoît Habert (eds.), pp. 14-25
Aman Sinha, Sandrine Ollinger, and Mathieu Constant. (2022) Word Sense Disambiguation of French Lexicographical Examples Using Lexical Networks. In Proceedings of TextGraphs-16: Graph-based Methods for Natural Language Processing, pages 70–76, Gyeongju, Republic of Korea. Association for Computational Linguistics.
Jean Véronis. (2003) Sense Tagging: Does it Make Sense? In Wilson, A./Rayson, P./McEnery, T. (eds.), Corpus Linguistics by the Lune: A Festschrift for Geoffrey Leech. Frankfurt. Peter Lang, 273290.
Étapes | |||
18 mars 2024 | tous les membres + GR PAL | réunion de lancement | |
février-mars 2024 | Sandrine Ollinger | Constitution corpus complémentaire | |
mars-mai 2024 | tous les membres | - annotation manuelle sens SOLEIL - annotation automatique sens SOLEIL - annotation contextes en classes sémantiques - annotation de l'inventaire de sens en classes sémantiques - annotation des contextes en voisins du RL-fr - annotation des contextes en syntaxe | |
juillet - août 2024 | Ahana Chattopadhyay Sandrine Ollinger | stage de M1 « Annotation de corpus en voisins du RL-fr pour l'annotation en sens lexicaux » | |
11-12 juillet 2024 | Lucie Barque Ahana Chattopadhyay Mathieu Constant Nabil Gader Richard Huyghe Évelyne Jacquey Sandrine Ollinger | réunion de travail | |
juillet-octobre 2024 | Lucie Barque Mathieu Constant Richard Huyghe Évelyne Jacquey Sandrine Ollinger | - Préparation d'une enquête en ligne | |
novembre 2024 | tous les membres + GR PAL | réunion de clôture |
Publications |
Communications | ||||
4 juin 2024 | S. Ollinger | Annotation Lexicale : une Mesure de Complexité Contextuelle | Journée d’étude conjointe AHP / ATILF, ATILF, Nancy |