Annotation Lexicale : Une Mesure de Complexité Contextuelle

Responsable : Sandrine Ollinger
Membres : Lucie Barque, MCF linguistique, Université Sorbonne Paris Nord et LLF (CNRS et Université Paris Cité), Mathieu Constant, Pr Informatique, ATILF et Université de Lorraine, Marianne Clausel, Pr Mathématiques, IECL et Université de Lorraine, Nabil Gader, IE CNRS, ATILF, Richard Huyghe, Pr linguistique française, Université de Fribourg, Évelyne Jacquey, CR, CNRS, ATILF, Sandrine Ollinger, IR CNRS, ATILF

Liens externes : Espace de travail

Le projet ALUMCoco se déroule du mois de février au mois d’avril 2025. Il est porté par le GR PAL et bénéficie d’un financement de l’ATILF et du pôle scientifique CLCS de l’Université de Lorraine.

Présentation générale

Si l’on considère l’énoncé En cette saison, le soleil se lève tard., il est assez aisé d’associer l’occurrence de soleil qui s’y trouve au sens « I.a L’astre autour duquel tourne la Terre, considéré depuis la Terre.  [Le soleil s’est levé à 8h13.] », emprunté au Réseau Lexical du français , plutôt qu’à « II.2 Partie d’un lieu physique éclairé par la lumière du soleil I.a.   [Ne reste pas à l’ombre, viens au soleil !] », ou « III personne qui favorise le bonheur.   [Tu es le soleil de ma vie.] » ; deux autres sens du mot SOLEIL empruntés à cette même ressource.
Cette activité d’annotation en sens lexicaux, connue sous le terme de tâche de désambiguïsation lexicale, n’est pas toujours aisée. Elle est même réputée complexe (Véronis 2003 et Martin 2004) aussi bien pour une annotation manuelle que pour son pendant automatique. Les premières expériences que nous avons menées dans le cadre du projet BEL-RL-fr et du GR PAL confirment cette complexité et nous fournissent des premières indications sur sa variation en fonction des situations d’annotation.
Face à une instance d’annotation telle que nous la réalisons, l’annotateur — qu’il soit humain ou automatique — est confronté à un contexte textuel donné En cette saison, le __soleil__ se lève tard., dans lequel il doit associer une occurrence donnée (soleil) à un sens (I.a), issue d’un inventaire de sens donné (Réseau Lexical du français). Chacun des éléments (contexte, occurrence, sens et inventaire de sens) comporte des caractéristiques propres, à partir desquelles on peut envisager d’établir différentes échelles de complexité : L’occurrence est-elle incluse dans une expression de plusieurs mots dont le sens n’est pas compositionnel ? Combien de sens distincts partagent la même forme graphique et la même partie du discours que le sens en présence ? Comment l’inventaire de sens est-il structuré et formalisé ?
Tandis qu’une précédente étude (Barque, Huyghe, Foegel En prép.) nous a conduits à explorer de tels facteurs dans une tâche d’annotation en classes sémantiques, le projet ALUMCoCo se concentre sur la question de la complexité du contexte textuel.
Lors de nos campagnes d’annotation manuelle, différentes hypothèses ont d’ores et déjà émergé :
• Si le contexte est très court, l’annotation est plus difficile : Regarde le __soleil__ ! (quel sens ?) ; John regarde le __soleil__ en prenant son petit-déjeuner. Un jour de plus, le temps passe vite. (sens I.a).
• S’il y a des mots du contexte qui entrent en relation syntagmatique avec le mot que l’on souhaite annoter, l’annotation est plus facile : Le soleil se lève lentement. (sens I.a) ; Le __soleil__ s’étend lentement. (sens II.2).
• S’il y a beaucoup d’autres mots du contexte qui apparaissent fréquemment dans le contexte du mot que l’on souhaite annoter, l’annotation est plus facile : Dehors, il fait chaud, le soleil, splendide, rayonne sur notre premier jour de vacances. (sens I.a).
Chacune de ces hypothèses s’appuie sur un ensemble de caractéristiques linguistiques pour lesquelles nous pouvons envisager l’enrichissement de nos données à l’aide de diverses couches d’annotations automatiques ou manuelles.
De nombreux travaux de désambiguïsation lexicale automatique approximent cette question de complexité en évaluant l’apport de différentes caractéristiques du contexte (lemmes, parties du discours…) à la qualité de l’annotation obtenue. C’est le cas des travaux d’Audibert (2004), qui procède de manière systématique pour établir la taille et la position (gauche, droite) des indices contextuels à considérer pour optimiser les résultats de modèles de classification de type Naïve-Bayes ou liste de décisions. Notre objectif est cependant différent : nous cherchons à déterminer les facteurs contextuels qui entravent l’identification d’un sens. Existe-t-il une corrélation entre les facteurs envisagés et la difficulté de la tâche d’annotation ? Certains facteurs sont-ils significatifs qu’ils soient considérés seuls ou combinés à d’autres facteurs ? Cette corrélation est-elle la même dans le cas d’une annotation manuelle ou automatique et quels que soient les modèles de classification utilisés pour l’annotation automatique ?
Avant d’étendre notre jeu de données et de nous lancer dans la mesure effective du degré de complexité des contextes rencontrés, le projet ALUMCoCo visez initialement à formaliser les critères de mesure de complexité contextuelle et à les rendre explicites pour un statisticien, nous permettant ainsi de conceptualiser un instrument de mesure en vue de son implémentation informatique.
La défection de notre collègue statisticienne nous à amener à réviser cet objectif en cours de route.

Méthodologie

Au début du projet, nous disposions d’un ensemble de 262 contextes textuels annotés manuellement par deux annotatrices, dans lesquels les occurrences du lemme SOLEIL ont été associées à des sens du Réseau Lexical du français (6 sens décrits). Un arbitrage de cette annotation a été réalisé et un accord inter-annotatrices mesuré, qui peut être considéré comme un indice de difficulté de la tâche.
Nous disposions également d’un modèle de désambiguïsation lexicale (Sinha, Ollinger, Constant 2022) entraîné sur les données du Réseau Lexical du français, avec lequel annoter automatiquement ce même ensemble de contextes. L’application de ce modèle fournit en sortie une annotation et une liste des annotations envisagées, accompagnées de leur probabilité.
Dans une première phase, le corpus a été étendue pour atteindre un ensemble de 500 contextes textuels et différents enrichissements au moyen de couches d’annotation ont fait l’objet de test.
En juillet 2024, nous nous sommes réunis deux jours durant, pour étudier les contextes et adapter notre stratégie. Le projet s’est alors orienté vers une collecte de données auprès de locuteurs non-experts : temps de sélection d’un sens dans un inventaire donné pour un contexte donné et sentiment de complexité de réalisation de la tâche.
Les mois suivant ont été consacrés à la préparation du protocole expérimental : choix des variables indépendantes et dépendantes, choix des modèles statistiques, sélection de 21 vocables de degré de polysémie variable (4, 3 et 2 sens), préparation des descriptions des différents sens, sélection de contextes contenant les différents sens, identification du nombre minimal de participant·es, réalisation d’un questionnaire-test sur le vocable SOLEIL.
Le protocole a fait l’objet d’une soumission au comité éthique de la recherche de l’Université de Lorraine.

Références

Laurent Audibert. (2004) Word sense disambiguation criteria: a systematic study. In COLING 2004: Proceedings of the 20th International Conference on Computational Linguistics, pages 910–916, Geneva, Switzerland. COLING.
Lucie Barque, Pauline Haas, Richard Huyghe, Delphine Tribout, Marie Candito, Benoit Crabbé, and Vincent Segonne. (2020) FrSemCor: Annotating a French Corpus with Supersenses. In Proceedings of the Twelfth Language Resources and Evaluation Conference, pages 5912–5918, Marseille, France. European Language Resources Association.
Lucie Barque, Richard Huyghe, and Martial Foegel. (En prep.) Why semantic classification is difficult : a statistical study of the linguistic factors explaining inter-annotator agreement in the FrSemcor corpus.
Robert Martin. (2004) Étiquetage sémantique du lexique français, In Le Français moderne, vol 72, n°1, Catherine Fuchs et Benoît Habert (eds.), pp. 14-25
Aman Sinha, Sandrine Ollinger, and Mathieu Constant. (2022) Word Sense Disambiguation of French Lexicographical Examples Using Lexical Networks. In Proceedings of TextGraphs-16: Graph-based Methods for Natural Language Processing, pages 70–76, Gyeongju, Republic of Korea. Association for Computational Linguistics.
Jean Véronis. (2003) Sense Tagging: Does it Make Sense? In Wilson, A./Rayson, P./McEnery, T. (eds.), Corpus Linguistics by the Lune: A Festschrift for Geoffrey Leech. Frankfurt. Peter Lang, 273290.

Étapes
2025analyses
février 2025enquête en ligne
21 janvier 2025comité CER-UL
20 décembre 2024dépôt dossier CER-UL
15 novembre 2024Lucie Barque
Mathieu Constant
Nabil Gader
Richard Huyghe
Évelyne Jacquey
Sandrine Ollinger
réunion enquête
juillet-décembre 2024Lucie Barque
Mathieu Constant
Nabil Gader
Richard Huyghe
Évelyne Jacquey
Sandrine Ollinger
Préparation d'une enquête en ligne
11-12 juillet 2024Lucie Barque
Ahana Chattopadhyay
Mathieu Constant
Nabil Gader
Richard Huyghe
Évelyne Jacquey
Sandrine Ollinger
réunion de travail
juillet - août 2024Ahana Chattopadhyay
Sandrine Ollinger
stage de M1
« Annotation de corpus en voisins du RL-fr pour l'annotation en sens lexicaux »
mars-mai 2024Évelyne Jacquey
Sandrine Ollinger
annotation manuelle sens SOLEIL
18 mars 2024tous les membres + GR PALréunion de lancement
février-mars 2024Sandrine OllingerConstitution corpus complémentaire
Publications
Communications
15 octobre 2024É. JacqueyAtelier « La désambiguïsation lexicale »Journée de rentrée de l'ATILF, Site Lionnois Université de Lorraine, Nancyenquête test SOLEIL
4 juin 2024S. OllingerAnnotation Lexicale : une Mesure de Complexité ContextuelleJournée d’étude conjointe AHP/ATILF, ATILF, Nancypdf