Polysémie et Ambiguïté Lexicale

Sigle : GR PAL
Responsable : Sandrine Ollinger
Membres internes : Mathieu Constant, Évelyne Jacquey, Laurence Kister, Veronika Lux-Pogodalla, Sandrine Ollinger, Alain Polguère
Membres extérieurs : Lucie Barque, Marianne Clausel, Richard Huyghe
Invité·es permanent·es : Ioana Buhnila, Nabil Gader, Tomara Gotkova, Younghyun Ha, Anja Smith
Mots-clés : Polysémie, ambiguïté, ambiguïté lexicale, annotation, désambiguïsation automatique
Axes : LEX, MRI – TER (secondaire)

Liens externes : Espace privé

Projet en cours : ALUMCoCo

Description :
Le groupe de recherche Polysémie et ambiguïté lexicale fait suite au projet BEL-RL-fr initié en 2018 et se nourrit de projets menés au sein de l’ATILF depuis 2011 sur les questions de modélisation du lexique (RELIEF, Systèmes Lexicaux), d’enseignement du lexique (Lexisciences, Lexicollège, LELREP) et d’annotation de corpus (ASTTIC, TermITH, CoReA2D). Il a pour objectif principal une réflexion conjointe sur la modélisation de la polysémie et la levée d’ambiguïté lexicale en contexte.

Le projet BEL-RL-fr a permis la mise à disposition du corpus éponyme de citations lexicographiques du Réseau Lexical du français (RL-fr). Dans son état courant, ce corpus de 1,3 million de mots comporte 31 781 citations, à l’intérieur desquelles 52 600 segments textuels ont été manuellement associés à 27 745 unités lexicales. Tout comme le RL-fr lui-même, le corpus évolue quotidiennement et sa distribution sur la plateforme ORTOLANG fait l’objet de mises à jour annuelles.

Le corpus BEL-RL-fr a été utilisé pour mener de premières expériences de levée d’ambiguïté lexicale automatique à base de réseau de neurones. Outre les résultats encourageants obtenus grâce à l’intégration de connaissances linguistiques issues du RL-fr, ces expériences ouvrent de nombreuses pistes de réflexion sur l’exploitation de la modélisation du sens lexical proposée par les Systèmes Lexicaux et l’évaluation des résultats de la désambiguïsation automatique.

Si chaque citation du corpus BEL-RL-fr comporte 1 à 12 segments textuels associés à une unité lexicale du RL-fr, chaque occurrence des unités lexicales du RL-fr présente dans le BEL-RL-fr n’a pas été désambiguïsée. On trouvera ainsi 255 occurrences du lemme SOLEIL dans le corpus, pour seulement 45 occurrences liées à une entrée du RL-fr. Une première expérience de levée d’ambiguïté lexicale manuelle a été menée pour enrichir le corpus. Elle a permis d’identifier nos besoins pour une campagne de plus grande ampleur, qui visera la création de trois couches d’annotation distinctes : unités lexicales du RL-fr, acceptions du TLF, descripteurs d’ambiguïté.

Ces deux chantiers seront complétés par la poursuite de travaux de terrain sur l’enseignement de la polysémie. En travaillant conjointement sur des sous-parties du lexique du français, nous porterons une attention particulière aux phénomènes lexicaux qui entravent l’apprentissage scolaire ou automatique et chercherons à affiner leur modélisation.

Le groupe entretient des liens avec GR Lexicologie des réseaux lexicaux avec lequel il mutualisera des réunions de travail lexicographique et l’avancement des travaux sur l’enseignement du lexique.

Planning

2024
27.04.2024Remarques sur l’enseignement/apprentissage des termes polysémiquesPaolo Frassi
22.03.2024Pré-campagne d'annotation : Apprendre à regarder ensemble dans la même direction
JTTA corpus
Sandrine Ollinger & Évelyne Jacquey
18.03.2024Réunion de lancement ALUMCoCo
01.02.2024Référence et chaînes de référencesLaurence Kister

2022-2023

21.12.2023Réunion d'échanges et d'information
13.11.2023Les difficultés inhérentes à la tâche de classification sémantique : étude statistique des facteurs linguistiques expliquant l'accord inter-annotateur dans le corpus FrSemcorLucie Barque
16.10.2023Ambivalence sémantiqueAlain Polguère
28.08.2023WSD & RL-fr : une expérienceMathieu Constant
05.07.2023Polysémie et terminologieLaurence Kister
31.03.2023séance de lecture partagéeVeronika Lux Pogodalla
24.03.2023séance de lecture partagéeSandrine Ollinger
17.02.2023séance de lecture partagéeÉvelyne Jacquey
13.02.2023Levée d’ambiguïté manuelle (prémisses)Évelyne Jacquey & Sandrine Ollinger
22.11.2022Enseigner la polysémie pour soutenir l’acquisition du vocabulaireVeronika Lux Pogodalla
20.09.2022Réunion de lancement