Polysémie et Ambiguïté Lexicale

Sigle : GR PAL
Responsable : Sandrine Ollinger
Membres ATILF : Mathieu Constant, Évelyne Jacquey, Laurence Kister, Veronika Lux-Pogodalla,
Sandrine Ollinger, Alain Polguère
Mots-clés : Polysémie, ambiguïté, ambiguïté lexicale, annotation, désambiguïsation automatique
Axes : LEX, MRI – TER (secondaire)
Liens externes : Espace privé

Description :
Le groupe de recherche Polysémie et ambiguïté lexicale fait suite au projet BEL-RL-fr initié en 2018 et se nourrit de projets menés au sein de l’ATILF depuis 2011 sur les questions de modélisation du lexique (RELIEF, Systèmes Lexicaux), d’enseignement du lexique (Lexisciences, Lexicollège, LELREP) et d’annotation de corpus (ASTTIC, TermITH, CoReA2D). Il a pour objectif principal une réflexion conjointe sur la modélisation de la polysémie et la levée d’ambiguïté lexicale en contexte.

Le projet BEL-RL-fr a permis la mise à disposition du corpus éponyme de citations lexicographiques du Réseau Lexical du français (RL-fr). Dans son état courant, ce corpus de 1,3 million de mots comporte 34 059 citations, à l’intérieur desquelles 54 958 segments textuels ont été manuellement associés à 28 213 unités lexicales. Tout comme le RL-fr lui-même, le corpus évolue quotidiennement et sa distribution sur la plateforme ORTOLANG fait l’objet de mises à jour annuelles.

Le corpus BEL-RL-fr a été utilisé pour mener de premières expériences de levée d’ambiguïté lexicale automatique à base de réseau de neurones. Outre les résultats encourageants obtenus grâce à l’intégration de connaissances linguistiques issues du RL-fr, ces expériences ouvrent de nombreuses pistes de réflexion sur l’exploitation de la modélisation du sens lexical proposée par les Systèmes Lexicaux et l’évaluation des résultats de la désambiguïsation automatique.

Si chaque citation du corpus BEL-RL-fr comporte 1 à 12 segments textuels associés à une unité lexicale du RL-fr, chaque occurrence des unités lexicales du RL-fr présente dans le BEL-RL-fr n’a pas été désambiguïsée. On trouvera ainsi 255 occurrences du lemme SOLEIL dans le corpus, pour seulement 45 occurrences liées à une entrée du RL-fr. Une première expérience de levée d’ambiguïté lexicale manuelle a été menée pour enrichir le corpus. Elle a permis d’identifier nos besoins pour une campagne de plus grande ampleur, qui visera la création de trois couches d’annotation distinctes : unités lexicales du RL-fr, acceptions du TLF, descripteurs d’ambiguïté.

Ces deux chantiers seront complétés par la poursuite de travaux de terrain sur l’enseignement de la polysémie. En travaillant conjointement sur des sous-parties du lexique du français, nous porterons une attention particulière aux phénomènes lexicaux qui entravent l’apprentissage scolaire ou automatique et chercherons à affiner leur modélisation.

Le groupe entretient des liens avec GR Lexicologie des réseaux lexicaux avec lequel il mutualisera des réunions de travail lexicographique et l’avancement des travaux sur l’enseignement du lexique.