Projets – Laurence Kister

Polysémie et ambiguïté lexicale

Coordination	Sandrine Ollinger
Laboratoire porteur	Atilf – UMR 7118 CNRS/Université de Lorraine
Membres	Mathieu Constant, Évelyne Jacquey, Laurence Kister, Veronika Lux-Pogodalla, Sandrine Ollinger, Alain Polguère
Mots clés	Polysémie, ambiguïté, ambiguïté lexicale, annotation, désambiguïsation automatique
Description	Le groupe de recherche Polysémie et ambiguïté lexicale fait suite au projet BEL-RL-fr initié en 2018 et se nourrit de projets menés au sein de l’ATILF depuis 2011 sur les questions de modélisation du lexique (RELIEF, Systèmes Lexicaux), d’enseignement du lexique (Lexisciences, Lexicollège, LELREP) et d’annotation de corpus (ASTTIC, TermITH, CoReA2D). Il a pour objectif principal une réflexion conjointe sur la modélisation de la polysémie et la levée d’ambiguïté lexicale en contexte. Le projet BEL-RL-fr a permis la mise à disposition du corpus éponyme de citations lexicographiques du Réseau Lexical du français (RL-fr). Dans son état courant, ce corpus de 1,3 million de mots comporte 34 059 citations, à l’intérieur desquelles 54 958 segments textuels ont été manuellement associés à 28 213 unités lexicales. Tout comme le RL-fr lui-même, le corpus évolue quotidiennement et sa distribution sur la plateforme ORTOLANG fait l’objet de mises à jour annuelles. Le corpus BEL-RL-fr a été utilisé pour mener de premières expériences de levée d’ambiguïté lexicale automatique à base de réseau de neurones. Outre les résultats encourageants obtenus grâce à l’intégration de connaissances linguistiques issues du RL-fr, ces expériences ouvrent de nombreuses pistes de réflexion sur l’exploitation de la modélisation du sens lexical proposée par les Systèmes Lexicaux et l’évaluation des résultats de la désambiguïsation automatique. Si chaque citation du corpus BEL-RL-fr comporte 1 à 12 segments textuels associés à une unité lexicale du RL-fr, chaque occurrence des unités lexicales du RL-fr présente dans le BEL-RL-fr n’a pas été désambiguïsée. On trouvera ainsi 255 occurrences du lemme SOLEIL dans le corpus, pour seulement 45 occurrences liées à une entrée du RL-fr. Une première expérience de levée d’ambiguïté lexicale manuelle a été menée pour enrichir le corpus. Elle a permis d’identifier nos besoins pour une campagne de plus grande ampleur, qui visera la création de trois couches d’annotation distinctes : unités lexicales du RL-fr, acceptions du TLF, descripteurs d’ambiguïté. Ces deux chantiers seront complétés par la poursuite de travaux de terrain sur l’enseignement de la polysémie. En travaillant conjointement sur des sous-parties du lexique du français, nous porterons une attention particulière aux phénomènes lexicaux qui entravent l’apprentissage scolaire ou automatique et chercherons à affiner leur modélisation. Le groupe entretient des liens avec GR Lexicologie des réseaux lexicaux avec lequel il mutualisera des réunions de travail lexicographique et l’avancement des travaux sur l’enseignement du lexique. Axe LEX : Le GR PAL contribue à l’axe lexique par la réflexion qu’il mène sur la description des unités lexicales polysémiques et homonymiques et sur leur interprétation en contexte. Axe MOD : Le GR PAL contribue à l’axe modélisation, ressources et traitement informatique en s’appuyant sur la confrontation de ressources lexicales et de corpus, à la fois manuelle et automatique. Axe TERR : LE GR PAL contribue de façon secondaire à l’axe approches de terrain par son volet enseignement de la polysémie en contexte scolaire.

Web
Contact	Sandrine.Ollinger@atilf.fr

Corpus et ressources : annotation, apprentissage, désambiguïsation – CoRe2AD

Coordination	Evelyne Jacquey
Laboratoire porteur	Atilf – UMR 7118 CNRS/Université de Lorraine
Financement	CPER LCHN et Istex-R
Durée	24 mois
Description	CoReA2D vise le développement d’un outil d’aide à l’annotation générique, ergonomique, conforme aux normes ISO de représentation (annotations déportées) et disposant de fonctionnalités permettant une gestion explicite d’une campagne d’annotation. Il prévoit l’utilisation de la méthodologie de l’apprentissage actif (alternative à la propagation d’étiquettes et à la pré-annotation totalement automatique). Dans cette perspective, il s’appuie sur différents outils : GLOZZ, GATE Teamware, un outil issu du projet TermITH, l’interface Idefix ainsi que sur TXM7.8 qui, sans être un outil d’aide à l’annotation, a récemment intégré des fonctionnalités d’annotation à celles de l’exploration statistique et lexicale des corpus. Ces outils seront étendus ou serviront de base au développement d’un outil nouveau. L’originalité de la méthode envisagée est de renouveler la question de la propagation des annotations via l’exploitation d’une classification par similarité de l’ensemble des contextes d’apparition d’une même forme à annoter.Le premier résultat attendu est une synthèse de l’étude exploratoire menée sur les outils existants choisis. Elle sera fondée sur des expérimentations mises en œuvre sur des ressources déjà bien connues des membres du projet : • les terminologies construites dans le projet ANR TermITH (ORTOLANG) • les terminologies produites à partir d’une expérience réalisée dans le cadre de la facette recherche d’ISTEX sur un corpus en anglais centré sur le vieillissement • les lexiques transdisciplinaires (ORTOLANG et OLST) • deux ressources phraséologiques (TLF’Phraseo, ORTOLANG) • la ressource produite par le projet ANR PARSEME-FR Le second résultat attendu est l’outil lui-même qui fera usage de l’apprentissage actif, d’une propagation renouvelée des annotations et disposera d’une gestion maîtrisée des campagnes d’annotation
Laboratoires participants	ATILF (Nancy), CLLE (Toulouse), Inist (Nancy), Lidilem (Grenoble), Loria (Nancy), OLST (Montréal)
Web
Contact	Evelyne.Jacquey@atilf.fr

Coordination	Evelyne Jacquey assistée de Laurence Kister
Laboratoire porteur	Atilf – UMR 7118 CNRS/Université de Lorraine
Financement	ANR Contint (CONTenus et INTeractions)
Durée	15 novembre 2012 – 14 mai 2016
Description	TermITH s’intéresse à l’accès à l’information des documents numériques par le biais d’une indexation fondée sur les termes qu’ils contiennent, ce qui suppose reconnaissance, désambiguïsation et analyse des termes. La démarche développée par TermITH suppose de croiser des occurrences désambiguïsées de termes candidats avec des lexiques transdisciplinaires et les ressources terminologiques disponibles pour isoler les termes propres au domaine étudié. Elle présente deux intérêts principaux : • la désambiguïsation et le croisement avec les lexiques transdisciplinaires et les ressources terminologiques à disposition réduit l’effort humain de vérification des termes (ou descripteurs) proposés et l’analyse manuelle du contenu des documents • la mise à jour automatisée des ressources terminologiques devient envisageable Sur le plan théorique, TermITH présente l’originalité d’articuler et de rendre complémentaires des disciplines de recherches actuellement parallèles : • la désambiguïsation contextuelle • la fouille de données • la textométrie • la détection automatique des candidats termes • la projection de ressources et de lexiques Sur le plan expérimental, TermITH s’intéresse en particulier à un champ scientifique très ambigu entre langue terminologique de spécialité et langue générale : les sciences humaines et sociales. La méthodologie, mise au point sur une discipline test – la linguistique – sera validée sur l’archéologie, la psychologie (psychanalyse, psychologie sociale et sciences cognitives), les sciences de l’information, et la chimie. Si les premiers résultats sont positifs, l’indexation de documents relevant de disciplines moins ambigües sera facilitée par l’application de la méthodologie mise au point.
Laboratoires participants	ATILF (Nancy), Inist (Nancy), Lidilem (Grenoble), Lina (Nantes), Inria (Nancy Grand-Est), Inria (Saclay Île-de-France)
Web	http://www.atilf.fr/ressources/termith/
Contact	Evelyne.Jacquey@atilf.fr Laurence.Kister@univ-lorraine.fr

Istex-R

Coordination	Yannick Toussaint (Loria)
Durée	24 mois (démarrage 2013)
Description	Le projet Istex-R est un projet de recherche appliqué qui vise à intégrer et à mettre à disposition sur la plateforme Istex des outils d’accès au contenu opérant sur les textes intégraux, permettant de construire et de capitaliser des connaissances dans une domaine scientifique ou technique. La plateforme – mise en oeuvre par l’Inist – est alimentée par l’achat ou la mise à disposition par des éditeurs scientifiques ou techniques d’un très grand volume de textes intégraux. Le projet fait l’hypothèse que l’utilisateur de la plateforme dispose déjà d’outils avancés d’accès à l’information ayant fait leurs preuves et permettant – à moindre coût – de structurer un grand volume de textes. Istex-R complètera la plateforme Istex en s’adaptant aux fonctionalités mises à disposition pour la collecte et la consolidation de corpus. Le projet envisage une analyse plus fine du contenu : caractérisation de l’évolution des recherches et des connaissances dans le temps. Si le résultat de certaines recherches font l’effet d’une révolution ou d’un électrochoc, l’évolution des connaissances dans un domaine se fait plus souvent par des glissements plus subtils d’une problématique vers une autre et par un enrichissement progressif des connnaissances. La construction de cartes diachroniques vise à outiller l’expert d’un domaine pour lui permettre d’observer ce type d’évolution. L’accès au contenu des textes d’un domaine passe par la conceptualisation de ce domaine qui permet de capitaliser les connaissances exprimées dans les textes. Il s’agit de mettre en oeuvre une indexation terminologique de qualité, dans laquelle les termes et leurs variantes sont identifiés, désambiguisés et associés à leurs concepts pour la construction d’un ontologie. L’expert peut ainsi explorer cette conceptualisation et accéder aux documents impliquant les concepts qu’il recherche.
Laboratoires participants	ATILF (Nancy), Inist (Nancy), Loria (Nancy)
Web
Contact	Yannick.Toussaint@Loria.fr

ASTTIC : Annotation Sémantique et Terminologique de Textes pour leur Indexation et leur Catégorisation

Coordination	Laurence Kister et Evelyne Jacquey
Financement	MSH-Lorraine – Axe 2 : Langues, textes et documents
Durée	2011-2012
Description	Le projet a pour objectif la constitution de corpus textuels, annotés sémantiquement et terminologiquement diffusables et accessibles pour la communauté scientifique. Il se fonde sur les résultats et les observations issus de travaux antérieurs associant sémantique lexicale, sémantique textuelle et terminologie. Le projet a plusieurs objectifs : • mise au point, dans le domaine des sciences du langage une méthodologie d’annotation de documents contribuant à l’amélioration de leur indexation (indexation assistée au sens documentaire). L’annotation suppose le repérage dans les textes des candidats termes caractérisques du domaine et leur désambiguïsation sémantique et terminologique • enrichissement d’un thesaurus du domaine grâce aux candidats termes mis en évidence lors des étapes de repérage et de désambiguïsation • catégorisation des textes en textes scientifiques (écrit pour des spécialistes par des spécialistes) ou en textes de vulgarisation scientifique (écrit pour le grand public par des spécialistes ou des journalistes scientifiques) en fonction de leur degré de généricité ou de spécificité Le repérage et l’extraction du vocabulaire des sciences du langage présentent une difficulté spécifique liée à une de ses particularités : la proximité entre le vocabulaire du domaine de spécialité et la langue courante (arbre est un terme en syntaxe et un mot de la langage courante – composition est un terme dans les deux sous-domaines que sont la syntaxe et la morphologie ainsi qu’un terme de musicologie et un mot de la langue courante)
Laboratoires participants	ATILF (Nancy), Loria (Nancy), Inist (Nancy), Lidilem (Grenoble), Lina (Nantes), Inria (Saclay-Île-de-France)
Web	http://www.msh-lorraine.fr/index.php?id=531
Contact	Laurence.Kister@univ-nancy2.fr Evelyne.Jacquey@atilf.fr

Ananas : ANotation ANaphorique pour l’Analyse Sémantique de corpus

Coordination	Suzanne Salmon-Alt
Financement	CNRS – Programme Interdisciplinaire Société de l’Information
Durée	2002-2005
Description	Le projet ANANAS consistait en la création d’une base de corpus sémantiques du français, annotés en relations anaphoriques selon un schéma normalisé accessible librement pour la recherche. Ce type de corpus est nécessaire tant pour la communauté linguistique cherchant à valider des modèles sémantiques formels que pour la communauté de linguistique informatique cherchant à évaluer des algorithmes pour l’interprétation et la génération d’expressions nominales constituant des chaînes anaphoriques
Laboratoires participants	ATILF (Nancy), Loria-Led (Nancy), Issco (Genève), Université Stendhal (Grenoble)