Projets

Corpus et ressources : annotation, apprentissage, désambiguïsation – CoRe2AD

 

CoordinationEvelyne Jacquey
Laboratoire porteurAtilf – UMR 7118 CNRS/Université de Lorraine
FinancementCPER LCHN et Istex-R
Durée24 mois
DescriptionCoReA2D vise le développement d’un outil d’aide à l’annotation générique, ergonomique, conforme aux normes ISO de représentation (annotations déportées) et disposant de fonctionnalités permettant une gestion explicite d’une campagne d’annotation. Il prévoit l’utilisation de la méthodologie de l’apprentissage actif (alternative à la propagation d’étiquettes et à la pré-annotation totalement automatique). Dans cette perspective, il s’appuie sur différents outils : GLOZZ, GATE Teamware, un outil issu du projet TermITH, l’interface Idefix ainsi que sur TXM7.8 qui, sans être un outil d’aide à l’annotation, a récemment intégré des fonctionnalités d’annotation à celles de l’exploration statistique et lexicale des corpus. Ces outils seront étendus ou serviront de base au développement d’un outil nouveau.
L’originalité de la méthode envisagée est de renouveler la question de la propagation des annotations via l’exploitation d’une classification par similarité de l’ensemble des contextes d’apparition d’une même forme à annoter.Le premier résultat attendu est une synthèse de l’étude exploratoire menée sur les outils existants choisis. Elle sera fondée sur des expérimentations mises en œuvre sur des ressources déjà bien connues des membres du projet :
• les terminologies construites dans le projet ANR TermITH (ORTOLANG)
• les terminologies produites à partir d’une expérience réalisée dans le cadre de la facette recherche d’ISTEX sur un corpus en anglais centré sur le vieillissement
• les lexiques transdisciplinaires (ORTOLANG et OLST)
• deux ressources phraséologiques (TLF’Phraseo, ORTOLANG)
• la ressource produite par le projet ANR PARSEME-FR
Le second résultat attendu est l’outil lui-même qui fera usage de l’apprentissage actif, d’une propagation renouvelée des annotations et disposera d’une gestion maîtrisée des campagnes d’annotation
Laboratoires participantsATILF (Nancy), CLLE (Toulouse), Inist (Nancy), Lidilem (Grenoble), Loria (Nancy), OLST (Montréal)
Web
ContactEvelyne.Jacquey@atilf.fr

 

 

CoordinationEvelyne Jacquey assistée de Laurence Kister
Laboratoire porteurAtilf – UMR 7118 CNRS/Université de Lorraine
FinancementANR Contint (CONTenus et INTeractions)
Durée15 novembre 2012 – 14 mai 2016
DescriptionTermITH s’intéresse à l’accès à l’information des documents numériques par le biais d’une indexation fondée sur les termes qu’ils contiennent, ce qui suppose reconnaissance, désambiguïsation et analyse des termes. La démarche développée par TermITH suppose de croiser des occurrences désambiguïsées de termes candidats avec des lexiques transdisciplinaires et les ressources terminologiques disponibles pour isoler les termes propres au domaine étudié. Elle présente deux intérêts principaux :
• la désambiguïsation et le croisement avec les lexiques transdisciplinaires et les ressources terminologiques à disposition réduit l’effort humain de vérification des termes (ou descripteurs) proposés et l’analyse manuelle du contenu des documents
• la mise à jour automatisée des ressources terminologiques devient envisageable
Sur le plan théorique, TermITH présente l’originalité d’articuler et de rendre complémentaires des disciplines de recherches actuellement parallèles :
• la désambiguïsation contextuelle
• la fouille de données
• la textométrie
• la détection automatique des candidats termes
• la projection de ressources et de lexiques
Sur le plan expérimental, TermITH s’intéresse en particulier à un champ scientifique très ambigu entre langue terminologique de spécialité et langue générale : les sciences humaines et sociales. La méthodologie, mise au point sur une discipline test – la linguistique – sera validée sur l’archéologie, la psychologie (psychanalyse, psychologie sociale et sciences cognitives), les sciences de l’information, et la chimie. Si les premiers résultats sont positifs, l’indexation de documents relevant de disciplines moins ambigües sera facilitée par l’application de la méthodologie mise au point.
Laboratoires participantsATILF (Nancy), Inist (Nancy), Lidilem (Grenoble), Lina (Nantes), Inria (Nancy Grand-Est), Inria (Saclay Île-de-France)
Webhttp://www.atilf.fr/ressources/termith/
ContactEvelyne.Jacquey@atilf.fr
Laurence.Kister@univ-lorraine.fr

 

Istex-R

CoordinationYannick Toussaint (Loria)
Durée24 mois (démarrage 2013)
DescriptionLe projet Istex-R est un projet de recherche appliqué qui vise à intégrer et à mettre à disposition sur la plateforme Istex des outils d’accès au contenu opérant sur les textes intégraux, permettant de construire et de capitaliser des connaissances dans une domaine scientifique ou technique.
La plateforme – mise en oeuvre par l’Inist – est alimentée par l’achat ou la mise à disposition par des éditeurs scientifiques ou techniques d’un très grand volume de textes intégraux. Le projet fait l’hypothèse que l’utilisateur de la plateforme dispose déjà d’outils avancés d’accès à l’information ayant fait leurs preuves et permettant – à moindre coût – de structurer un grand volume de textes. Istex-R complètera la plateforme Istex en s’adaptant aux fonctionalités mises à disposition pour la collecte et la consolidation de corpus. Le projet envisage une analyse plus fine du contenu : caractérisation de l’évolution des recherches et des connaissances dans le temps. Si le résultat de certaines recherches font l’effet d’une révolution ou d’un électrochoc, l’évolution des connaissances dans un domaine se fait plus souvent par des glissements plus subtils d’une problématique vers une autre et par un enrichissement progressif des connnaissances. La construction de cartes diachroniques vise à outiller l’expert d’un domaine pour lui permettre d’observer ce type d’évolution.
L’accès au contenu des textes d’un domaine passe par la conceptualisation de ce domaine qui permet de capitaliser les connaissances exprimées dans les textes. Il s’agit de mettre en oeuvre une indexation terminologique de qualité, dans laquelle les termes et leurs variantes sont identifiés, désambiguisés et associés à leurs concepts pour la construction d’un ontologie. L’expert peut ainsi explorer cette conceptualisation et accéder aux documents impliquant les concepts qu’il recherche.
Laboratoires participantsATILF (Nancy), Inist (Nancy), Loria (Nancy)
Web
ContactYannick.Toussaint@Loria.fr

 

ASTTIC : Annotation Sémantique et Terminologique de Textes pour leur Indexation et leur Catégorisation

CoordinationLaurence Kister et Evelyne Jacquey
FinancementMSH-Lorraine – Axe 2 : Langues, textes et documents
Durée2011-2012
DescriptionLe projet a pour objectif la constitution de corpus textuels, annotés sémantiquement et terminologiquement diffusables et accessibles pour la communauté scientifique. Il se fonde sur les résultats et les observations issus de travaux antérieurs associant sémantique lexicale, sémantique textuelle et terminologie. Le projet a plusieurs objectifs :
• mise au point, dans le domaine des sciences du langage une méthodologie d’annotation de documents contribuant à l’amélioration de leur indexation (indexation assistée au sens documentaire). L’annotation suppose le repérage dans les textes des candidats termes caractérisques du domaine et leur désambiguïsation sémantique et terminologique
• enrichissement d’un thesaurus du domaine grâce aux candidats termes mis en évidence lors des étapes de repérage et de désambiguïsation
• catégorisation des textes en textes scientifiques (écrit pour des spécialistes par des spécialistes) ou en textes de vulgarisation scientifique (écrit pour le grand public par des spécialistes ou des journalistes scientifiques) en fonction de leur degré de généricité ou de spécificité
Le repérage et l’extraction du vocabulaire des sciences du langage présentent une difficulté spécifique liée à une de ses particularités : la proximité entre le vocabulaire du domaine de spécialité et la langue courante (arbre est un terme en syntaxe et un mot de la langage courante – composition est un terme dans les deux sous-domaines que sont la syntaxe et la morphologie ainsi qu’un terme de musicologie et un mot de la langue courante)
Laboratoires participantsATILF (Nancy), Loria (Nancy), Inist (Nancy), Lidilem (Grenoble), Lina (Nantes), Inria (Saclay-Île-de-France)
Webhttp://www.msh-lorraine.fr/index.php?id=531
ContactLaurence.Kister@univ-nancy2.fr
Evelyne.Jacquey@atilf.fr

 

Ananas : ANotation ANaphorique pour l’Analyse Sémantique de corpus

CoordinationSuzanne Salmon-Alt
FinancementCNRS – Programme Interdisciplinaire Société de l’Information
Durée2002-2005
DescriptionLe projet ANANAS consistait en la création d’une base de corpus sémantiques du français, annotés en relations anaphoriques selon un schéma normalisé accessible librement pour la recherche. Ce type de corpus est nécessaire tant pour la communauté linguistique cherchant à valider des modèles sémantiques formels que pour la communauté de linguistique informatique cherchant à évaluer des algorithmes pour l’interprétation et la génération d’expressions nominales constituant des chaînes anaphoriques
Laboratoires participantsATILF (Nancy), Loria-Led (Nancy), Issco (Genève), Université Stendhal (Grenoble)