Projets

2015-2016 Frantext : étiquetage de textes littéraires

Frantext est une base de référence pour la littérature française. Elle comporte plus de 4700 ouvrages datant du Xe siècle à nos jours et appartenant au genre du théâtre, de la poésie, du roman, de la correspondance, du traité/essai, etc. La base, régulièrement actualisée, représentent plus de 285 000 000 mots. Afin de faciliter les recherches, il a semblé nécessaire d’étiqueter les textes en morphosyntaxe et de les lemmatiser. De nombreux outils existent pour étiqueter des textes mais ils ont été paramétrés à partir de textes journalistique (souvent ceux du Monde) et ne donnent pas des résultats satisfaisants sur les textes littéraires. Nous avons développé un nouvel apprentissage grâce à l’outil Talismane. Le corpus d’apprentissage est constitué de 100 extraits de Frantext d’environ 2000 mots qui datent de l’époque moderne (de 1850 à nos jours). Les extraits sont représentatifs de la répartition actuelle en genre et en date de Frantext. Un apprentissage a été réalisé tous les 10 extraits afin d’améliorer la qualité des annotations et de réduire les corrections.

Ma contribution dans ce projet est :

  • Choix du jeu d’étiquette
  • Prise de décision sur l’annotation des structures
  • Correction/vérification des extraits annotés
  • Rédaction du guide d’annotation
  • Modification des lexiques : lexique de mots fermés, lexiques d’exclusion, lexique des multiwords
  • Réalisation de l’apprentissage de Talismane lorsque la personne en charge de cette tâche était absente.
  • Vérification des ouvrages originaux des extraits et correction des erreurs d’océrisation
  • Pré-évaluation de la qualité de l’étiquetage dans les différents genres littéraires (poésie en vers, poésie en prose, théâtre, roman, traités/essais, écrits personnels)
  • Présentation des résultats à l’équipe

2013-2015 ORFEO : Outils et Recherches sur le Français Ecrit et Oral

Projet ANR Corpus, dirigé par J.-M. Debaisieux http://www.projet-orfeo.fr/

Ce projet (2013-2016) a pour objectif de : (1) Produire des données secondaires à partir de corpus oraux et écrits existants : annotation en morphosyntaxe, syntaxe; (2) Développer des outils d’annotation; (3) Permettre une interrogation globale grâce à une homogénéisation des données et à une normalisation des métadonnées (contenu et format); (4) Intégrer les données sur une plateforme élaborée pour l’occasion; (5) Illustrer l’intérêt de données outillées par des études pilotes portant sur des aspects syntaxiques, pragmatiques, discursifs de la langue française

Ma contribution dans ce projet a été :

  • Standardisation des corpus oraux (convention de transcription)
  • Conversion au format xml_trs
  • Alignement texte/son des corpus oraux
  • Découpage des enregistrements et des transcriptions
  • Multiples vérifications (correction de transcription, contrôle des sorties praat alignées au mot et au phonème, suivi de l’anonymisation)
  • Métadonnées : standardisation, correction, remplissage automatique des champs « nbMots » et « dureeEnregistrement »
  • Segmentation en énoncés des corpus oraux
  • Révision du lexique des POS en vue du tagging des corpus
  • Présentation du « Corpus d’Etude du Français Contemporain »
  • Participation au groupe constitué autour de l’étude pilote des ‘clause linkage’
  • Etude de l’emploi de « genre » dans les corpus oraux (en cours)
  • Soutien à la coordination du projet

2013-2014 EIIDA : Étude inter­dis­ci­pli­naire et inter­lin­guis­tique du dis­cours aca­dé­mique

Projet dans le cadre du labex TranferS (labex ENS), dirigé par S. Carter-Thomas et J.-M. Debaisieux. Laboratoire LaTTiCe

L’objectif du projet est de com­parer le dis­cours scien­ti­fique écrit et le dis­cours scien­ti­fique oral. Eiida constitue donc un corpus de communications présentées lors de colloques et de publications correspondantes (actes). « L’hypothèse prin­cipale que nous avançons est que, contrai­rement aux résultats obtenus pour les écrits scien­ti­fiques, et notamment dans le projet KIAP (Cultural Identity in Aca­demic Prose, 2002-​​2005) qui montrent que l’influence de la dis­ci­pline en jeu est plus forte que celle de la langue uti­lisée , le dis­cours aca­dé­mique oral est marqué par une identité cultu­relle « romane » vs « anglo-​​saxonne » liée notamment à l’image, la fonction et l’histoire de l’institution uni­ver­si­taire dans la société. »

Les données peuvent être comparées selon trois axes : (1) la langue : anglais, français, espagnol ; (2) le moyen de communication : écrit, oral ; (3) le domaine : linguistique, biologie/physique.

Ma contribution dans ce projet a été :

  • Balisage de transcriptions orales des domaines scientifique et linguistique (transcription en français et en anglais) et balisage d’articles du domaine linguistique en français : introduction, conclusion, remerciements, exemples (en linguistique), citations, emplois métalinguistiques…
  • Présentation à l’équipe d’une solution d’arbre XML pour intégrer les spécificités des transcriptions orales
  • Étude des ‘clause linkage’ en français oral et écrit (en cours)

2011 – PERCEO : Projet d’Étiqueteur Robuste pour l’Écrit et pour l’Oral http://www.cnrtl.fr/corpus/perceo/

En collaboration avec C. Benzitoun (MCF, Université de Lorraine)

L’objectif est de rendre disponible pour la communauté scientifique un étiqueteur en morphosyntaxe adapté à un type de données. Le projet consiste à développer divers fichiers de paramètres pour le logiciel TreeTagger, basés successivement sur l’apprentissage de corpus de français parlé, de littérature et de presse. En 2011, l’apprentissage sur le français parlé a été réalisé.

2010 – UNO : UNiformisation de corpus Oraux

En collaboration avec C. Benzitoun (MCF, Université de Lorraine)

Rassemblement de six corpus oraux et homogénéisation : format Transcriber (XML) et texte brut, transcription orthographique standard, conventions de transcriptions minimales, repérables automatiquement et univoques.

2006 – CRFP-2 : Corpus de Référence du Français Parlé 2

Projet soutenu par le ministère de la Culture, dirigé par A. Valli, Laboratoire DELIC, Aix-en-Provence

Le projet vise à fournir un corpus du français parlé des médias. Il comporte environ 50h d’enregistrement et 600 000 mots d’émissions de radio de France Culture.

Dans ce projet j’ai transcrit des émissions de France Culture et de France Musique avec le logiciel Transcriber.