2015-2016 Frantext : étiquetage de textes littéraires
Frantext est une base de référence pour la littérature française. Elle comporte plus de 4700 ouvrages datant du Xe siècle à nos jours et appartenant au genre du théâtre, de la poésie, du roman, de la correspondance, du traité/essai, etc. La base, régulièrement actualisée, représentent plus de 285 000 000 mots. Afin de faciliter les recherches, il a semblé nécessaire d’étiqueter les textes en morphosyntaxe et de les lemmatiser. De nombreux outils existent pour étiqueter des textes mais ils ont été paramétrés à partir de textes journalistique (souvent ceux du Monde) et ne donnent pas des résultats satisfaisants sur les textes littéraires. Nous avons développé un nouvel apprentissage grâce à l’outil Talismane. Le corpus d’apprentissage est constitué de 100 extraits de Frantext d’environ 2000 mots qui datent de l’époque moderne (de 1850 à nos jours). Les extraits sont représentatifs de la répartition actuelle en genre et en date de Frantext. Un apprentissage a été réalisé tous les 10 extraits afin d’améliorer la qualité des annotations et de réduire les corrections.
Ma contribution dans ce projet est :
- Choix du jeu d’étiquette
- Prise de décision sur l’annotation des structures
- Correction/vérification des extraits annotés
- Rédaction du guide d’annotation
- Modification des lexiques : lexique de mots fermés, lexiques d’exclusion, lexique des multiwords
- Réalisation de l’apprentissage de Talismane lorsque la personne en charge de cette tâche était absente.
- Vérification des ouvrages originaux des extraits et correction des erreurs d’océrisation
- Pré-évaluation de la qualité de l’étiquetage dans les différents genres littéraires (poésie en vers, poésie en prose, théâtre, roman, traités/essais, écrits personnels)
- Présentation des résultats à l’équipe
2013-2015 ORFEO : Outils et Recherches sur le Français Ecrit et Oral
Projet ANR Corpus, dirigé par J.-M. Debaisieux http://www.projet-orfeo.fr/
Ce projet (2013-2016) a pour objectif de : (1) Produire des données secondaires à partir de corpus oraux et écrits existants : annotation en morphosyntaxe, syntaxe; (2) Développer des outils d’annotation; (3) Permettre une interrogation globale grâce à une homogénéisation des données et à une normalisation des métadonnées (contenu et format); (4) Intégrer les données sur une plateforme élaborée pour l’occasion; (5) Illustrer l’intérêt de données outillées par des études pilotes portant sur des aspects syntaxiques, pragmatiques, discursifs de la langue française
Ma contribution dans ce projet a été :
- Standardisation des corpus oraux (convention de transcription)
- Conversion au format xml_trs
- Alignement texte/son des corpus oraux
- Découpage des enregistrements et des transcriptions
- Multiples vérifications (correction de transcription, contrôle des sorties praat alignées au mot et au phonème, suivi de l’anonymisation)
- Métadonnées : standardisation, correction, remplissage automatique des champs « nbMots » et « dureeEnregistrement »
- Segmentation en énoncés des corpus oraux
- Révision du lexique des POS en vue du tagging des corpus
- Présentation du « Corpus d’Etude du Français Contemporain »
- Participation au groupe constitué autour de l’étude pilote des ‘clause linkage’
- Etude de l’emploi de « genre » dans les corpus oraux (en cours)
- Soutien à la coordination du projet
2013-2014 EIIDA : Étude interdisciplinaire et interlinguistique du discours académique
Projet dans le cadre du labex TranferS (labex ENS), dirigé par S. Carter-Thomas et J.-M. Debaisieux. Laboratoire LaTTiCe
L’objectif du projet est de comparer le discours scientifique écrit et le discours scientifique oral. Eiida constitue donc un corpus de communications présentées lors de colloques et de publications correspondantes (actes). « L’hypothèse principale que nous avançons est que, contrairement aux résultats obtenus pour les écrits scientifiques, et notamment dans le projet KIAP (Cultural Identity in Academic Prose, 2002-2005) qui montrent que l’influence de la discipline en jeu est plus forte que celle de la langue utilisée , le discours académique oral est marqué par une identité culturelle « romane » vs « anglo-saxonne » liée notamment à l’image, la fonction et l’histoire de l’institution universitaire dans la société. »
Les données peuvent être comparées selon trois axes : (1) la langue : anglais, français, espagnol ; (2) le moyen de communication : écrit, oral ; (3) le domaine : linguistique, biologie/physique.
Ma contribution dans ce projet a été :
- Balisage de transcriptions orales des domaines scientifique et linguistique (transcription en français et en anglais) et balisage d’articles du domaine linguistique en français : introduction, conclusion, remerciements, exemples (en linguistique), citations, emplois métalinguistiques…
- Présentation à l’équipe d’une solution d’arbre XML pour intégrer les spécificités des transcriptions orales
- Étude des ‘clause linkage’ en français oral et écrit (en cours)
2011 – PERCEO : Projet d’Étiqueteur Robuste pour l’Écrit et pour l’Oral http://www.cnrtl.fr/corpus/perceo/
En collaboration avec C. Benzitoun (MCF, Université de Lorraine)
L’objectif est de rendre disponible pour la communauté scientifique un étiqueteur en morphosyntaxe adapté à un type de données. Le projet consiste à développer divers fichiers de paramètres pour le logiciel TreeTagger, basés successivement sur l’apprentissage de corpus de français parlé, de littérature et de presse. En 2011, l’apprentissage sur le français parlé a été réalisé.
2010 – UNO : UNiformisation de corpus Oraux
En collaboration avec C. Benzitoun (MCF, Université de Lorraine)
Rassemblement de six corpus oraux et homogénéisation : format Transcriber (XML) et texte brut, transcription orthographique standard, conventions de transcriptions minimales, repérables automatiquement et univoques.
2006 – CRFP-2 : Corpus de Référence du Français Parlé 2
Projet soutenu par le ministère de la Culture, dirigé par A. Valli, Laboratoire DELIC, Aix-en-Provence
Le projet vise à fournir un corpus du français parlé des médias. Il comporte environ 50h d’enregistrement et 600 000 mots d’émissions de radio de France Culture.
Dans ce projet j’ai transcrit des émissions de France Culture et de France Musique avec le logiciel Transcriber.