{"id":15,"date":"2015-06-29T13:43:26","date_gmt":"2015-06-29T12:43:26","guid":{"rendered":"https:\/\/apps.atilf.fr\/homepages\/lberard\/?page_id=15"},"modified":"2016-01-21T11:04:05","modified_gmt":"2016-01-21T10:04:05","slug":"projets","status":"publish","type":"page","link":"https:\/\/perso.atilf.fr\/lberard\/projets\/","title":{"rendered":"Projets"},"content":{"rendered":"<p><strong>2015-2016 Frantext <\/strong><strong>: \u00e9tiquetage de textes litt\u00e9raires<\/strong><\/p>\n<p>Frantext est une base de r\u00e9f\u00e9rence pour la litt\u00e9rature fran\u00e7aise. Elle comporte plus de 4700 ouvrages datant du Xe si\u00e8cle \u00e0 nos jours et appartenant au genre du th\u00e9\u00e2tre, de la po\u00e9sie, du roman, de la correspondance, du trait\u00e9\/essai, etc. La base, r\u00e9guli\u00e8rement actualis\u00e9e, repr\u00e9sentent plus de 285 000 000 mots. Afin de faciliter les recherches, il a sembl\u00e9 n\u00e9cessaire d&rsquo;\u00e9tiqueter les textes en morphosyntaxe et de les lemmatiser. De nombreux outils existent pour \u00e9tiqueter des textes mais ils ont \u00e9t\u00e9 param\u00e9tr\u00e9s \u00e0 partir de textes journalistique (souvent ceux du Monde) et ne donnent pas des r\u00e9sultats satisfaisants sur les textes litt\u00e9raires. Nous avons d\u00e9velopp\u00e9 un nouvel apprentissage gr\u00e2ce \u00e0 l&rsquo;outil Talismane. Le corpus d&rsquo;apprentissage est constitu\u00e9 de 100 extraits de Frantext d&rsquo;environ 2000 mots qui datent de l&rsquo;\u00e9poque moderne (de 1850 \u00e0 nos jours). Les extraits sont repr\u00e9sentatifs de la r\u00e9partition actuelle en genre et en date de Frantext. Un apprentissage a \u00e9t\u00e9 r\u00e9alis\u00e9 tous les 10 extraits afin d&rsquo;am\u00e9liorer la qualit\u00e9 des annotations et de r\u00e9duire les corrections.<\/p>\n<p>Ma contribution dans ce projet est :<\/p>\n<ul>\n<li>Choix du jeu d&rsquo;\u00e9tiquette<\/li>\n<li>Prise de d\u00e9cision sur l&rsquo;annotation des structures<\/li>\n<li>Correction\/v\u00e9rification des extraits annot\u00e9s<\/li>\n<li>R\u00e9daction du guide d&rsquo;annotation<\/li>\n<li>Modification des lexiques : lexique de mots ferm\u00e9s, lexiques d&rsquo;exclusion, lexique des multiwords<\/li>\n<li>R\u00e9alisation de l&rsquo;apprentissage de Talismane lorsque la personne en charge de cette t\u00e2che \u00e9tait absente.<\/li>\n<li>V\u00e9rification des ouvrages originaux des extraits et correction des erreurs d&rsquo;oc\u00e9risation<\/li>\n<li>Pr\u00e9-\u00e9valuation de la qualit\u00e9 de l&rsquo;\u00e9tiquetage dans les diff\u00e9rents genres litt\u00e9raires (po\u00e9sie en vers, po\u00e9sie en prose, th\u00e9\u00e2tre, roman, trait\u00e9s\/essais, \u00e9crits personnels)<\/li>\n<li>Pr\u00e9sentation des r\u00e9sultats \u00e0 l&rsquo;\u00e9quipe<\/li>\n<\/ul>\n<p><strong>2013-2015 ORFEO : Outils et Recherches sur le Fran\u00e7ais Ecrit et Oral<\/strong><\/p>\n<p>Projet ANR Corpus, dirig\u00e9 par J.-M. Debaisieux <a href=\"http:\/\/www.projet-orfeo.fr\/\">http:\/\/www.projet-orfeo.fr\/<\/a><\/p>\n<p>Ce projet (2013-2016) a pour objectif de\u00a0: (1) Produire des donn\u00e9es secondaires \u00e0 partir de corpus oraux et \u00e9crits existants\u00a0: annotation en morphosyntaxe, syntaxe; (2) D\u00e9velopper des outils d\u2019annotation; (3) Permettre une interrogation globale gr\u00e2ce \u00e0 une homog\u00e9n\u00e9isation des donn\u00e9es et \u00e0 une normalisation des m\u00e9tadonn\u00e9es (contenu et format); (4) Int\u00e9grer les donn\u00e9es sur une plateforme \u00e9labor\u00e9e pour l\u2019occasion; (5) Illustrer l\u2019int\u00e9r\u00eat de donn\u00e9es outill\u00e9es par des \u00e9tudes pilotes portant sur des aspects syntaxiques, pragmatiques, discursifs de la langue fran\u00e7aise<\/p>\n<p>Ma contribution dans ce projet a \u00e9t\u00e9 :<\/p>\n<ul>\n<li>Standardisation des corpus oraux (convention de transcription)<\/li>\n<li>Conversion au format xml_trs<\/li>\n<li>Alignement texte\/son des corpus oraux<\/li>\n<li>D\u00e9coupage des enregistrements et des transcriptions<\/li>\n<li>Multiples v\u00e9rifications (correction de transcription, contr\u00f4le des sorties praat align\u00e9es au mot et au phon\u00e8me, suivi de l&rsquo;anonymisation)<\/li>\n<li>M\u00e9tadonn\u00e9es : standardisation, correction, remplissage automatique des champs \u00ab\u00a0nbMots\u00a0\u00bb et \u00ab\u00a0dureeEnregistrement\u00a0\u00bb<\/li>\n<li>Segmentation en \u00e9nonc\u00e9s des corpus oraux<\/li>\n<li>R\u00e9vision du lexique des POS en vue du tagging des corpus<\/li>\n<li>Pr\u00e9sentation du \u00ab\u00a0Corpus d&rsquo;Etude du Fran\u00e7ais Contemporain\u00a0\u00bb<\/li>\n<li>Participation au groupe constitu\u00e9 autour de l&rsquo;\u00e9tude pilote des &lsquo;clause linkage&rsquo;<\/li>\n<li>Etude de l&#8217;emploi de \u00ab\u00a0genre\u00a0\u00bb dans les corpus oraux (en cours)<\/li>\n<li>Soutien \u00e0 la coordination du projet<\/li>\n<\/ul>\n<p><strong>2013-2014 EIIDA : \u00c9tude inter\u00addis\u00adci\u00adpli\u00adnaire et inter\u00adlin\u00adguis\u00adtique du dis\u00adcours aca\u00add\u00e9\u00admique<\/strong><\/p>\n<p>Projet dans le cadre du labex\u00a0TranferS (labex ENS), dirig\u00e9 par S. Carter-Thomas et J.-M. Debaisieux<em>. Laboratoire LaTTiCe<\/em><\/p>\n<p>L\u2019objectif du projet est de com\u00adparer le dis\u00adcours scien\u00adti\u00adfique \u00e9crit et le dis\u00adcours scien\u00adti\u00adfique oral. Eiida constitue donc un corpus de communications pr\u00e9sent\u00e9es lors de colloques et de publications correspondantes (actes). \u00ab\u00a0L\u2019hypoth\u00e8se prin\u00adcipale que nous avan\u00e7ons est que, contrai\u00adrement aux r\u00e9sultats obtenus pour les \u00e9crits scien\u00adti\u00adfiques, et notamment dans le projet KIAP (Cultural Identity in Aca\u00addemic Prose, 2002-\u200b\u200b2005) qui montrent que l\u2019influence de la dis\u00adci\u00adpline en jeu est plus forte que celle de la langue uti\u00adlis\u00e9e , le dis\u00adcours aca\u00add\u00e9\u00admique oral est marqu\u00e9 par une identit\u00e9 cultu\u00adrelle \u00ab\u00a0romane\u00a0\u00bb vs \u00ab\u00a0anglo-\u200b\u200bsaxonne\u00a0\u00bb li\u00e9e notamment \u00e0\u00a0l\u2019image, la fonction et l\u2019histoire de l\u2019institution uni\u00adver\u00adsi\u00adtaire dans la\u00a0soci\u00e9t\u00e9.\u00a0\u00bb<\/p>\n<p>Les donn\u00e9es peuvent \u00eatre compar\u00e9es selon trois axes : (1) la langue : anglais, fran\u00e7ais, espagnol\u00a0; (2) le moyen de communication : \u00e9crit, oral\u00a0; (3) le domaine : linguistique, biologie\/physique.<\/p>\n<p>Ma contribution dans ce projet a \u00e9t\u00e9 :<\/p>\n<ul>\n<li>Balisage de transcriptions orales des domaines scientifique et linguistique (transcription en fran\u00e7ais et en anglais) et balisage d&rsquo;articles du domaine linguistique en fran\u00e7ais : introduction, conclusion, remerciements, exemples (en linguistique), citations, emplois m\u00e9talinguistiques\u2026<\/li>\n<li>Pr\u00e9sentation \u00e0 l&rsquo;\u00e9quipe d&rsquo;une solution d&rsquo;arbre XML pour int\u00e9grer les sp\u00e9cificit\u00e9s des transcriptions orales<\/li>\n<li>\u00c9tude des &lsquo;clause linkage&rsquo; en fran\u00e7ais oral et \u00e9crit (en cours)<\/li>\n<\/ul>\n<p><strong>2011 &#8211; PERCEO<\/strong> : <strong>Projet d\u2019\u00c9tiqueteur Robuste pour l\u2019\u00c9crit et pour l&rsquo;Oral <\/strong><a href=\"http:\/\/www.cnrtl.fr\/corpus\/perceo\/\">http:\/\/www.cnrtl.fr\/corpus\/perceo\/ <\/a><\/p>\n<p>En collaboration avec C. Benzitoun (MCF, Universit\u00e9 de Lorraine)<\/p>\n<p>L\u2019objectif est de rendre disponible pour la communaut\u00e9 scientifique un \u00e9tiqueteur en morphosyntaxe adapt\u00e9 \u00e0 un type de donn\u00e9es. Le projet consiste \u00e0 d\u00e9velopper divers fichiers de param\u00e8tres pour le logiciel TreeTagger, bas\u00e9s successivement sur l\u2019apprentissage de corpus de fran\u00e7ais parl\u00e9, de litt\u00e9rature et de presse. En 2011, l&rsquo;apprentissage sur le fran\u00e7ais parl\u00e9 a \u00e9t\u00e9 r\u00e9alis\u00e9.<\/p>\n<p><strong>2010 &#8211; UNO : <\/strong><strong>UNiformisation de corpus Oraux<\/strong><\/p>\n<p>En collaboration avec C. Benzitoun (MCF, Universit\u00e9 de Lorraine)<\/p>\n<p>Rassemblement de six corpus oraux et homog\u00e9n\u00e9isation : format Transcriber (XML) et texte brut, transcription orthographique standard, conventions de transcriptions minimales, rep\u00e9rables automatiquement et univoques.<\/p>\n<p><strong>2006 &#8211; CRFP-2 : Corpus de R\u00e9f\u00e9rence du Fran\u00e7ais Parl\u00e9 2<\/strong><\/p>\n<p>Projet soutenu par le minist\u00e8re de la Culture, dirig\u00e9 par A. Valli, <em>Laboratoire DELIC, Aix-en-Provence<\/em><\/p>\n<p>Le projet vise \u00e0 fournir un corpus du fran\u00e7ais parl\u00e9 des m\u00e9dias. Il comporte environ 50h d\u2019enregistrement et 600\u00a0000 mots d\u2019\u00e9missions de radio de France Culture.<\/p>\n<p>Dans ce projet j&rsquo;ai transcrit des \u00e9missions de France Culture et de France Musique avec le logiciel Transcriber.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>2015-2016 Frantext : \u00e9tiquetage de textes litt\u00e9raires Frantext est une base de r\u00e9f\u00e9rence pour la litt\u00e9rature fran\u00e7aise. Elle comporte plus de 4700 ouvrages datant du Xe si\u00e8cle \u00e0 nos jours et appartenant au genre du th\u00e9\u00e2tre, de la po\u00e9sie, du roman, de la correspondance, du trait\u00e9\/essai, etc. La base, r\u00e9guli\u00e8rement actualis\u00e9e, repr\u00e9sentent plus de 285 [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"parent":0,"menu_order":0,"comment_status":"closed","ping_status":"closed","template":"","meta":{"footnotes":""},"class_list":["post-15","page","type-page","status-publish","hentry"],"_links":{"self":[{"href":"https:\/\/perso.atilf.fr\/lberard\/wp-json\/wp\/v2\/pages\/15","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/perso.atilf.fr\/lberard\/wp-json\/wp\/v2\/pages"}],"about":[{"href":"https:\/\/perso.atilf.fr\/lberard\/wp-json\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"https:\/\/perso.atilf.fr\/lberard\/wp-json\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/perso.atilf.fr\/lberard\/wp-json\/wp\/v2\/comments?post=15"}],"version-history":[{"count":11,"href":"https:\/\/perso.atilf.fr\/lberard\/wp-json\/wp\/v2\/pages\/15\/revisions"}],"predecessor-version":[{"id":242,"href":"https:\/\/perso.atilf.fr\/lberard\/wp-json\/wp\/v2\/pages\/15\/revisions\/242"}],"wp:attachment":[{"href":"https:\/\/perso.atilf.fr\/lberard\/wp-json\/wp\/v2\/media?parent=15"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}