Me voici à Bruxelles pour quelques jours, pour assister aux 17es Journées internationales d’Analyse statistique des Données Textuelles. Une semaine qui s’annonce passionnante pour cette conférence dans laquelle se retrouvent non seulement des linguistes, mais de nombreux autres spécialistes de Sciences Humaines et Sociales. J’aurais le plaisir d’y présenter le travail sur la segmentation en […]

Avec Alain Polguère, nous venons de publier sur Ortolang deux versions conjointes du Réseau Lexical du français (V3.1) et de sa base de citations lexicographiques (V3.1). Elles correspondent à l’état de la base à la date du 26 avril 2024. Côté BEL-RL-fr, nous disposons désormais d’une segmentation en phrases, réalisée à l’aide de CASFin. Ce […]

Aujourd’hui, avec Évelyne Jacquey, nous saisissons l’occasion de la journée thématique « La linguistique de corpus à la croisée de questionnements théoriques, méthodologiques et empiriques », organisée par Hélène Vinckel-Roisin et Yvon Kermonès, pour revenir sur la pré-campagne d’annotation Appollon parcourt le ciel. Nous discuterons du rôle d’une telle pré-campagne pour se mettre d’accord entre expertes sur […]

En janvier 2020, à la suite de tests de segmentation en phrases réalisés par Marine Schmitt, j’ai commencé une collaboration avec Denis Maurel, dans le cadre du projet BEL-RL-fr. Nous avons travaillé à distance, sur le temps que nous arrivions à dégager l’un et l’autre pour avancer. Notre travail a aujourd’hui abouti et vous pouvez […]

Avec Alain Polguère, nous venons de publier sur Ortolang deux versions conjointes du Réseau Lexical du français (V3) et de sa base de citations lexicographiques (V3). Elles correspondent à l’état de la base à la date du 9 août 2023. Ce sont les données que nous utilisons désormais dans le cadre des expérimentations du GR PAL. Elles […]

Cette après-midi, dans le cadre des STRange Thursdays, je présenterai l’instrument INCEpTION au service STR. Je m’appuierai sur la campagne d’annotation menée avec Évelyne Jacquey dans le cadre du GR PAL pour illustrer différentes étapes : préparation de la campagne, annotation, arbitrage.

Nous avons le plaisir de vous annoncer que le corpus OrthoCorpus, dans sa nouvelle version augmentée (V3), est disponible à l’adresse suivante : https://hdl.handle.net/11403/orthocorpus/v3 Il comporte 1158 articles de la revue Rééducation Orthophonique (plus 5,5 millions de tokens), parus entre 1997 et 2020, et rédigés par des orthophonistes et d’autres professionnels de la santé ou […]

Voici venu le temps de la dernière étape d’une belle collaboration avec Jean-Philippe Corbellini (MSH Val-de-Loire), Gaëlle Deletraz (UMR Passages), Laure Gayraud (Cereq/Centre Émile Durkheim), Élise Tancoigne (Université de Lausanne) et Daniel Valero (UMR ICAR). Depuis le 14 juillet, vous trouverez, sur le site du Bulletin de Méthodologie Sociologique, notre article Un mot pour un […]

Le modèle des Systèmes Lexicaux rend compte des différents statuts lexicaux des lexies : Statut phraséologique locution forte semi-locution locution faible collocation collocatif de son gouverneur syntaxique collocatif de son sujet collocatif de son COD collocatif de son CObl collocatif de son complément construction cliché linguistique syntagme libre Statut sémantique anthroponyme toponyme ergonyme ergonyme ou pragmonyme […]

Cette après-midi, j’interviendrai dans le cadre de la demi-journée thématique transversale « Outils informatiques et intelligence artificielle pour les sciences du langage » organisée par Mathieu Constant au sein de l’ATILF. Je présenterai l’état actuel de la ressource et les instruments dont je rêve de disposer pour travailler dessus à l’avenir.