Le projet BEL-RL-fr a débuté en 2018. Il est intimement lié au Réseau lexical du français (RL-fr), dont il valorise la base de citations lexicographiques, à travers sa diffusion et son exploitation dans le cadre de travaux exploratoires sur l’ambiguïté lexicale.
Les citations utilisées comme exemples lexicographiques représentent un genre textuel particuliers. En tant que courts extraits choisis pour illustrer des sens et leurs emplois, elles présentent notamment un intérêt pour les travaux en désambiguïsation lexicale automatique (Lux-Pogodalla 2014).
Afin d’en simplifier l’appropriation et l’exploitation, la base d’exemples associée au RL-fr est distribuée depuis décembre 2019 sur l’équipex Ortolang en tant que corpus indépendant, sous le nom de BEL-RL-fr.
Tout comme le RL-fr, cette base est enrichie quotidiennement.
Dans l’état courant du réseau, on dénombre 52 218 exemples, associant des unités lexicales à 33 051 citations. Chaque unité lexicale est illustrée par 1 à 63 exemples et chaque citation est utilisée pour illustrer 1 à 12 unités lexicales distinctes.
Ainsi, la citation ci-dessous sert d’exemple lexicographique à chacune des douze unités lexicales en bleu. D’un clic, vous pouvez visualiser leur intégration au réseau et leur description description lexicographique.
Les citations sont distribuées dans un format XML conforme aux propositions de la TEI, qui intègre les positions des unités lexicales illustrées. Chaque citation est associée à l’ensemble des métadonnées disponibles (origine, titre de la source, auteur, emplacement, date de publication). Des URI sont utilisés pour établir des liens entre BEL-RL-fr et les mises à disposition du RL-fr préexistantes (visualisation en ligne mise à jour quotidiennement, export téléchargeable).
Ce projet s’inscrit dans le cadre des travaux sur les Systèmes Lexicaux menés sous la responsabilité d’Alain Polguère.
Étapes | |||
mai - août 2022 | Clémentine Bleuze Sandrine Ollinger Mathieu Constant | - expériences de désambiguisation lexicale automatique (couples de sens) - stage de L3 | Rapport de stage Soutenance |
nov. 2020 - juin 2021 | Aman Sinha Sandrine Ollinger Mathieu Constant Alain Polguère | CPER LCHN | Article Code Présentation |
- expériences de désambiguisation lexicale automatique | |||
janv. 2020 - | Sandrine Ollinger Denis Maurel (Lifat) Nathalie Friburger (Lifat) | - segmentation en phrases par cascades d'analyse | |
avril 2021 | Sandrine Ollinger | Distribution V2 | |
juin - août 2020 | Camille Kuntz Sandrine Ollinger Alain Polguère | IMPACT OLKi-LUE | |
- révision base d'exemples - validation exemples - ajout marques d'usage - révision Mémo | |||
février 2020 | Sandrine Ollinger | - import TXM | Billet |
sept. - déc. 2019 | Marine Schmitt Sandrine Ollinger Étienne Petitjean | CORLI CPER LCHN | Distribution V1 |
- définition format XML-TEI - implémentation chaîne de traitement - essais segmentation en phrases - corrections exemples - révision CG statuts lexicaux (Alain Polguère) | |||
mars - oct. 2018 | Sandrine Ollinger Évelyne Jacquey Veronika Lux-Pogodalla Simon Méoni Alain Polguère Marie-Sophie Pausé | CoReA2D CPER LCHN | |
- annotation d’exemples en sens lexicaux : • AUBE • SOLEIL |
Bibliographie | ||||
A. Sinha, S. Ollinger, M. Constant | 2022 | Word Sense Disambiguation of French Lexicographical Examples Using Lexical Networks | Proceedings of TextGraphs-16: Graph-based Methods for Natural Language Processing, Gyeongju, Republic of Korea, pages 70–76 | |
S. Ollinger, A. Polguère | 2020 | Mémo Systèmes Lexicaux. Exemples lexicographiques | Rapport technique, ATILF CNRS, Nancy | |
V. Lux-Pogodalla | 2014 | Intégration relationnelle des exemples lexicographiques dans un réseau lexical | Actes TALN (Traitement Automatique du Langage Naturel), Marseille, France, Juillet 2014 |
Communications | ||||
16 octobre 2022 | A. Sinha, S. Ollinger, M. Constant | Word Sense Disambiguation of French Lexicographical Examples Using Lexical Networks | TextGraphs-16, COLING22, Gyeongju, Republic of Korea | |
27 janvier 2022 | S. Ollinger | BEL-RL-fr et désambiguïsation lexicale | STRange Thursdays, ATILF, Nancy | |
31 mai 2021 | S. Ollinger | BEL-RL-fr : l’enrichir, l’annoter, l’explorer | Demi-journée thématique transversale « Outils informatiques et intelligence artificielle pour les sciences du langage », ATILF, Nancy |
Statistiques
La V2 du BEL-RL-fr diffusée sur Ortolang comporte 31 131 citations et 51 347 segments textuels annotés en unité lexicale. Sa taille est de 1 231 923 mots.
La V1 du BEL-RL-fr diffusée sur Ortolang comporte 29 892 citations et 49 160 segments textuels annotés en unité lexicale. Sa taille est de 1 033 574 mots.