BEL-RL-fr

Le projet BEL-RL-fr a débuté en 2018. Il est intimement lié au Réseau lexical du français (RL-fr), dont il valorise la base de citations lexicographiques, à travers sa diffusion et son exploitation dans le cadre de travaux exploratoires sur l’ambiguïté lexicale.

Les citations utilisées comme exemples lexicographiques représentent un genre textuel particuliers. En tant que courts extraits choisis pour illustrer des sens et leurs emplois, elles présentent notamment un intérêt pour les travaux en désambiguïsation lexicale automatique (Lux-Pogodalla 2014).

Afin d’en simplifier l’appropriation et l’exploitation, la base d’exemples associée au RL-fr est distribuée depuis décembre 2019 sur l’équipex Ortolang en tant que corpus indépendant, sous le nom de BEL-RL-fr.

Tout comme le RL-fr, cette base est enrichie quotidiennement.

Dans l’état courant du réseau, on dénombre 52 218 exemples, associant des unités lexicales à 33 051 citations. Chaque unité lexicale est illustrée par 1 à 63 exemples et chaque citation est utilisée pour illustrer 1 à 12 unités lexicales distinctes.

Ainsi, la citation ci-dessous sert d’exemple lexicographique à chacune des douze unités lexicales en bleu. D’un clic, vous pouvez visualiser leur intégration au réseau et leur description description lexicographique.

Chez nous il est tout juste 20 h et nous revenons du stade nous avons fait un petit football avec quelques copains allemands, suédois et français.
FrWac, février 2008

Les citations sont distribuées dans un format XML conforme aux propositions de la TEI, qui intègre les positions des unités lexicales illustrées. Chaque citation est associée à l’ensemble des métadonnées disponibles (origine, titre de la source, auteur, emplacement, date de publication). Des URI sont utilisés pour établir des liens entre BEL-RL-fr et les mises à disposition du RL-fr préexistantes (visualisation en ligne mise à jour quotidiennement, export téléchargeable).

Ce projet s’inscrit dans le cadre des travaux sur les Systèmes Lexicaux menés sous la responsabilité d’Alain Polguère.

À partir de janvier 2023, le projet BEL-RL-fr se font en partie dans le Groupe de Recherche Polysémie et Ambiguïté Lexicale.

Seules les mises à jour de la distribution de la ressource continuent à être documentées sur cette page.

Étapes
mai - août 2022Clémentine Bleuze
Sandrine Ollinger
Mathieu Constant
- expériences de désambiguisation lexicale automatique (couples de sens)
- stage de L3
Rapport de stage

Soutenance
nov. 2020 - juin 2021Aman Sinha
Sandrine Ollinger
Mathieu Constant
Alain Polguère
CPER LCHNArticle
Code
Présentation
- expériences de désambiguisation lexicale automatique
janv. 2020 - juin 2024Sandrine Ollinger
Denis Maurel (Lifat)
- segmentation en phrases par cascades d'analyseArticle
Distribution
avril 2021Sandrine OllingerDistribution V2
juin - août 2020Camille Kuntz
Sandrine Ollinger
Alain Polguère
IMPACT OLKi-LUE
- révision base d'exemples
- validation exemples
- ajout marques d'usage
- révision Mémo
février 2020Sandrine Ollinger- import TXMBillet
sept. - déc. 2019Marine Schmitt
Sandrine Ollinger
Étienne Petitjean
CORLI
CPER LCHN
Distribution V1
- définition format XML-TEI
- implémentation chaîne de traitement
- essais segmentation en phrases
- corrections exemples
- révision CG statuts lexicaux (Alain Polguère)
mars - oct. 2018Sandrine Ollinger
Évelyne Jacquey
Veronika Lux-Pogodalla
Simon Méoni
Alain Polguère
Marie-Sophie Pausé
CoReA2D
CPER LCHN
- annotation d’exemples en sens lexicaux :
• AUBE
• SOLEIL
Bibliographie
S. Ollinger, D. Maurel2024Segmentation en phrases : ouvrez les guillemets sans perdre le filJADT 2024 : 17th International Conference on Statistical Analysis of Textual Data, 25-27 juin 2024 Bruxelles (Belgique), Mots comptés, textes déchiffrés, Vol. 2, Anne Dister et Dominique Longrée (éd.), Presses Universitaires de Louvain, pages 683-691.pdf
S. Ollinger2024Distribution du corpus BEL-RL-fr Version 3.1Rapport technique, ATILF CNRS, Nancypdf
S. Ollinger2023Distribution du corpus BEL-RL-fr — Version 3Rapport technique, ATILF CNRS, Nancypdf
A. Sinha, S. Ollinger, M. Constant2022Word Sense Disambiguation of French Lexicographical Examples Using Lexical NetworksProceedings of TextGraphs-16: Graph-based Methods for Natural Language Processing, Gyeongju, Republic of Korea, pages 70–76pdf
S. Ollinger, A. Polguère2020Mémo Systèmes Lexicaux. Exemples lexicographiquesRapport technique, ATILF CNRS, Nancypdf
V. Lux-Pogodalla2014Intégration relationnelle des exemples lexicographiques dans un réseau lexicalActes TALN (Traitement Automatique du Langage Naturel), Marseille, France, Juillet 2014pdf
Communications
27 juin 2024S. Ollinger & D. MaurelSegmentation en phrases : ouvrez les
guillemets sans perdre le fil
Journées internationales d'Analyse statistique des Données Textuelles, Bruxellespdf
16 octobre 2022A. Sinha, S. Ollinger, M. ConstantWord Sense Disambiguation of French Lexicographical Examples Using Lexical NetworksTextGraphs-16, COLING22, Gyeongju, Republic of Korea
27 janvier 2022S. OllingerBEL-RL-fr et désambiguïsation lexicaleSTRange Thursdays, ATILF, Nancypdf
31 mai 2021S. OllingerBEL-RL-fr : l’enrichir, l’annoter, l’explorerDemi-journée thématique transversale « Outils informatiques et intelligence artificielle pour les sciences du langage », ATILF, Nancypdf

Statistiques

La V3.1 du BEL-RL-fr diffusée sur Ortolang comporte 31 987 citations et 53 013 segments textuels annotés en unité lexicale. Sa taille est de 1 259 589 mots.

La V3 du BEL-RL-fr diffusée sur Ortolang comporte 31 781 citations et 52 600 segments textuels annotés en unité lexicale. Sa taille est de 1 281 763 mots.

La V2 du BEL-RL-fr diffusée sur Ortolang comporte 31 131 citations et 51 347 segments textuels annotés en unité lexicale. Sa taille est de 1 231 923 mots.

répartition des exemples par sourcesrépartition des exemples par dates

La V1 du BEL-RL-fr diffusée sur Ortolang comporte 29 892 citations et 49 160 segments textuels annotés en unité lexicale. Sa taille est de 1 033 574 mots.

répartition des exemples par sourcesrépartition des exemples par dates