Quand RL-fr et BEL-RL-fr s’enrichissent

Avec Alain Polguère, nous venons de publier sur Ortolang deux versions conjointes du Réseau Lexical du français (V2.1) et de sa base de citations lexicographiques (V2).

Elles correspondent à l’état de la base à la date du 31 mars 2021. Ce sont les données que nous utilisons désormais dans le cadre des expérimentations de désambiguïsation lexicale automatique que nous menons avec Aman Sinha et Mathieu Constant .

Elles ne comportent pas de changements structurels.

• Côté RL-fr, il s’agit d’un simple enrichissement des données :

Nombre de vocables [V] : 18 624 (+308)
Nombre d’unités lexicales [UL] : 29 220 (+568)
Taux de polysémie [UL / V] : 1,57 (+0,1)
Nombre de liens de fonctions lexicales [FL] : 62 641 (+2 194)
Nombre de liens de copolysémie [CP] : 9 413 (+293)
Nombre de liens d’inclusion formelle locution → lexème inclus [IF] : 7 855 (+113)
Taux de connectivité lexicale [(FL + CP + IF) / UL] : 2,73 (+0,03)
Nombre de mots-formes : 302 884 (+3 555)
Nombre d’exemples lexicographiques : 31 170 (+1 177)

• Côté BEL-RL-fr, une petite nouveauté est à noter, avec la diffusion du format TXM réalisé en février 2020. Le travail de relecture mené par Camille Kuntz est également en partie intégré et les données ont naturellement été enrichies :

Nombre de citations [C] : 31 131 (+1 239)
Nombre de segments textuels annotés en unités lexicales [S] : 51 347 (+2 187)
Nombre moyen de segments par citation [S/C] : 1,6 (σ = 1,05)
Nombre d’unités lexicales [UL] : 27 343
Nombre moyen de citations par unité lexicale [S/UL] : 1,9 (σ = 2,22)