BEL-RL-fr & RL-fr prêts pour JADT

Avec Alain Polguère, nous venons de publier sur Ortolang deux versions conjointes du Réseau Lexical du français (V3.1) et de sa base de citations lexicographiques (V3.1).

Elles correspondent à l’état de la base à la date du 26 avril 2024.

Côté BEL-RL-fr, nous disposons désormais d’une segmentation en phrases, réalisée à l’aide de CASFin.

Ce sont les données que nous utilisons désormais dans le cadre des expérimentations du GR PAL.

• Côté RL-fr, du point de vue des données :

Nombre de vocables [V] : 18 892 (+108)
Nombre d’unités lexicales [UL] : 29 784 (+173)
Taux de polysémie [UL / V] : 1,58 (=)
Nombre de liens de fonctions lexicales [FL] : 65 491 (+782)
Nombre de liens de copolysémie [CP] : 9 728 (+69)
Nombre de liens d’inclusion formelle locution → lexème inclus [IF] : 8 006 (+62)
Taux de connectivité lexicale [(FL + CP + IF) / UL] : 2,79 (+0,01)
Nombre de mots-formes : 307 435 (+1 358)
Nombre d’exemples lexicographiques : 32 026 (+209)

• Côté BEL-RL-fr, du point de vue des données :

Nombre de citations [C] : 31 987 (+206)
Nombre de segments textuels annotés en unités lexicales [S] : 53 013 (+413)
Nombre moyen de segments par citation [S/C] : 1,7 (σ = 1,06)
Nombre d’unités lexicales [UL] : 27 920
Nombre moyen de citations par unité lexicale [S/UL] : 1,9 (σ = 2,22)