Avec Alain Polguère, nous venons de publier sur Ortolang deux versions conjointes du Réseau Lexical du français (V3.1) et de sa base de citations lexicographiques (V3.1).
Elles correspondent à l’état de la base à la date du 26 avril 2024.
Côté BEL-RL-fr, nous disposons désormais d’une segmentation en phrases, réalisée à l’aide de CASFin.
Ce sont les données que nous utilisons désormais dans le cadre des expérimentations du GR PAL.
• Côté RL-fr, du point de vue des données :
Nombre de vocables [V] : 18 892 (+108)
Nombre d’unités lexicales [UL] : 29 784 (+173)
Taux de polysémie [UL / V] : 1,58 (=)
Nombre de liens de fonctions lexicales [FL] : 65 491 (+782)
Nombre de liens de copolysémie [CP] : 9 728 (+69)
Nombre de liens d’inclusion formelle locution → lexème inclus [IF] : 8 006 (+62)
Taux de connectivité lexicale [(FL + CP + IF) / UL] : 2,79 (+0,01)
Nombre de mots-formes : 307 435 (+1 358)
Nombre d’exemples lexicographiques : 32 026 (+209)
• Côté BEL-RL-fr, du point de vue des données :
Nombre de citations [C] : 31 987 (+206)
Nombre de segments textuels annotés en unités lexicales [S] : 53 013 (+413)
Nombre moyen de segments par citation [S/C] : 1,7 (σ = 1,06)
Nombre d’unités lexicales [UL] : 27 920
Nombre moyen de citations par unité lexicale [S/UL] : 1,9 (σ = 2,22)