Dans le cadre de son stage, Ahana Chattopadhyay a annoté automatiquement les corpus du projet ALUMCoCo en voisins lexicaux des différents sens de SOLEIL.
Elle mène actuellement une analyse qualitative de cette annotation en s’appuyant sur l’étude détaillée des 50 premiers extraits de chacun des deux sous-corpus.
Elle cherche à déterminer si l’annotation en voisins lexicaux aide à identifier le sens de SOLEIL présent dans chacun des extraits et comment cette annotation pourrait être améliorée pour être plus pertinente (prise en compte des poids sémantiques, des distances, des dépendances syntaxiques…).
Lors de notre réunion du jour, deux extraits ont attiré notre attention :
Dans le premier cas, la présence d’une occurrence du verbe ÊTRE à proximité de soleil, conforté par la présence du déterminant possessif mon, oriente l’annotation vers le sens SOLEIL III [Toute chose ou personne qui a une grande influence bénéfique.]. Pourtant, c’est SOLEIL I.a [L’astre du jour, visible dans le ciel depuis la Terre.] qui a été choisi lors de l’annotation.
Dans le second cas, la présence d’une occurrence du nom ZONE à proximité de soleil, voisin définitionnel de poids sémantique 2, oriente l’annotation vers le sens SOLEIL II.2 [Partie d’un lieu physique qui est ensoleillé.]. Pourtant, c’est SOLEIL II.1 [Lumière et chaleur de l’astre solaire. Beau temps.] qui a été choisi lors de l’annotation.
Dans les deux cas, l’annotation en sens lexicaux est correcte, mais elle ne signale pas directement la présence des autres sens, qui sont pourtant bel et bien activés par les énoncés.
Dans l’extrait 81, nous pouvons paraphraser Momo, j’l’ai trop gâté ; c’était mon rayon de soleil, la malice, la fantaisie. par Momo, j’l’ai trop gâté ; c’était mon soleil, la malice, la fantaisie. Dans une telle paraphrase, l’occurrence de soleil est une occurrence de SOLEIL III [Toute chose ou personne qui a une grande influence bénéfique.]. En effet, bien qu’elle ne soit actuellement pas décrite dans le RL-fr, il existe en français une locution nominale RAYON DE SOLEIL (II). Cette locution semble dérivée métaphoriquement de la locution RAYON DE SOLEIL (I) d’ores et déjà décrite dans le RL-fr. RAYON DE SOLEIL (II) a la particularité d’être un quasi-synonyme de SOLEIL III. Le sens de SOLEIL III est donc bien activé à la lecture de l’extrait, mais par l’intermédiaire de son quasi-synonyme.
Dans l’extrait 100, la situation est différente. Le sens de SOLEIL II.2 est bien activé à la lecture de l’énoncé Les enfants s’étaient précipités, entraient résolument dans la zone de soleil qui maintenait la foule, mais il l’est parce que ZONE et SOLEIL II.1 sont deux composantes sémantiques importantes de la définition de SOLEIL II.2, ayant chacune un poids sémantique égal à 2.
Dans le cas d’une évaluation de l’annotation en sens lexicaux, il nous faudra être en mesure de modéliser de telles activations de sens. Une telle modélisation nous permettra de considérer qu’un modèle qui choisirait d’annoter l’occurrence de l’extrait 81 avec SOLEIL III effectuerait une prédiction de meilleure qualité qu’un modèle qui choisirait SOLEIL II.2. De la même manière, le choix de SOLEIL II.2 pour l’extrait 100 devra être jugé moins mauvais que le choix de SOLEIL II.3 [Lieu réputé pour son beau temps, sa météo clémente.] ou SOLEIL III.