Dans le cadre du GR PAL, nous avons le plaisir de recevoir Lucie Barque le mois prochain, qui nous présentera son travail et avec qui nous discuterons des activités du groupe.
La discussion avec le GR PAL se tiendra en petit comité, mais l’ensemble des collègues intéressés sont conviés à assister à la présentation qui précédera.
Le séminaire se tiendra salle IMBS, le lundi 13 novembre à 14h et vous en trouverez ci-dessous le titre et le résumé.
Les difficultés inhérentes à la tâche de classification sémantique : étude statistique des facteurs linguistiques expliquant l’accord inter-annotateur dans le corpus FrSemcor
Je présenterai ici les résultats d’une étude portant sur l’analyse de l’accord entre annotateurs dans une tâche de classification sémantique en corpus. Dans cette étude, menée en collaboration avec Martial Foegel (LLF, Université Paris Cité) et Richard Huyghe (Université de Fribourg), nous cherchons à identifier et à évaluer l’importance des facteurs linguistiques favorisant les désaccords en termes de jugements sémantiques. Notre étude s’appuie sur un sous-ensemble des données du corpus FrSemcor (https://frsemcor.github.io/FrSemCor/), plus précisément sur 5176 occurrences de noms ayant été doublement annotés en aveugle à l’aide de supersenses, c’est-à-dire d’étiquettes représentant des classes sémantiques générales de type Act, Person, Attribute, etc. Ce jeu de données nous permet d’explorer les effets conjoints d’un certain nombre de facteurs linguistiques (fréquence et degré d’ambiguïté du lemme nominal, genre du sous-corpus dont provient l’occurrence, etc) sur l’accord/désaccord observé entre annotateurs et, à la lumière des facteurs de désaccord identifiés, de discuter des difficultés inhérentes à la caractérisation du sens lexical en contexte.