Recherche

Mes travaux de recherches concernent l’identification des référents dans le discours : désignation des objets, des concepts, des processus et des événements de la réalité extralinguistique. Il concerne plusieurs angles d’approches tels la reconnaissance des référents introduits par des groupes prépositionnels en de, le repérage des unités linguistiques qui permettent d’introduire les concepts dans les textes, la désignation des concepts, des événements et des processus dans les langues de spécialité. L’identification des référents est abordée différentes manières et s’articule autour de la désignation des référents, c’est-à-dire la représentation conventionnelle d’un concept par un terme simple ou complexe, une phrase, une abréviation ou une formule. Ces travaux concernent l’éligibilité anaphorique, l’acquisition de traits sémantiques, l’annotation sémantique, l’utilisation de référent lexicalisé ou semi-lexicalisé, l’indexation assistée, la représentation des contenus par des thesaurus, des terminologies et des onto-terminologies.

Référence, thesaurus, terminologie et onto-terminologie : travaux actuels

Ces travaux portent sur l’existence de liens entre la structure du discours scientifique et technique et la hiérarchie présente dans les thesaurus, les terminologies et les onto-terminologies. Ce type d’analyse est en lien avec les travaux sur la référence : déterminer si les concepts qui structurent un domaine de spécialité sont utilisés pour structurer le discours. Il examine les chaînes de référence de textes scientifiques et techniques pour comparer l’utilisation des désignations des concepts à celles utilisées dans le thesaurus, la terminologie ou l’onto-terminologie, ainsi que la présence ou l’absence de hiérarchie entre les formes dans les textes. Cette approche vise à vérifier si la proximité des termes du thesaurus et des désignations des textes scientifiques conduit à une proximité au niveau de la structuration des connaissances : même hiérarchie entre les chaînes de références et les thesaurus (généricité, spécificité, équivalences, etc.).
Si on admet le principe terminologique selon lequel chaque concept n’a qu’une et une seule signification dans un domaine donné on admet logiquement sur chacun n’a qu’une et une seule désignation. Les habitudes de rédaction et les habitudes langagières font qu’à l’écrit, on utilise régulièrement des formes distinctes pour éviter les répétitions. Ceci a pour conséquence qu’un texte contient souvent plusieurs désignations pour un seul concept. Le projet consiste à recenser, à récupérer et à analyser des ressources existantes (thesaurus, ontologies, corpus, proxèmes, sémèmes, réseaux de synonymie, etc.) afin de mettre au point une méthodologie de comparaison des modes de représentation des connaissances et des contenus d’un document pour en déterminer la structure conceptuelle. Pour cela nous proposons de repérer les chaînes thématiques des textes, d’en déterminer l’organisation thématique et de la comparer à la structure d’un thesaurus, d’une terminologie ou d’une ontologie (pour cette phase nous utilisons des ressources du laboratoire : documents de linguistique de Frantext catégorisé – Thesaulangue, le thesaurus mis au point au laboratoire et le TLFi). A terme, l’objectif est de pouvoir utiliser un thesaurus ou une terminologie agrémentés de traits sémantiques pour annoter sémantiquement des textes, déterminer les thèmes de discours, évaluer le type de texte (vulgarisation vs scientifique et technique), déterminer la répartition des occurrences des termes et de leurs variantes lexicales ou syntaxiques afin d’enrichir le thesaurus pour obtenir une onto-terminologie.