DIXEM

Traitement sémantique de corpus : projet DIXEM, 2006 – 2010

Responsable : Mathieu Valette

L’ère numérique modifie sensiblement les pratiques liées au texte. Les applications telles que la navigation sur Internet ou la Gestion Électronique de Documents (GED) sont demandeuses de nouvelles méthodologies et de nouvelles façons d’appréhender le texte. Comme elles ont les textes comme matériau d’étude privilégié, les sciences humaines et sociales sont tenues de renouveler le discours scientifique sur le texte dans cette perspective numérique.

La veille, la recherche d’information, l’analyse thématique et de façon plus générale toutes les activités liées au traitement des documents numériques, butent sur des problèmes de niveaux d’observation et d’observables. Le mot, ou des substituts tels que le lemme, constituent les principales unités linguistiques prises en compte, et lorsque l’on a recours à des lexiques sémantiques pour enrichir les textes, il s’agit dans la grande majorité des cas d’ontologies ou de thésaurus, lesquels ne constituent qu’une manière parmi d’autres de représenter le sens.
Le projet DIXEM a développé une perspective alternative dans laquelle un texte n’est plus considéré comme un sac de mots ni comme une suite de phrases, mais comme un ensemble de faisceaux de traits sémantiques. Ces faisceaux de traits sont discontinus, stabilisés en corpus et de taille variable (du mot au texte). Ils assurent la cohésion du texte et son intégration dans un corpus. On les appellera des formes sémantiques.

Cette notion de forme sémantique présente l’intérêt crucial d’être un objet empirique susceptible à la fois d’être étudié scientifiquement, et pouvant être assimilé, dans la perspective de l’ingénierie des connaissance, à un thème sémantique voire à un concept non lexicalisé. L’objectif de ce projet est donc de développer un dispositif expérimental (outil informatique, méthodes d’apprentissage statistique et ressource linguistique) visant à :
approfondir les connaissances actuelles sur les formes sémantiques connues et notamment référencées par la sémantique structurale,
en identifier de nouvelles que la théorie n’a pas su jusque là reconnaître faute d’une instrumentation adéquate, autrement dit,
créer de nouveaux observables sémantiques, textuels et lexicaux.

Le projet DIXEM a été soumis deux fois à l’ANR mais n’a pas été sélectionné.

source : ancien site www.atilf.fr