Offres de stage

L’ATILF recrute des stagiaires de Master 2 en 2018 en traitement automatique des langues.

Localisation: ATILF, Nancy
Durée: 4 à 6 mois
Gratification: réglementaire

Procédure de candidature

  • Les candidatures doivent être envoyées par mail à Mathieu Constant (Mathieu.Constant@univ-lorraine.fr). Le dossier de candidature contiendra un CV, une lettre de motivation, et, éventuellement, la recommandation d’un enseignant.
  • Date limite de candidature: 15 janvier 2018 (ou jusqu’à ce ce que le poste soit pourvu)

Les sujets de stage proposés sont les suivants:

1) Outil d’exploration d’expressions polylexicales dans un lexique et dans un corpus annoté

Encadrement: Mathieu Constant (ATILF, Université de Lorraine) et Agata Savary (LI, Université de Tours)

Le stage se déroulera dans le cadre du projet ANR PARSEME-FR qui étudie les liens entre expressions polylexicales et analyse syntaxico-sémantique automatique. Les expressions polylexicales, comme pomme de terre, se voiler la face, Afrique du Sud, prendre une décision, sont des groupes de mots aux propriétés imprévisibles, qui posent de nombreux problèmes aux applications du traitement automatique des langues.

Le stage consistera d’abord à développer un outil permettant de lier un lexique et un corpus annoté en expressions polylexicales, actuellement en phase de construction au sein du projet. Puis, le développement d’une interface web permettra d’explorer ces deux ressources au moyen de filtres multicritères.

Pour plus de détails, cliquer ici.

 

2) Analyse syntaxique de Frantext

Encadrement: Mathieu Constant (ATILF, Université de Lorraine), Christophe Benzitoun (ATILF, Université de Lorraine)
En collaboration avec l’équipe Ressources de l’ATILF

Frantext est une  base de données textuelles incluant plus de 5000 références (soit près de 300 millions de mots) s’échelonnant du Xe au XXIe siècle (avec une majorité de textes en français moderne). Afin de permettre des recherches plus fines dans cette base, l’ATILF s’est lancé dans une vaste campagne d’annotation linguistique de la base textuelle, en commençant par l’étiquetage morphosyntaxique et la lemmatisation. La prochaine étape est l’annotation syntaxique.

L’objectif de ce stage est de mettre en place une chaîne de traitement permettant d’annoter Frantext automatiquement au moyen d’analyseurs existants qu’il conviendra d’adapter au corpus et de combiner entre eux afin d’obtenir des analyses les plus fiables possibles.

Pour plus de détails, cliquer ici.

 

3) Développement de techniques faiblement supervisées d’étiquetage sémantique appliquées à la lemmatisation et à l’identification des expressions polylexicales

Encadrement: Mathieu Constant (ATILF, Université de Lorraine), Sandrine Ollinger (ATILF, Université de Lorraine)

 

Les dictionnaires sont des sources très riches d’informations linguistiques et peuvent s’avérer très utiles pour de nombreuses applications du traitement automatique des langues. L’ objectif de ce stage est de développer des approches faiblement supervisées d’étiquetage sémantique à partir de dictionnaires et d’algorithmes sur les graphes. Le stage consistera à construire un graphe sémantique à partir de dictionnaires et de corpus; puis, étant donné un mot ou une séquence de mots, à appliquer des algorithmes permettant de propager les informations lexicales et grammaticales contextuelles dans ce graphe et d’activer les bonnes analyses se trouvant dans le dictionnaire. Ces techniques seront appliquées et évaluées en particulier pour la lemmatisation et l’identification des expressions polylexicales.

Pour plus de détails, cliquer ici.