La version augmentée du corpus OrthoCorpus est à présent disponible ici sur Ortolang:
Il comporte plus de 1000 articles de la revue Rééducation Orthophonique (5 millions de mots), parus entre 1997 et 2018, et rédigés par des orthophonistes et d’autres professionnels de la santé ou de l’éducation. Il a été constitué à des fins de recherches lexicales, terminologiques et textuelles. Nous travaillons ce corpus depuis 2015 sur la collecte, la préparation des textes et des métadonnées. Nous avons mis au point et avons décrit la méthode également dans un document disponible sur hal.
Avec Clémentine Arnicot, orthophoniste, je me suis particulièrement concentrée sur l’enrichissement des métadonnées concernant les articles, et notamment sur un plan thématique. Jessika Perignon et Sandrine Ollinger se sont chargées des étapes techniques menant à la conversion en XML et de la préparation du corpus pour TXM.
Ce corpus est utile pour disposer d’un échantillon consistant d’un discours écrit concernant l’orthophonie, pour explorer la terminologie en usage, et également pour obtenir des éléments sur cette revue emblématique en orthophonie.