-
Notifications
You must be signed in to change notification settings - Fork 6
Home
Jean-Baptiste-Camps edited this page Nov 4, 2017
·
1 revision
Bienvenue sur le wiki du corpus Geste.
Le but de ces pages est de présenter et documenter l'annotation linguistique des textes du corpus.
Les textes ont été annotés en lemmes, morpho-syntaxe et flexion, fondés sur les référentiels suivant:
- lemme: entrées du dictionnaire de Tobler-Lommatzsch, avec quelques adaptations ;
- étiquettes morpho-syntaxiques et flexionnelles: étiquettes Cattex2009_max avec quelques adaptations.
Les textes sont annotés automatiquement par un lemmatiseur (Pandora), avec des modèles entraînés sur les données déjà corrigées. Le processus de relecture suivi est ensuite le suivant :
- Relecture en contexte de l'ensemble des occurrences avec leur annotation ;
- Vérifications systématiques (feuilles XSLT, requêtes XQuery) ;
- Confrontation des annotations vérifiées avec les prédictions d'un modèle entraîné sur elles-mêmes.
Le corpus Gold est composé des textes dont l'annotation a été revue selon le processus précédent au moins par deux personnes différentes. Le corpus Silver est composé des textes qui n'ont été relus qu'une seule fois.