Problématique et objectifs :
Ce projet d’analyse morpho-syntaxique d’un langage (l’occitan) doit permettre d’élaborer un PoS-tagger pour des textes de corpus, à partir de lexiques très complets et de corpus non annotés. A partir d’une phrase, l’algorithme doit être capable de la découper en unités et d’attribuer une étiquette morpho-syntaxique (verbe, nom propre masculin singulier,…) pour chaque unité.
Descriptif du jeu de données fourni :
Plusieurs structures de données dont une bibliothèques des catégories grammaticales, un lexique de 1 400 000 formes fléchies en occitan gascon (verbes conjugués, noms et adjectifs déclinés, etc.), des corpus annotés et non annotés .