Analyse automatique du grec ancien par réseau de neurones. Évaluation sur le corpus De Thessalonica Capta

  • Bastien Kindt
  • Chahan Vidal-Gorène
  • Saulo Delle Donne
Mots-clés: Traitement automatique des langues (TAL), Lemmatisation, Étiquetage morphosyntaxique, Grec ancien, Jean Anagnostès, Eustathe de Thessalonique, Jean Kaminiatès

Résumé

Le corpus DTC réunit des textes historiographiques grecs d’époque byzantine. Ces textes ont été analysés semi-automatiquement (lemmatisation et catégorisation morphosyntaxique) avec les outils informatiques et les ressources linguistiques du projet GREgORI (UCLouvain, Louvain-la-Neuve, Belgique) spécialisé dans le traitement automatique du grec et des langues de l’Orient chrétien. Une seconde analyse a été menée en collaboration avec l’entreprise Calfa (Paris, France) spécialisée dans le traitement de l’arménien et la mise en oeuvre d’approches basées sur l’intelligence artificielle. Cette seconde analyse est réalisée par un réseau de neurones. Cette étude compare et évalue les résultats produits par les deux méthodes et propose une approche hybride pour le traitement automatique des langues concernées.

Publiée
2022-02-24
Comment citer
Kindt, Bastien, Chahan Vidal-Gorène, et Saulo Delle Donne. 2022. « Analyse Automatique Du Grec Ancien Par réseau De Neurones. Évaluation Sur Le Corpus De Thessalonica Capta ». Bulletin De l’Académie Belge Pour l’Étude Des Langues Anciennes Et Orientales 1011 (février), 537-62. https://doi.org/10.14428/babelao.vol1011.2022.65073.
Rubrique
Miscellanea