dimanche 13 octobre 2024

Des Vieilles Charrues à l'intelligence artificielle. Ou : une révolution en noir et blanc

 


Notre histoire commence à Carhaix. C’est vers 1530 qu’y est né Gilles, troisième rejeton de Marie de Kerprigent et de Jean de Kerampuil. Naissance dans le domaine de la famille. Devenu recteur de Motreff, on lui doit le calvaire du cimetière de Cléden ; et, en 1576, deux ans avant sa mort et douze après la fin du concile de Trente, la version bretonne du petit catéchisme du jésuite béatifié Canisius. Il l’a traduit, explique-t-il, « en idiome brette [breton], langue vulgaire de [s]a patrie, pour ne laisser au peuple aucune occasion d’excuse de n’apprendre ce que lui est nécessaire pour son salut ». Voilà donc comment, à la Renaissance, on contribuait au salut de sa patrie.

À Morlaix, ancien haut lieu de l’imprimerie en langue bretonne, le 15 octobre 2024 est partie aux enchères la bibliothèque de la famille Le Goaziou. Elle s’est fait un nom dans la République des Lettres, et pour la République tout court. C’est le libraire résistant, « bête noire des militants du PNB », Adolphe, que visait cette inscription sur la façade de la préfecture de Quimper, le 13 décembre 1941 : « Breiz Atao vaincra. Malheur aux traîtres : exemple Le Goaziou ». Il tombera dans les filets de la Gestapo en 1943. (Kristian Hamon, Les Nationalistes bretons sous l’Occupation, p. 143). Entre autres lots, un exemplaire du Catechism imprimé à Paris par Jacques Kerver, un des gros éditeurs de la Babel des intellos où se donnaient rendez-vous toutes les nations de la chrétienté. Si l’on excepte le dictionnaire trilingue Catholicon latin-breton-français (Tréguier, 1499), c’est au moins le troisième livre imprimé en breton, après une Passion (Aman ez dezrou an Passion, 1530) et une vie de sainte Barbe (Aman ez dezrou buhez Santes Barba dre rym, 1557), tous deux pareillement imprimés à Paris. Qui a dit que les Bretons de Paris sont fake ?

Page de titre du Catechism de Gilles de Kerampuil

Adjugé 13 500 euros. Était aussi mis en vente un exemplaire de la méthode d’apprentissage de la langue bretonne (Dictionnaire et colloques françois et bretons, Morlaix, 1662). Le Quiquer, comme on dirait l’Assimil, paru en 1626 a été réédité cinq fois jusqu’à la fin du XVIIIe siècle. Allez voir dans le KVK, il y en a à tire-larigot. Mais, à part être réunis sans doute pour la dernière fois avant éparpillement (ainsi va la vie des livres), qu’est-ce qu’ont en commun ces deux ouvrages ? Réponse : ce sont des imprimés anciens en langue bretonne qui peuvent désormais passer en quelques secondes de l’image que vous lisez sur votre écran (à supposer que vous en ayez ouvert un) à un texte électronique dans un fichier .doc, .rtf, .txt, par exemple. Pour transcrire automatiquement les imprimés modernes que nous lisons en mode image (en pdf, jpg, etc.), donc sans avoir à les taper au clavier, on parle d’OCR (de l’anglais Optical Character Recognition, reconnaissance optique de caractères). Les applications sont nombreuses, elles s’installent facilement dans un ordi, une tablette ou un smartphone. Mais les résultats sont mauvais pour les textes anciens, même s’ils sont de la première moitié du vingtième siècle. Dans ce cas, il faut recourir à des applications de reconnaissance plus poussées. Il s’agit de l’HTR (de l’anglais Handwritten Text Recognition, reconnaissance de texte manuscrit). Derrière les opérations de transcription automatique, il y a des modèles d’intelligence artificielle. Le premier créé pour les imprimés anciens en breton est maintenant disponible sur la plateforme Transkribus. Pour l’utiliser, gratuitement, il suffit d’ouvrir un compte (gratuit) puis apprendre à manœuvrer. Le forfait de base permet, chaque mois, de transcrire gratis automatiquement jusqu’à 100 pages de documents manuscrits ou 200 de documents imprimés. Le modèle que nous avons créé s’appelle Mouladurioù 17vet-19vet kantved | Breton Prints 17th-19th centuries. Il est en accès ouvert depuis la nuit du 4 août dernier.

Comme pour l’OCR, les résultats d’une HTR sont rarement sans aucune faute (comme nous dans les dictées). Le taux d’erreur peut varier, celui d’un modèle considéré comme très bon étant aux alentours de 5%. Le modèle Mouladurioù a atteint 1,4% : le taux moyen d’exactitude dans la transcription automatique d’un texte est donc de 98,6%, soit en moyenne trois fautes tous les 200 signes (c’est le nombre, espaces comprises, dans les deux premières phrases du paragraphe suivant).

Le catéchisme breton de Kerampuil de 1576 n’est pas disponible sous format numérique, mais la Gazette Drouot en a fait voir quelques pages. Nous en avons copié une (la page 23) puis l’avons soumise à HTR. Résultat : transcription exacte à 99,28% (chiffre obtenu en comparant la transcription humaine, sans faute, et la transcription par la machine).

Page 23 du Catechism


Le texte transcrit avec les erreurs de la machine (en rouge). Durée de l'HTR : 19 secondes

Résultats quantifiés de l'HTR de la page 23. CER = taux d'erreur.

Ce que donc partagent en commun le Kerampuil et le Quiquer, c’est qu’ils sont maintenant, comme des centaines d’ouvrages en breton imprimés jadis, transcriptibles automatiquement en quelques instants. C’est une bonne nouvelle (evangelion dans le grec de Kerampuil). L’autre, c’est que dans le monde de l’HTR le breton a rejoint les gaéliques d’Écosse et d’Irlande (autre modèle) et l’occitan. Mais ce n’est qu’un début, continuons le... À Brest même est en cours la création d’un modèle pour l’HTR des carnets d’Anatole Le Braz. Camarades keodedourien, à vos greniers ! La révolution numérique est en marche. C’est transcrit noir sur blanc.

2 commentaires:

  1. Bonjour Kristian, très intéressante découverte que je mets à profit pour numériser certains textes que nous avons publié jadis et dont nous avons parfois perdu les fichiers... J'ai fini par retrouver les liens Internet que tu mentionnais, mais dans ton texte de blog ils ne font qu'ouvrir des onglets vides ! Un problème de copier-coller ? Ken ar c'hentañ. Hervé

    RépondreSupprimer
    Réponses
    1. Merci. Effectivement un problème de copier-coller. Normalement ça doit fonctionner.

      Supprimer