APRNEWS : Dioula, wolof, baoulé… Google mise sur les langues africaines

APRNEWS : Dioula, wolof, baoulé… Google mise sur les langues africaines

Le traducteur du géant de la Silicon Valley a intégré 31 idiomes du continent parlés par plus de 200 millions de locuteurs.

« Sran ng’ɔ bo alɛ’n i jɔ’n, ɔ diman alɛ sɔ’n wie. » Ce proverbe baoulé, que vous ne parvenez probablement pas à lire, est désormais traduisible avec Google Traduction : « Celui qui déclare la guerre n’y participe pas. »

Depuis sa nouvelle mise à jour, le 27 juin 2024, le logiciel du géant américain offre la possibilité de traduire 110 nouvelles langues, dont le breton et l’occitan, mais aussi trente et une langues africaines, parmi lesquelles le tamazight (berbère), l’afar, le wolof, le dioula ou encore le baoulé. Selon Google, ces dernières représentent 200 millions de locuteurs sur le continent.

« Aujourd’hui, on peut photographier une étiquette en mandarin et la voir traduite par Google Lens en dioula », se réjouit Abdoulaye Diack, responsable de programme au laboratoire d’intelligence artificielle (IA) de Google à Accra, au Ghana, qui dit vouloir « rapprocher les communautés » avec son nouveau service

Etablir ces modèles de traduction était un défi de taille en raison de l’absence de ressources disponibles. La moitié des données écrites sur Internet est en anglais. Le français n’en représente que 3 % et les nombreuses langues africaines moins de 1 %. « Il existe des blogs et des sites d’information en swahili, en haoussa ou en wolof, mais beaucoup de langues africaines ont majoritairement des usages oraux, explique Abdoulaye Diack.

La première mission était donc d’identifier les sources écrites disponibles. » En plus de ces sites, certains textes majeurs sont traduits dans la quasi-totalité des langues de la planète, comme la Déclaration universelle des droits de l’homme, la Bible ou le Coran.

« Un effet incitatif »

Les équipes de Google ont ensuite travaillé avec des linguistes de plusieurs facultés, comme l’université du Ghana, et des ONG, pour emmagasiner des données sur toutes les langues ciblées. Ces éléments ont été employés pour entraîner l’IA de Google, un modèle d’apprentissage baptisé PaLM2 déjà éprouvé avec près de 400 langues. « L’intelligence artificielle est comme un enfant, résume Abdoulaye Diack. Plus le modèle reçoit de données, plus il apprend, et meilleur est le résultat. »

Les partenaires de Google dans les communautés cibles – des associations défendant les langues en voie de disparition, des chercheurs… – ont été sollicités pour évaluer et améliorer les premières traductions de l’IA, jusqu’à atteindre une qualité et une quantité suffisantes pour lancer la mise à jour. « Ce processus prend plusieurs années. Ses résultats ne sont pas parfaits mais assez satisfaisants pour être utilisables, reconnaît Abdoulaye Diack. Il va forcément y avoir des erreurs, mais ce sera utile à énormément de gens. »

Aprnews avec Le Monde

Catégories
Étiquettes
Partager ceci

Commentaires

Mots-clés (0)