Ah oui ? Linux est multilingue ? Pour qui ? • Langues et logiciels libres

J’ai donné une conférence lors des Journées du Logiciel Libre à Lyon. Cette conférence est en langue française, vous pouvez voir la rediffusion sur ce site : Ah oui ? Linux est multilingue ? Pour qui ? et télécharger le support présenté.

Ayant réalisé diverses contributions en traduction dans l’écosystème du logiciel libre, j’ai ressenti un grand nombre de barrières à la contribution. J’ai donc initié en 2019 une tentative de collecte de données pour pouvoir comprendre la situation actuelle, et voir s’il s’agissait d’un ressenti ou d’un ensemble de difficultés partagées dans notre communauté.

Depuis peu, j’ai la chance d’avoir à mes côtés Evelyne et Olivier qui m’ont aidé à rendre ces données exploitables.

Les hypothèses à vérifier

Dans le logiciel libre :

Il n’y a pas assez de traductions
Contribuer à la traduction coûte plus d’effort que juste traduire (comprendre : ce n’est pas qu’un manque de contributeurices ou d’outillage)
La qualité des traductions est variable
Les traductions sont globalement incohérentes (coucou le mot « email », traduit en français de diverses façon ou non traduit)

La présentation aux Journées du Logiciel Libre était focalisée sur les deux premiers points. Cet article ne couvre que le premier point. Nous avons hâte de débuter l’analyse de la qualité et de la cohérence dans l’avenir !

La méthode utilisée

Extraire tous les paquets de la distribution Linux Fedora, identifier les fichiers de traduction utilisant gettext, compter les mots à traduire et les mots traduits, agréger les résultats.

Tout ce travail n’utilise que des statistiques de mots source (en anglais), afin de ne pas être parasité par les langues nécessitant plus ou moins de mots pour exprimer une même idée.

La métrique est en mots à traduire, car c’est ce qui représente l’effort à fournir, au contraire d’une notion abstraite de « chaines », qui peut aussi bien contenir un seul mot à traduire que plusieurs phrases. J’invite d’ailleurs toutes les plateformes et outils de traduction à favoriser cette métrique.

Les données utilisées sont toutes publiées à cette adresse https://communityhealth.languages-in-floss.eu. Il s’agit ici de données brutes, que nous avons agrégées dans une base de données, nous allons améliorer ce site pour vous faciliter l’accès aux données.

Ce que les statistiques de traduction nous apprennent

Ces 20 années de statistiques fournissent des faits sur la situation de tout l’écosystème, dans toutes les langues et locales.

Des dizaines de milliers de logiciels ont été analysés, des téraoctets de données ont été manipulés, 6 millions de fichiers de traduction ont été analysés, 6 milliards de mots traduits (on compte la somme de tous les mots traduits pour toutes les langues pendant 20 ans, ce qui inclut de nombreux doublons).

La production de statistique n’est pas là pour flatter nos esprits d’ingénieur·e·s privilégié·e·s, mais pour nous aider à identifier des problèmes.

En utilisant une méthode de statistique, la régression linéaire, nous avons la possibilité de prendre les courbes de chaque langue, et de déduire à quel moment elles atteindront un 100% théorique de traduction de la totalité des mots de Fedora. Et le résultat n’est pas fameux.

Si la communauté du logiciel libre continue à travailler de la même façon, alors nous identifions que seulement 4 langues ont un espoir d’atteindre 100% de traduction dans le prochain siècle : l’ukrainien, le russe, le français et le chinois.

Siècles ?!? Oui, c’est la bonne mesure.

Aperçu de la santé des communautés linguistique

Dans le monde il y a plus de 7000 langues, dont 3000 qui peuvent s’écrire (source https://scriptsource.org)

Dans la distribution Fedora il y a 357 langues et locales

Langues et locales avec variation positive en nombre de mots : 222

Langues et locales avec plus de 3000 nouveaux mots par an : 121

Langues et locales avec % de traduction globale en croissance : 36

Langues et locales à 100 % d’ici 100 ans : 4…

Conclusion

Nous avons un immense chantier à réaliser pour améliorer cette situation, et la prochaine étape aura lieu à Prague lors du Flock, la conférence annuelle du projet Fedora. Un atelier permettra d’identifier les améliorations que la distribution Fedora pourrait mener et une conférence présentant l’état des lieux des traductions (un contenu similaire à la conférence donnée à Lyon, mais en anglais).

De là, il s’agira de renforcer la connaissance et la compréhension de ces métriques auprès d’autres communautés, d’améliorer ces métriques pour qu’elles soient toujours plus précises, et surtout, d’identifier comment améliorer la situation.

Dans un monde idéal, nous souhaitons qu’un groupe de cinq personnes motivées puissent réaliser les traductions pour une langue, et que ces traductions soient utilisables par les traducteurices dans un délai de 6 mois. Le tout sans avoir à interagir avec des dépôts git, à demander des autorisations ou validations aux équipes de développement. Si le contenu est de qualité, alors il doit pouvoir être publié facilement.

Cela est impossible aujourd’hui, identifions les blocages, et améliorons enfin l’accès aux logiciels pour toutes les langues, que ces langues soient parlées par des millions de personnes ou des inventions, qu’elles soient dans le respect d’une norme linguistique ou le fruit d’un choix délibéré d’écriture. Rendre cela possible est un enjeu d’accès aux logiciels libres et à son caractère émancipateur.