NEF (Net des études françaises) - Dossiers du NEF

Les langues sur le web

par Marie Lebert, septembre 2003

En 2003, le web, devenu multilingue, permet une très large diffusion des textes électroniques sans contrainte de frontières, mais la barrière de la langue est loin d'avoir disparu. La priorité semble être maintenant la création de passerelles entre les communautés linguistiques pour favoriser la circulation des écrits dans d'autres langues, en poursuivant la mise en ligne, gratuite si possible, de dictionnaires de renom et en améliorant la qualité des logiciels de traduction. Voici quelques ressources de qualité disponibles sur le web.

Statistiques et répertoires
Systèmes de codage
Dictionnaires
* Dictionnaires et encyclopédies en français
* Dictionnaires et encyclopédies en anglais
* Dictionnaires de langues
Portails de dictionnaires
La traduction automatique
Logiciels de traduction
Centres de recherche


Statistiques et répertoires

Global Internet Statistics by Language
En été 2000, les internautes non anglophones dépassent la barre des 50%. Ce pourcentage continue ensuite de progresser, comme le montrent ces statistiques de la société Global Reach, mises à jour à intervalles réguliers. Le nombre d'usagers non anglophones est de 52,5% en été 2001, 57% en décembre 2001, 59,8% en avril 2002 et 63,5% en été 2003 (dont 35,5% d'Européens non anglophones et 28,3% d'Asiatiques).

Ethnologue: Languages of the World
Publié par SIL International (SIL signifiant "Summer Institute of Linguistics"), cet ouvrage de référence existe à la fois en version web (gratuite), sur CD-Rom et sur papier (tous deux payants). Cette encyclopédie répertorie 6.800 langues selon plusieurs critères (pays, nom de la langue, code de la langue attribué par le SIL, famille de langues), avec un moteur de recherche unique. "Il s'agit d'un catalogue des langues dans le monde, avec des informations sur les endroits où elles sont parlées, une estimation du nombre de personnes qui les parlent, la famille linguistique à laquelle elles appartiennent, les autres noms utilisés pour ces langues, les noms de dialectes, d'autres informations socio-linguistiques et démographiques, les dates des Bibles publiées, un index des noms de langues, un index des familles linguistiques et des cartes géographiques relatives aux langues." (Barbara Grimes, directrice de publication)

European Minority Languages
Sur le site de l'Institut Sabhal Mór Ostaig (Ile de Skye, Ecosse), principal site d'information sur le gaélique écossais, une liste de langues minoritaires tenue à jour par Caoimhín P. Ó Donnaíle en gaélique et en anglais. Cette liste est classée par ordre alphabétique de langues et par famille linguistique.

iLoveLanguages
Mis en ligne au printemps 2001, ce portail résulte de la fusion entre The Human-Languages Page, site créé en mai 1994 par Tyler Chambers, et le Languages Catalog, section de la WWW Virtual Library. 2.000 ressources linguistiques dans 100 langues différentes sont réparties dans différentes sections: langues et littérature, écoles et institutions, ressources linguistiques, produits et services, organismes, emplois et stages, dictionnaires et cours de langues.


Systèmes de codage

ASCII
L'ASCII est un code standard de 128 caractères traduits en langage binaire sur sept bits (A=1000001, B=1000010, etc.). Les 128 caractères comprennent 26 lettres sans accent, les chiffres, les signes de ponctuation et les symboles. L'ASCII permet donc uniquement la lecture de l'anglais. Les alphabets européens sont ensuite traduits par des variantes de l'ASCII pouvant traiter les lettres avec accents. La variante pour le français est définie par la norme ISO-Latin-1 (ISO-8859-1:1998). Mais l'ASCII et ses diverses variantes deviennent vite un véritable casse-tête, y compris au sein de l'Union européenne, les problèmes étant entre autres la multiplication des systèmes d'encodage, la corruption des données dans les étapes transitoires, ou encore l'incompatibilité des systèmes entre eux, les pages ne pouvant être affichées que dans une seule langue à la fois.

Unicode
L'Unicode est développé par l'Unicode Consortium, fondé en 1991 pour regrouper des sociétés informatiques, des sociétés commercialisant des bases de données, des concepteurs de logiciels, des organismes de recherche et différents groupes d'usagers. L'Unicode est un système d'encodage sur 16 bits spécifiant un nombre unique pour chaque caractère. Il est lisible quels que soient la plate-forme, le logiciel et la langue utilisés. Il peut traiter 65.000 caractères uniques, et donc prendre en compte tous les systèmes d'écriture de la planète. L'Unicode (qui, en 2003, en est à sa 4e version) remplace progressivement l'ASCII. Les versions récentes du système d'exploitation Windows de Microsoft (Windows NT, Windows 2000, Windows XP, Windows Server 2003) utilisent l'Unicode pour les fichiers texte, alors que les versions précédentes utilisaient l'ASCII.


Dictionnaires

Dictionnaires et encyclopédies en français

Encyclopédie Voilà / Hachette Multimédia
50.000 articles encyclopédiques et un dictionnaire de 65.000 définitions, auxquels il faut ajouter 5.000 photos, cartes et vidéos. Une somme, avec une version libre et une version payante (à savoir l'inscription à un Espace membre).

WebEncyclo
La première encyclopédie francophone en accès libre sur le web, mise en ligne en décembre 1999 par les éditions Atlas. La recherche est possible par mots-clés, thèmes, médias (cartes, liens internet, photos, illustrations) et idées. Un appel à contribution incite les spécialistes d'un sujet donné à envoyer des articles, qui sont regroupés dans la section "WebEncyclo contributif". Après avoir été libre, l'accès demande maintenant une inscription gratuite au préalable.

Encyclopædia Universalis
Cette encyclopédie de renom est mise en ligne en décembre 1999 avec un ensemble de 28.000 articles signés par 4.000 auteurs. Si la consultation est payante sur la base d'un abonnement annuel, de nombreux articles sont en accès libre.

Quid
En 2000, le Quid, encyclopédie en un volume actualisée une fois par an depuis 1963, décide de mettre une partie de son contenu en accès libre sur le web.

Dictionnaires et encyclopédies en anglais

Merriam-Webster OnLine
Il s'agit de l'équivalent du Dictionnaire universel francophone pour la langue anglaise, avec une différence de taille, l'accès rapide aux notices! Le site donne librement accès au Collegiate Dictionary et au Collegiate Thesaurus.

Britannica.com
La première encyclopédie anglophone en accès libre sur le web, mise en ligne en décembre 1999. Britannica.com est l'équivalent numérique des 32 volumes de la 15e édition de l'Encyclopaedia Britannica, qui reste également disponible sur papier et sur CD-Rom, toutes deux payants. Le site web propose aussi une sélection d'articles de 70 magazines, un guide des meilleurs sites, un choix de livres, etc., le tout étant accessible à partir d'un moteur de recherche unique. Depuis septembre 2000, le site fait partie des cent sites les plus visités au monde. En juillet 2001, malheureusement (pour les adeptes de la diffusion libre du savoir), la consultation devient payante sur la base d'un abonnement mensuel ou annuel.

Oxford English Dictionary
Les 20 volumes du fameux dictionnaire mis en ligne en mars 2000 par l'Oxford University Press (OUP), grande maison d'édition universitaire avec un siège à l'Université d'Oxford, au Royaume-Uni, et un autre à New York. La consultation du site est payante. Le dictionnaire bénéficie d'une mise à jour trimestrielle d'environ 1.000 entrées nouvelles ou révisées. Deux ans après cette première expérience, en mars 2002, l'OUP met en ligne l'Oxford Reference Online, une vaste encyclopédie conçue directement pour le web et consultable elle aussi sur abonnement payant. Elle représente l'équivalent d'une centaine d'ouvrages de référence, soit 60.000 pages et un million d'entrées.

Encarta
En septembre 2000, après avoir été payante, la consultation de l'encyclopédie de Microsoft devient libre et gratuite.

Dictionnaires de langues

Travlang
Des dictionnaires de langues sont en accès libre dès les débuts du web. Ils sont répertoriés dans le portail Travlang, un site consacré aux voyages et aux langues créé en 1994 par Michael M. Martin. Mais ces dictionnaires sont le plus souvent sommaires et de qualité inégale.

Les outils de Logos
Fin 1997, la société de traduction Logos décide de mettre en ligne les outils destinés à ses traducteurs, avec accès libre et gratuit. Le Logos Dictionary est un dictionnaire multilingue de 8 millions d'entrées. Constituée à partir de milliers de traductions, notamment des romans et des documents techniques, la Wordtheque est une base de données multilingue regroupant 710 millions de mots. Linguistic Resources offre un point d'accès unique à près de 1.000 glossaires. L'Universal Conjugator propose des tableaux de conjugaison dans 36 langues différentes.

Eurodicautom
Géré par le service de traduction de la Commission européenne, Eurodicautom est un dictionnaire multilingue de termes économiques, scientifiques, techniques et juridiques, avec une moyenne de 120.000 consultations quotidiennes. En accès libre, il permet de combiner entre elles les onze langues officielles de l'Union européenne (allemand, anglais, danois, espagnol, finnois, français, grec, hollandais, italien, portugais et suédois), ainsi que le latin. Fin 2003, Eurodicautom devrait être intégré dans une base terminologique plus vaste regroupant les bases de plusieurs institutions de l'Union européenne. Cette nouvelle base traiterait non plus douze langues, mais une vingtaine, puisque l'Union européenne passe de 15 à 25 Etats membres. Reste à savoir si l'accès à la future base sera gratuit ou payant.

Le Signet
Géré par l'Office québécois de la langue française (OQLF), Le Signet propose 10.000 fiches bilingues français-anglais dans le secteur des technologies de l'information. Il est également intégré au Grand dictionnaire terminologique (GDT), mis en ligne en septembre 2000 avec accès libre et gratuit.

Le Grand dictionnaire terminologique (GDT)
Le GDT est un impressionnant dictionnaire bilingue français-anglais de 3 millions de termes du vocabulaire industriel, scientifique et commercial. Il représente l'équivalent de 3.000 ouvrages de référence imprimés. Sa mise en ligne est le résultat d'un partenariat entre l'Office québécois de la langue française (OQLF), auteur du dictionnaire, et Semantix, société spécialisée dans les solutions logicielles linguistiques. Evénement célébré par de très nombreux linguistes, cette mise en ligne est un succès sans précédent. Dès le premier mois, le GDT est consulté par 1,3 millions de personnes, avec des pointes de 60.000 requêtes quotidiennes. La gestion de la base est ensuite assurée par Convera Canada. En février 2003, les requêtes sont au nombre de 3,5 millions par mois. Une nouvelle version du GDT est mise en ligne en mars 2003. Sa gestion est désormais assurée par l'OQLF lui-même, et non plus par une société prestataire.

Portails de dictionnaires

OneLook
Des moteurs spécifiques permettent la recherche simultanée dans plusieurs centaines de dictionnaires. Pour ne prendre qu'un exemple, le site OneLook, créé par Robert Ware, puise dans plus de 5 millions de mots émanant de 910 dictionnaires dans plusieurs langues, aussi bien généralistes que spécialisés.

Dictionnaires électroniques
Un excellent répertoire établi par la section française des services linguistiques centraux de l'Administration fédérale suisse. Cette liste très complète de dictionnaires monolingues (allemand, anglais, espagnol, français, italien), bilingues et multilingues est complétée par des répertoires d'abréviations (et acronymes) et des répertoires géographiques, essentiellement des atlas.

yourDictionary.com
Ce portail est co-fondé par Robert Beard en 1999 dans le prolongement de son ancien site, A Web of Online Dictionaries, créé en 1995. Réputé pour sa qualité, yourDictionary.com répertorie 1.800 dictionnaires dans 250 langues, ainsi que de nombreux outils linguistiques: vocabulaires, glossaires, grammaires, méthodes de langues, etc.

Endangered Language Repository
Soucieux de servir toutes les langues sans exception, yourDictionary.com gère aussi une importante section consacrée aux langues menacées d'extinction. "Les langues menacées sont essentiellement des langues non écrites. Un tiers seulement des quelque 6.000 langues existant dans le monde sont à la fois écrites et parlées. Je ne pense pourtant pas que le web va contribuer à la perte de l'identité des langues et j'ai même le sentiment que, à long terme, il va renforcer cette identité. Par exemple, de plus en plus d'Indiens d'Amérique contactent des linguistes pour leur demander d'écrire la grammaire de leur langue et de les aider à élaborer des dictionnaires. Pour eux, le web est un instrument à la fois accessible et très précieux d'expression culturelle." (Robert Beard, cofondateur de yourDictionary.com)


La traduction automatique

L'internet étant une source d'information à vocation mondiale, il semble indispensable d'augmenter fortement les activités de traduction. Si toutes les langues sont désormais représentées, on oublie trop souvent que de nombreux usagers sont unilingues, et que même les polyglottes ne peuvent connaître toutes les langues. Il importe aussi d'avoir à l'esprit l'ensemble des langues, et pas seulement les langues dominantes. Si la traduction automatique reste très approximative, les logiciels de traduction sont toutefois très pratiques pour fournir un résultat immédiat et à moindres frais, sinon gratuit. Des logiciels en accès libre sur l'internet permettent de traduire en quelques secondes une page web ou un texte court, avec plusieurs combinaisons de langues possibles.

Logiciels de traduction

Systran
Cette société pionnière en traitement automatique des langues est l'auteur du premier logiciel de traduction en accès libre sur le web, utilisé dès décembre 1997 par le moteur de recherche AltaVista.

Softissimo
Cette société lance la série de logiciels de traduction Reverso, à côté de produits d'écriture multilingue, de dictionnaires électroniques et de méthodes de langues. Reverso équipe par exemple Voilà, le moteur de recherche de France Télécom.

WebSphere Translation Server
Un produit professionnel haut de gamme (et payant) lancé par IBM en mars 2001. Ce logiciel traduit instantanément en plusieurs langues (allemand, anglais, chinois, coréen, espagnol, français, italien, japonais) des pages web, des courriers électroniques et des dialogues en direct (chats). Il interprète 500 mots à la seconde et permet l'ajout de vocabulaires spécifiques.

Wordfast
En juin 2001, Logos et Y.A. Champollion s'associent pour créer Champollion Wordfast, une société de services d'ingénierie en traduction, localisation et gestion de contenu multilingue. Wordfast est un logiciel de traduction automatique avec terminologie disponible en temps réel, contrôle typographique et compatibilité avec le WebSphere Translation Server d'IBM, les logiciels de TMX et ceux de Trados. Une version simplifiée de Wordfast est téléchargeable gratuitement, tout comme le manuel d'utilisation, disponible en 16 langues différentes.

Centres de recherche

De nombreux centres de recherche publics et privés conçoivent les logiciels de traduction automatique de demain. En voici trois, choisis dans la communauté anglophone, francophone et internationale.

Natural Language Group (NLG)
Rattaché à l'USC/ISI (University of Southern California / Information Sciences Institute), le Natural Language Group traite de plusieurs aspects du traitement de la langue naturelle : traduction automatique, résumé automatique de texte, gestion multilingue des verbes, développement de taxinomies de concepts (ontologies), génération de texte, élaboration de gros lexiques multilingues et communication multimédia.

Groupe d'étude pour la traduction automatique (GETA)
Au sein du laboratoire CLIPS (Communication langagière et interaction personne-système) de l'Institut d'informatique et mathématiques appliquées (IMAG) de Grenoble, le GETA est une équipe pluridisciplinaire formée d'informaticiens et de linguistes. Ses thèmes de recherche concernent tous les aspects théoriques, méthodologiques et pratiques de la traduction assistée par ordinateur (TAO), et plus généralement de l'informatique multilingue.

UNL (Universal Networking Language)
Le GETA participe entre autres à l'élaboration de l'UNL, un métalangage numérique destiné à l'encodage, au stockage, à la recherche et à la communication d'informations multilingues indépendamment d'une langue source donnée. Ce métalangage est développé par l'UNL Program, un programme international impliquant de nombreux partenaires dans toutes les communautés linguistiques. Créé dans le cadre de l'UNU/IAS (United Nations University / Institute of Advanced Studies), ce programme se poursuit maintenant sous l'égide de l'UNDL Foundation (UNDL signifiant: Universal Networking Digital Language).


Page d'accueil des Dossiers du NEF

Page d'accueil du NEF


© 2003 Marie Lebert