Le traitement de la langue japonaise à l'aide de l'ordinateur

Introduction générale

Mise en contexte

Le traitement automatique de la langue japonaise présente de nombreux défis dûs en bonne partie aux qualités inhérentes de la langue, mais aussi à cause des différentes possibilités qu’elle offre en tant que langue multiscripte.

Contrairement aux langues à script unique (comme le français qui utilise seulement l’alphabet latin), le japonais a la particularité d’utiliser un système d’écriture à plusieurs scripts, souvent entremêlés dans un même texte. Parmi ces scripts, on compte en particulier deux alphabets ou syllabaires autochtones : le katakana (カタカナ) et le hiragana (ひらがな) ; et un ensemble de caractères idéographiques inspirés des caractères chinois : les kanji (漢字), en plus de l’alphabet latin qu’on utilise pour certains termes d’origine étrangère tels que les sigles ou abréviations (par exemple : TV, NATO).

De plus, comme dans la langue chinoise et contrairement aux langues ayant l’alphabet latin comme base d’écriture, les mots dans les textes japonais ne sont pas séparés par des espaces (ou du moins les espaces ne sont pas systématiquement employées par tous les utilisateurs, de la même façon), ce qui complique la tâche pour l’indexation ou d’autres traitements linguistiques visant à isoler et à distinguer les concepts à l’intérieur d’un texte ou d’un corpus.

Une difficulté supplémentaire se présente dans le cas de l’utilisation des caractères kanji. D’abord, un même caractère kanji peut représenter plusieurs concepts. Chaque kanji peut aussi avoir différentes « lectures » du point de vue phonétique. Cependant, il n’y a pas de lien automatique entre ces deux événements : selon le contexte de la phrase ou à l’intérieur même d’un concept, un caractère kanji sera lu (phonétiquement) de manière tout à fait différente, même si le sens peut lui être assimilable. L’inverse est aussi vrai puisque certains kanji sont utilisés uniquement pour leur qualité phonétique alors que le sens peut être très différent. Ces ambiguïtés phonétiques et sémantiques peuvent potentiellement causer des problèmes lors de la translittération automatique entre les différents scripts japonais.

Les caractères natifs japonais (katakana et hiragana) ne présentent pas d’ambiguïté sémantique, puisque leur nature de « syllabaire » ne leur impute pas un sens particulier. Par le fait même, ils se lisent aussi phonétiquement toujours de la même façon, sauf exception.

La multiplicité des formes d’écritures pouvant exprimer, non seulement un même concept, mais un même mot (ex. : le mot « kanji » lui-même pourrait tout aussi bien s’écrire « カンジ » en katakana, « かんじ » en hiragana et « 漢字» en kanji) et la diversité des lectures possibles des caractères kanji, autant sémantiquement que phonétiquement, présentent de nombreux défis dans le traitement automatique de la langue japonaise. Le fait que les mots ne soient pas toujours isolés par un caractère particulier (tel une espace blanche) oblige aussi l’utilisation d’outils linguistiques très sophistiqués. Ceux-ci doivent permettent non seulement de reconnaître le « mot » dans le texte, mais aussi d’établir des correspondances d’équivalences entre les différentes graphies servant à exprimer un même mot.


Aspects spécifiques

Je me suis intéressé principalement à la problématique de la recherche d'information en langue japonaise. J'ai découvert que plusieurs étapes, plusieurs ressources, plusieurs outils étaient nécessaires pour arriver à une recherche efficace en langue japonaise (l'article de Jack Helpern à ce sujet est très révélateur). Avant toute chose, je me suis dit qu'il pourrait être intéressant de présenter quelques ressources traitant de la langue japonaise elle-même et donner un aperçu de ce qu'elle implique comme étude. Ensuite, je présente quelques ressources lexicales (lexiques, dictionnaires, corpus) et outils permettant de faire le traitement de la langue naturelle (TLN) en japonais. Enfin, les trois autres sections présentent différentes opérations (segmentation, translittération, repérage), incluant les logiciels, les intérêts de recherche et les ressources propres à ces opérations.


Limites

Puisqu'il s'agit du traitement d'une langue étrangère, il est clair que beaucoup plus de ressources auraient pu être trouvées dans cette langue. De plus, je me suis limité à quelques aspects, quelques opérations possibles du traitement de la langue naturelle et de la recherche d'information. Il y a beaucoup d'information, notamment, sur la traduction et la recherche translinguistique qui fait l'objet d'abondantes recherches, mais dont je n'ai pas beaucoup parlé ici. Le lecteur pourra certainement trouver, à partir des ressources ici décrites, d'autres ressources qui l'intéresseront. Il existe des logiciels et des ressources linguistiques pour le traitement de la langue parlée et d'analyse syntaxique que j'ai volontairement omis d'inclure ici vu mes intérêts axés sur la recherche efficace d'information en texte seulement.


Haut de la page


© Félix Arseneau, 2004.