AccueilMes livresAjouter des livres
Découvrir
LivresAuteursLecteursCritiquesCitationsListesQuizGroupesQuestionsPrix BabelioRencontresLe Carnet

Citation de lanard


(...) comment déterminer les différents sens d'un mot juste en observant son usage dans un très grand corpus? Comment repérer des régularités d'usage? C'est la tâche du lexicologue (chargé de concevoir les dictionnaires), qui manipule généralement une multitude d'outils et de critères pour essayer de définir un découpage en sens qui soit complet et cohérent. Les statistiques permettent de le faire automatiquement, sur une base sans doute très différente de celle du lexicographe, mais pour un résultat souvent très pertinent et intéressant.
Les différentes techniques statistiques employées pour aligner les mots et les syntagmes reviennent à calculer des liens de proximité entre mots. Définir des équivalents dans une langue étrangère au niveau des morts ou d'expressions plus complexes composées de plusieurs mots, c'est déjà faire de la sémantique.
En effet, grâce à l'alignement lexical, plus un mot est ambigu, plus il sera mis en correspondance avec des mots variés dans la langue cible. Plus une expression est figée (comme "pomme de terre", syntagme qui ne peut gère varier, ainsi on ne trouve pas "pomme vraiment de terre" ou une "pomme de sol"), plus elle sera reconnue en tant que telle par les algorithmes d'alignement et souvent mise en rapport avec un mot simple dans la langue cible ("potatoe" par exemple si on est dans un cadre d'alignement français-anglais). L'analyse statistique aboutit donc à une modélisation directe de ces phénomènes de polysémie et de figement, sans théorie linguistique particulière.
On peut admettre que le type de représentation obtenue par analyse statistique est plus adéquat que celle fournie par bien des approches formelles ou théoriques particulières: les notions de sens, de frontière de sens et de figement sont étroitement liées à l'usage et ne sont pas des notions absolues. Ainsi, l'analyse statistique permet de définir différentes granularités de sens (c'est-à-dire définir un nombre plus ou moins grand de sens pour un mot donné, suivant la finesse de l'analyse désirée), ce qui semble bien correspondre à la réalité linguistique, plus que le découpage fixe offert par les dictionnaires courants en tout cas. En effet, pour un mot donné, on sait que le nombre de sens varie d'une dictionnaire à l'autre et que le découpage en sens n'est pas le même (c'est-à-dire que, même à nombre de sens équivalents, les définitions ne sont pas toujours les mêmes). Les statistiques rendent compte de façon simple et subtile de ces phénomènes complexes. Il s'agit là de questions au cœur de la sémantique.
Les résultats des systèmes automatiques (de traduction mais plus généralement de traitement automatique des langues) mériteraient d'être étudiés à cette aune. Il ne s'agit évidemment pas de dire qu'ils renferment en eux-mêmes une théorie de la sémantique*, mais ils permettent une représentation pertinente de certains phénomènes sémantiques. Un problème majeur vient de l'opacité des réseaux de neurones (leur aspect "boite noire") : il serait souhaitable de pouvoir les interpréter, afin de mieux comprendre comment fonctionne l'analyse au sein de leurs "couches cachées", qui, de ce point de vue, portent bien leur nom! Il y a là en tout cas un terrain riche à explorer, à l'interface entre traitement automatique et linguistique.

* On peut quand même dire qu'on est ici proche d'une "théorie de l'usage", qui a traversé le XXème siècle et qui défend l'idée, pour simplifier à très gros traits, que la signification d'un mot, c'est l'usage qui en est fait. Cette théorie trouve ses origines chez Wittgenstein (les fameux jeux de langage, souvent cités et repris, de façon simplifiée, en linguistique) et a fait la fortune de la "linguistique de corpus", depuis le mot fameux de Firth: "On connaît un mot à son usage" (en anglais, "You shall know an object by the company it keeps"), voir John Rupert Firth (1957), Paper in Linguistics et Thierry Poibeau (2011), Traitement automatique du contenu textuel, Lavoisier.
Commenter  J’apprécie          11









{* *}