II.1.2. Construction des clusters thйmatiques


II.1.2.1. Dйfinition de la notion de “cluster”

De nos jours, la mйthode de clusterisation est beaucoup utilisйe en linguistique informatique. Elle permet de partitionner les corpus et de regrouper les donnйes ayant des propriйtйs communes. A l’aide du partitionnement des donnйes, nous avons construit les ensembles composйs des termes йtudiйs et des mots-clйs similaires. Ainsi, nous avons dйfini la notion de “cluster pour un terme dans un texte” comme “un ensemble d’unitйs lexicales rangйes dans l’ordre dйcroissant en fonction de valeur de similaritй entre elles et entre chaque unitй et le terme en question”. Afin de crйer un cluster, il est nйcessaire d’associer une reprйsentation vectorielle а chaque mot-clй et de calculer une valeur de proximitй entre les vecteurs respectifs.

II.1.2.2. Crйation des reprйsentations vectorielles de tous les йlйments nominatifs du corpus

Le premier objectif est d’йtablir les associations entre les termes homonymiques extraits lors de l’йtape prйcйdente et les autres unitйs lexicales au sein de notre base empirique constituйe de textes biologiques et linguistiques. Avant de procйder а cette йtape de notre travail, nous avons complйtй notre corpus avec des documents thйmatiques liйs а ces deux disciplines. Ensuite, nous nous sommes servis de l’outil de traitement automatique des textes “Association de mots” qui permet de crйer des reprйsentations vectorielles de mots а partir d’un corpus et d’йvaluer la valeur de similaritй entre les lexиmes. D’abord, les vecteurs caractйristiques des mots ont йtй calculйs grвce а la mйthode “Word2vec” qui utilise les modиles vecrotiels а plusieurs centaines de dimensions. Nous avons ainsi construit les reprйsentations vectorielles dans l’espace de 200 dimensions. Ces modиles ont йtй crййes а la base des contextes йlйmentaires de 5-gramme, c’est-а-dire des sйquences de 5 unitйs n’йtant pas des mots vides (stop-words).

НЕ нашли? Не то? Что вы ищете?

II.1.2.3. Calcul des distances entre les vecteurs

Ensuite, la mйtrique “Similaritй cosinus” nous a permis de dйterminer le degrй de similaritй entre chaque paire de vecteurs via le calcul de cosinus de l’angle entre eux. La distance entre les vecteurs A et B est calculйe d’aprиs la formule suivante:

       (1)

La valeur du cosinus (formule 1) varie toujours entre -1 et +1. Les vecteurs ne sont pas similaires si le rйsultat de leur comparaison est йgal а -1, les valeurs intermйdiaires reprйsentent un degrй de leur similaritй, et si le rйsultat est йgal а +1 les vecteurs sont identiques et les mots, cachйs derriиre ces йlйments mathйmatiques, ont les modиles d’usage similaires.

II.1.2.4. Crйation des matrices de similaritй pour chaque terme

Aprиs le calcul de tous les cosinus demandйs, l’outil “Association de mots” a prйsentй les rйsultats sous forme des matrices avec les valeurs de similaritй entre les mots analysйs. Plus les vecteurs respectifs sont similaires, plus les valeurs sont йlevйes. Il est йgalement possible d’exporter de diffйrents types de schйmas pour illustrer les rйsultats obtenus.

Les algorithmes dйcrits ci-dessus nous ont permis d’analyser les termes homonymiques extraits de nos corpus textuels et de crйer les matrices de similaritй pour chaque йlйment analysй. A titre d’exemple, nous regarderons de prиs certains termes.

Le terme “expression” est un terme interdisciplinaire dont les domaines d’application sont la biologie et la linguistique. Il peut renvoyer aux concepts diffйrents en fonction du contexte de son usage. Les deux concepts auxquels ce terme peut faire rйfйrence ont les formes linguistiques distinctes dans la langue russe. Par consйquent, il est indispensable de dйfinir “expression” dans la langue source avant de procйder а la recherche de son йquivalent dans la langue cible. Les dйfinitions des concepts correspondants au terme en question sont les suivantes:

    biologie: expression (f) - traduction d'un gиne par un caractиre qui apparaоt dans le phйnotype; linguistique: expression (f) - ensemble des signifiants (quelle qu'en soit la substance phonique ou graphique) par opposition а contenu ou ensemble des signifiйs.

       Donc, les йquivalents de ce terme dans la langue cible seront dйterminйs suite au choix d’un concept concret dans un contexte particulier de son application. Les termes russes correspondants sont les suivants:

    biologie: expression (f) - экспрессия (ж) - процесс, в ходе которого наследственная информация от гена преобразуется в функциональный продукт — РНК или белок; linguistique: expression (f) - выражение (ср) - внешняя сторона языкового знака; организованные определенным образом материальные средства, служащие для передачи содержания языкового сообщения.

Le choix entre ces dйfinitions peut кtre fait grвce а la fixation des associations de ce terme au sein de chaque contexte de son application. Nous avons crйй les modиles vectoriels pour chaque paire de substantifs employйs dans les textes biologiques et linguistiques oщ l’unitй terminologique “expression” est frйquemment utilisйe, et par la suite nous avons calculй les distances entre ces vecteurs. La matrice suivante comporte les donnйes sur les йlйments similaires а ce terme quand il fait rйfйrence au concept biologique.

Tableau 4. Matrice “expression - biologie”

Le tableau 4 prйsente une matrice symйtrique 12*12 dans laquelle sont indiquйes les unitйs qui rйsultent кtre les plus similaires avec le terme “expression” dans les textes biologiques puisque leur indice d’йquivalence est supйrieur а me les valeurs des cosinus des angles entre les vecteurs respectifs de chaque paire de mots sont assez йlevйes nous pouvons constater que ces unitйs lexicales ont des modиles d’usage trиs semblables et, par consйquent, sont fortement liйes au niveau sйmantique. La colonne marquйe en vert comporte les indices d’йquivalence par ordre dйcroissant entre le terme “expression” et les unitйs similaires utilisйes dans les textes analysйs. Plusieurs de ces unitйs sont caractйristiques du domaine, comme par exemple “tumeur”, “mйtamorphose”, “chloroplaste”, “virus”, “rйaction”, etc. Ainsi, nous pouvons illustrer cette reprйsentation vectorielle de ce champ thйmatique sur un graphique.

II.1.2.5. Illustration des clusters thйmatiques avec des reprйsentations graphiques

Nous avons construit les reprйsentations vectorielles des mots-clйs dans un espace а 200 dimensions. Donc, une compression des dimensions est nйcessaire afin de visualiser les clusters conзus sur des graphiques. Par consйquent, suite а la vectorisation des mots dans cet espace pluridimensionnel, nous avons rйalisй une telle compression а l’aide de la mйthode “Analyse en composantes principales” et obtenu finalement deux axes principaux qui nous ont permis d’illustrer les rйsultats sur les reprйsentations graphiques bidimensionnelles.

La figure 11 reprйsente le cluster des unitйs similaires au terme “expression” dans les textes biologiques.

Figure 11. Reprйsentation graphique de la matrice “expression - biologie”

L’origine de coordonnйes (0,0) sur la figure 11 correspond а la position du terme “expression”. Les autres 20 unitйs sont situйes а une distance relativement courte puisque leurs vecteurs sont similaires а celui du terme cible. Ainsi, un tel modиle vectoriel fait un clustering thйmatique liй au domaine de la biologie dans l’espace dйjа compressй, donc bidimensionnel. Ceci nous permettra ensuite de localiser un nouveau document par rapport а des classes thйmatiques crййes lors de cette йtape de notre projet.

Nous passons donc а une analyse pareille du terme “expression” mais cette fois au sein des documents linguistiques. Voyons ce que nous donne la crйation d’une matrice comportant les йlйments de ce domaine.

Tableau 5. Matrice “expression - linguistique”

Cette matrice (tab. 5) comporte les unitйs lexicales les plus similaires au terme “expression” dans les textes linguistiques. Leur indice d’йquivalence est encore plus йlevй que dans la matrice prйcйdente et s’йlиve а r le graphique correspondant aux donnйes du tableau 5, nous verrons que les vecteurs caractйristiques des substantifs extraits des documents linguistiques sont trиs proches de l’origine de coordonnйes. Dans la colonne verte de la matrice nous observons les unitйs similaires au terme “expression” dont “langue”, “langage”, “signe”, “son”, “opposition” et d’autres. Ainsi, la figure suivante reprйsente le cluster du champ thйmatique de la linguistique.

Figure 12. Reprйsentation graphique de la matrice “expression - linguistique”

Les reprйsentations vectorielles des substantifs cibles ont fait un nouveau cluster (fig. 12) qui sera un point de repиre pour l’йtape suivante de notre travail, l’attribution de nouveaux textes aux domaines d’application des concepts biologiques et linguistiques. Si nous examinons le graphique sur la figure 12, nous pourrons remarquer que les unitйs localisйes au-dessus de l’axe X, comme “racine”, “phonation”, ”langage”, sont plus caractйristiques du domaine linguistique et sont situйes au centre de ce cluster thйmatique, tandis qu’au-dessous de cet axe se concentrent les noms comme “science”, “classification”, “conscience” qui font partie du langage scientifique gйnйral. Par consйquent, sur le graphique suivant nous les retrouverons а la frontiиre des clusters biologique et linguistique.

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7 8 9 10 11 12