
Figure 13. Reprйsentation graphique des clusters caractйristiques du terme “expression”
A l’aide de l’outil “Partitionnement de donnйes” (Cluster analysis) nous avons reзu le graphique (figure 13) qui reprйsente les clusters des graphiques prйcйdents dans un espace uni. Il reproduit les deux classes thйmatiques dйtectйes par l’analyse des associations des mots pour le terme “expression” au sein de notre corpus textuel. L’unitй terminologique en question est toujours situйe dans le point d’intersection des deux axes. Les reprйsentations vectorielles regroupйes dans les deux classes, celui en rouge et celui en bleu, font rйfйrences respectivement aux concepts ayant les indices de similaritй les plus йlevйs avec le terme cible dans les documents portant sur la biologie et la linguistique. Donc, si par la suite les clusters caractйristiques du terme “expression”, construits а la base de nouveaux documents, seront attribuйs а l’un de ces champs thйmatiques, il serait possible de dйfinir cette unitй terminologique et de la traduire soit par “экспрессия” soit par “выражение” en fonction du contexte de son application.
Le terme “articulation” peut йgalement кtre dйcrit parmi d’autres exemples traitйs de cette maniиre. Les dйfinitions de cette unitй terminologique au sein des disciplines cibles sont prйsentйes ci-dessous:
- biologie: articulation (f) - ensemble formй de structures unissant deux ou plusieurs piиces osseuses et qui assure la mobilitй de ces derniиres а des degrйs variables; linguistique: articulation (f) - production des йlйments du langage parlй par les modifications provoquйes au passage de l'air expirй, d'aprиs les dispositions des cordes vocales, de la langue, des joues, des dents, des lиvres.
Les йquivalents de ce terme dans la langue cible sont des formes linguistiques distinctes:
- biologie: articulation (f) - сустав (м) - подвижное соединение костей, позволяющее им перемещаться относительно друг друга; linguistique: articulation (f) - артикуляция (ж) - работа органов речи, совершаемая при произнесении того или иного звука.
Afin de pouvoir dйtecter le sens le ce terme de faзon automatique, nous avons traitй les textes choisis, qui comprenaient cette unitй, de maniиre dйcrite dans les pages prйcйdentes. Les rйsultats obtenus sont prйsents dans les matrices correspondantes aux domaines d’application du terme “articulation” et illustrйs sur le graphique.
Tableau 6.
A. Matrice “articulation - biologie” B. Matrice “articulation - linguistique”

Dans la matrice “articulation - biologie” (tab. 6A) nous avons prйsentй 20 йlйments nominatifs dont les reprйsentations vectorielles ont des cosinus de similaritй trиs proches du terme cible. Parmi ces йlйments, nous retrouvons des unitйs qui peuvent donner une idйe sur la thйmatique du document analysй, par exemple “genou”, “coude”, “pied”, “avant-bras”, “cheville”, etc. Ainsi, il est fort probable que dans ce contexte le terme “articulation” fait rйfйrence au concept reprйsentй par le terme “сустав” dans la langue russe.
La matrice du tableau 6B prйsente les donnйes pour le terme “articulation” dans le contexte linguistique. Les substantifs associйs а cette unitй sont tels que “lecture”, “dyslexie”, “langage”, “parole”, “mot”, etc. Ce sont des йlйments trиs reprйsentatifs de cette discipline. Par consйquent, la prйsence d’un cluster pareil dans un autre texte spйcialisй pourra signifier que le concept correspondant au terme en question sera incarnй par le terme “артикуляция” dans la langue cible.
Le graphique suivant nous permet d’illustrer les clusters correspondants au terme “articulation” dans les textes traitйs.

Figure 14. Reprйsentation graphique des clusters caractйristiques du terme “articulation”
Sur la figure 14, nous pouvons observer un groupe de 40 points bleus qui correspondent aux йlйments des textes biologiques, et 40 points rouges qui reprйsentent les йlйments linguistiques. Le terme en question reste toujours dans le point de l’intersection des deux axes. Nous pouvons ainsi noter les deux classes thйmatiques qui se distinguent trиs clairement.
Considйrons finalement le troisiиme exemple du traitement des termes homonymiques interdisciplinaires. Le terme “occlusion” fonctionne dans les deux disciplines cibles et fait rйfйrence а des concepts diffйrents au sein de ces contextes thйmatiques. Afin de choisir la dйfinition appropriйe de cette unitй terminologique dans un tel ou tel texte, nous avons crйй les cartes sйmantiques propres а chaque concept. Le graphique suivant illustre les reprйsentations vectorielles des modиles d’usage du terme cible dans de diffйrents documents.

Figure 15. Reprйsentation graphique des clusters caractйristiques du terme “occlusion”
Les classes thйmatiques illustrйes sur le graphique (fig. 15) ont йtй formйes а la base des matrices correspondantes. Les vecteurs en bleu reprйsentent les substantifs du domaine biologique parmi lesquels “dent”, ”symptфme”, “appareil”, “patient”, “anomalie” et d’autres. Les vecteurs en rouge reprйsentent les йlйments de l’ensemble linguistique. Les unitйs caractйristiques de ce domaine sont “phonation”, “parole”, “voix”, “voyelle”, “langage” et d’autres. Par consйquent, si les associations du terme “occlusion” relevйes de nouveaux textes sont similaires avec les йlйments de la classe bleue, le concept reprйsentй sera dйcrit par la dйfinition biologique:
- occlusion (f) - йtat de contact des faces occlusales des dents des maxillaires supйrieur et infйrieur.
Alors, le terme sera traduit vers la langue russe par l’unitй terminologique dont la dйfinition est celle de
- прикус (м) - взаимоотношение зубов верхней и нижней челюстей при акте смыкания челюстей.
Par contre, lorsque les vecteurs des associations de ce terme se rapprochent de ceux de la classe rouge, le concept correspondant et l’йquivalent russe de cette unitй terminologique seront diffйrents. Donc, dans le domaine linguistique nous pourrons observer une situation prйsentйe ci-aprиs:
- occlusion (f) - fermeture complиte et momentanйe de la cavitй buccale en un point quelconque qui empкche le passage de l'air phonatoire ; смычка (ж) - полная преграда на пути выходящей из легких струи воздуха при произнесении звуков речи.
Finalement, il nous reste une йtape finale de l’йlaboration de notre mйthode d’йvaluation des liens sйmantiques de similaritй. Il est nйcessaire de choisir un moyen pour fixer le domaine de connaissance auquel appartient les textes de contrфle dont nous ignorons les champs thйmatiques.
II.1.3. Dйfinition du critиre de dйsambiguпsation des homonymes terminologiques
II.1.3.1. Choix du critиre de comparaison des clusters
L’un de nos objectifs serait de localiser le sens des termes homonymiques au sein d’un domaine particulier de connaissance а travers une analyse automatique de leurs emplois qui consiste а fixer les thйmatiques des clusters constituйs des йlйments similaires au terme йtudiй. Nous avons choisi l’indice de Sшrensen-Czekanowski comme critиre de comparaison d’un cluster construit pour un terme dans un texte dont nous ignorons le champ thйmatique avec les clusters dйterminйs des domaines biologique et linguistique. Cette indice prйsente un indicateur qui permet d’йvaluer la similaritй entre deux ensembles. La valeur de ce coefficient varie entre 0 quand les clusters concernйs n’ont pas d’unitйs communes et +1 lorsque les mкmes йlйments sont prйsents dans les deux ensembles.
Lors de notre projet, nous avons utilisй une formule classique de l’indice de Sшrensen-Czekanowski ainsi qu’une formule, adaptйe au traitement des textes, basйe sur les reprйsentations vectorielles des unitйs lexicales. Dans les pages qui suivent, nous examinerons les particularitйs de ces deux critиres et la fiabilitй des rйsultats reзus а l’issue des calculs.
II.1.3.2. Analyse des caractйristiques des critиres de similaritй
Pour commencer, nous avons estimй la similaritй entre les clusters d’aprиs la formule classique de l’indice de Sшrensen-Czekanowski qui est la suivante :
![]()
(2)
Oщ "c" est йgal au nombre d’йlйments communs aux deux clusters, "a" est йgal au nombre total d’йlйments du premier cluster, et "b" est йgal au nombre total d’йlйments du deuxiиme cluster. Ce critиre (formule 2) s’avиre кtre assez simple du point de vue de complexitй du calcul et permet d’йtablir avec une certaine fiabilitй la ressemblance entre les clusters concernйs. Pourtant, certains aspects de cette formule appellent une attention particuliиre. Nous y reviendrons aprиs une brиve description du deuxiиme critиre.
Dans le cadre de notre projet, nous proposons de considйrer le critиre de Sшrensen-Czekanowski dans un sens plus large et donc d’adapter une formule йlargie pour pouvoir prendre en compte les reprйsentations vectorielles des mots calculйes а l’йtape prйcйdente, celle du traitement de notre corpus. Ainsi, nous avons йlaborй la formule suivante afin d’estimer la similaritй entre les clusters A et B:
![]()
(3)
|
Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7 8 9 10 11 12 |


