Oщ "ai" reprйsente les йlйments du cluster A, et "bj" correspond aux йlйments du cluster B. Ce critиre (formule 3) permet йgalement d’йvaluer la ressemblance entre les deux ensembles mais avec une plus grande flexibilitй.

Premiиrement, le rйsultat du calcul basй sur l’indice classique peut кtre uniquement positif ou nйgatif, comme nous le voyons sur la formule 4,

               (4)

puisque nous ne pouvons obtenir +1 que dans le cas oщ le mкme lexиme est prйsent dans les deux ensembles, c’est-а-dire quand l’йlйment ai fait partie de l’ensemble B. Dans toute autre situation ce coefficient sera йgal а 0. Par contre, la valeur du calcul d’aprиs la formule 3 peut varier dans l’intervalle entre 0 et +1 car ce n’est pas le nombre d’unitйs identiques qui est pris en compte mais la similaritй des cosinus entre les vecteurs respectifs.

               (5)

Comme nous pouvons voir, la proximitй entre les йlйments du cluster A au cluster B (formule 5) est le rйsultat d’йvaluation de valeur de similaritй la plus йlevйe entre chaque paire d’unitйs des deux clusters.

Par consйquent, le deuxiиme critиre peut кtre utilisй pour йtablir le degrй de similaritй entre les clusters en question et pour vйrifier la ressemblance entre chaque paire de mots-clйs.

Deuxiиmement, le premier critиre s’est avйrй trиs sensible au nombre de mots dans les clusters. Cependant, les textes а analyser peuvent avoir une longueur diffйrente et la frйquence d’apparition d’une telle ou telle unitй lexicale peut йgalement varier. En consйquence, il devient difficile de fixer le volume des clusters ce qui constitue une йtape importante de notre travail. Lors des calculs d’aprиs la premiиre formule, nous avons choisi de limiter le nombre d’йlйments dans un cluster а 40, puisqu’avec un nombre infйrieur les erreurs йtaient plus frйquentes, et un nombre supйrieur n’influenзait pas les rйsultats d’une faзon considйrable. De plus, il est dangereux d’augmenter le nombre d’unitйs dans les clusters car il est important de travailler avec les йlйments les plus similaires, et l’extension des clusters impliquera les mots assez йloignйs du terme central.

НЕ нашли? Не то? Что вы ищете?

       En ce qui concerne la formule vectorielle, les rйsultats de tels calculs ne dйpendent pas d’une faзon significative du nombre de mots dans les ensembles, et par consйquent, ce critиre permet d’йtablir le degrй de similaritй entre les clusters mкme si les unitйs identiques n’y sont pas prйsentes а un nombre considйrable.

       Donc lors de notre projet, nous avons utilisй les deux critиres dйcrits ci-dessus afin de dйterminer d’une faзon automatique le champ thйmatique des textes analysйs et de situer le sens des termes homonymiques interdisciplinaires au sein du domaine biologique ou linguistique afin de choisir une traduction йquivalente en fonction du contexte scientifique.

Ainsi, nous avons йlaborй une mйthode de crйation des clusters comportant les йlйments nominatifs similaires au niveau sйmantique а la base d’une analyse des contextes йlйmentaires. Les reprйsentations vectorielles des unitйs lexicales nous ont permis d’йvaluer l’indice de similaritй entre chaque paire de substantifs via l’estimation de cosinus de l’angle entre deux vecteurs en question, dont les valeurs varient entre -1 et +1. Par consйquent, il est devenu possible de crйer des clusters des unitйs similaires au niveau sйmantique qui constituent une reprйsentation du champ thйmatique auquel appartient tel ou tel texte. Par la suite, nous pourrons йvaluer la ressemblance entre les clusters de nouveaux textes et les clusters originaux а l’aide des indices de similaritйs choisis et faire une supposition sur le domaine auquel appartiennent les documents en question.

II.2.        Approbation de la mйthode йlaborйe de dйsambiguпsation des homonymes terminologiques

Aprиs avoir йlaborй un algorithme de l’identification du champ thйmatique des textes via une analyse automatique des associations de similaritй, nous avons testй cette mйthode sur de nouveaux documents afin de vйrifier l’hypothиse de notre projet. La procйdure d’une telle approbation comprend les йtapes suivantes :


Sйlectionner les documents textuels pour vйrifier notre hypothиse; Rйaliser le prйtraitement des textes; Composer les йchantillons de contrфle; Construire les clusters pour chaque йchantillon de contrфle; Identifier le champ thйmatique de tous les textes de contrфle.

Ainsi, nous avons procйdй au traitement des termes homonymiques interdisciplinaires а l’aide d’une analyse de leurs modиles d’emploi dans les textes biologiques et linguistiques que nous avons choisis lors de l’йtape dйcrite ci-aprиs.

II.2.1. Sйlection des documents textuels pour vйrifier notre hypothиse

Notre objectif suivant est de complйter notre corpus avec des textes de contrфle dont les thйmatiques correspondent aux domaines concernйs. Nous avons choisi plusieurs ouvrages biologiques et linguistiques dont un grand nombre a йtй tirй du site de l’archive ouverte pluridisciplinaire “Hyper articles en lignes (HAL)”. C’est une vaste plateforme, crййe au dйbut de XXIиme siиcle par le Centre national de la recherche scientifique, qui donne un accиs libre aux travaux publiйs par des chercheurs franзais et йtrangers (voir les ressources numйriques).

Lors de la validation de notre mйthode, nous nous sommes adressйs йgalement aux textes dйcrits dans la premiиre partie du prйsent travail. Les clusters construits а la base de ces documents ont constituй une sйrie de points de repиres en vue de fixer les thйmatiques des clusters de contrфle.

II.2.2 Rйalisation du prйtraitement des textes

Avant de passer а une construction des clusters thйmatiques, nous avons effectuй un traitement prйalable du corpus qui йtait mis а jour а l’йtape prйcйdente. Nous avons donc dйtectй les termes homonymiques au sein de ces documents ainsi qu’йvaluй la frйquence de leurs apparitions dans chaque texte. Rappelons, que dans la premiиre partie de ce travail nous avons fixй le seuil minimal de frйquence d’utilisation des mots-clйs а 10 pour assurer une certaine fiabilitй de nos calculs. 

position des йchantillons de contrфle

       A l’йtape suivante, nous avons crйй 482 йchantillons tests, dont 231 comportent les termes dans leurs sens biologiques et 251 sont constituйs autour des termes linguistiques. Les йchantillons sont composйs de plusieurs йlйments. Tout d’abord, chaque йchantillon comprend un terme homonymique. Puis, viennent trois textes oщ ce terme est frйquemment employй, dont deux sont obligatoirement de thйmatiques diffйrentes et constituent les documents de repиres, et le troisiиme est justement un document de contrфle. Ici il convient de prйciser que chaque texte analysй peut figurer а la fois dans plusieurs йchantillons et y jouer le rфle soit d’un repиre soit d’un essai.

Finalement, le dernier йlйment de tout йchantillon est le domaine de rйfйrence. C’est un libellй de la discipline а laquelle appartient effectivement le texte de contrфle ce qui permet de dйfinir le sens du terme en question et de choisir une traduction йquivalente. Ce dernier йlйment a une grande importance puisqu’il permet de vйrifier le rйsultat obtenu avec notre mйthode et d’йvaluer la fiabilitй de nos calculs.

II.2.4. Construction des clusters pour chaque йchantillon de contrфle

       Par la suite, nous avons construit les clusters thйmatiques а la base des textes de chaque йchantillon. Par consйquent, au sein de chaque test nous avons trois clusters, dont deux correspondant aux textes de repиres et un correspondant au texte de contrфle. Cela a йtй rйalisй d’aprиs le modиle dйcrit dans les pages prйcйdentes.

Au dйbut, nous avons crйй les reprйsentations vectorielles de tous les mots clйs frйquents dans les textes concernйs. Ensuite, nous avons calculй les cosinus des angles entre chaque paire de vecteurs. A la fin, nous avons conзu les clusters de 40 unitйs les plus similaires avec les termes centraux. Lors de la description des critиres de comparaison des clusters thйmatiques, nous avons apportй une prйcision sur le choix du nombre d’йlйments dans les ensembles.

II.2.5. Identification du champ thйmatique de tous les textes de contrфle

Aprиs avoir construit les clusters, nous avons pu йtablir le degrй de leur similaritй. Une telle comparaison a йtй rйalisйe par le biais des critиres permettant d’йvaluer la ressemblance entre deux ensembles. Dans le cadre de notre projet, nous nous sommes servis de deux formules, celle de l’indice classique de Sшrensen-Czekanowski (formule 2) et celle de l’indice un peu plus adaptй pour rйaliser les opйrations de calcul avec les reprйsentations vectorielles et les valeurs des cosinus (formule 3).

Ainsi, au sein de chaque йchantillon, nous avons comparй le cluster du texte de contrфle avec les clusters thйmatiques des textes de repиres afin de choisir entre ces derniers celui        qui comporte les йlйments les plus similaires avec celui de contrфle. En consйquence, nous avons pu identifier le champ thйmatique auquel appartient le cluster en question et choisir la traduction йquivalente.

Considйrons l’exemple d’un fragment du tableau des йchantillons pour le terme “articulation”.

Tableau 7. Echantillons pour le terme “articulation”

terme

textes de rйfйrence

texte de contrфle

valeur de l'indice classique

valeur de l'indice adaptй

B

L

X

I(B, X)

I(L, X)

I'(B, X)

I'(L, X)

95

articulation

B2

L1

B7

0.2750

0.0750

0.5248

0.4620

96

articulation

B2

L1

L4

0.1500

0.0500

0.3495

0.4116

97

articulation

B2

L9

L10

0.1000

0.1250

0.2998

0.4995

98

articulation

B2

L4

B7

0.2750

0.1750

0.5248

0.4495

99

articulation

B2

L4

L9

0.0750

0.0500

0.4120

0.4116

100

articulation

B4

L4

L10

0.1000

0.1250

0.2998

0.5869

101

articulation

B4

L10

B7

0.2750

0.1000

0.5248

0.4997

102

articulation

B4

L10

L9

0.0750

0.1250

0.4120

0.4995

103

articulation

B4

L10

L4

0.1500

0.1250

0.3495

0.5869

104

articulation

B7

L9

B4

0.2750

0.0750

0.5248

0.4120

105

articulation

B7

L9

L4

0.1750

0.0500

0.4495

0.4116

106

articulation

B7

L9

L10

0.1000

0.1250

0.4997

0.4995

107

articulation

B7

L4

B4

0.2750

0.1500

0.5248

0.3495

108

articulation

B7

L4

L10

0.1000

0.1250

0.4997

0.5869

109

articulation

B7

L10

B4

0.2750

0.1000

0.5248

0.2998

110

articulation

B7

L10

L9

0.0750

0.1250

0.4620

0.4995

111

articulation

B7

L10

L4

0.1750

0.1250

0.4495

0.5869


Le tableau 7 prйsente les йchantillons du 95иme au 111иme qui ont йtй construits pour le terme “articulation”. Les textes de rйfйrence des domaines de la biologie (B) et de la linguistique (L) (voir les textes de rйfйrence) sont indiquйs dans la troisiиme colonne. Ensuite dans la colonne “X”, nous voyons les numйros des textes de contrфle qui ont йtй traitйs au sein de chaque йchantillon. Finalement, les deux derniиres colonnes prйsentent les valeurs de l’indice classique (I) et de l’indice adaptй (I’) obtenues suite а l’estimation du degrй de similaritй entre les clusters des textes de contrфle avec ceux des textes de rйfйrence biologiques (B, X) ou linguistiques (L, X).

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7 8 9 10 11 12