УДК 519.8
Определение лексического ядра славянских языков
, 4, d. *****@***ru
В статье предлагается метод выявления лексического ядра славянских языков на основе расстояние Дамерау ‑Левенштейна. В качестве языка-эталона, то есть языка, на основе сравнения с которым, производится анализ, выступают староцерковнославянский и санскрит. На основе сравнения со староцерковнославянским языком выделяется 48 когнат, демонстрирующих тесную связь славянских языков. Сравнение же с санскритом подчёркивает связь славянских языков с индоевропейской семьёй.
Языки меняются со временем. Эти изменения затрагивают различные уровни: фонетический, лексический, грамматический. При этом лексика подвержена наибольшим изменениям. Однако в словарном запасе языка можно выделить наиболее устойчивую лексику – основной словарный фонд [1, 2]. Примером такого словарного фонда служит список Сводеша. Целью исследования, представленного в данной статье, является выделение лексического ядра славянских языков на основе расстояния Дамерау ‑Левенштейна.
Славянские языки – группа близко родственных языков индоевропейской семьи, распространённых на территории Европы и Азии. Они отличаются большой степенью близости друг к другу, которая обнаруживается в корнеслове, аффиксах, структуре слова, употреблении грамматических категорий, структуре предложения, семантике, системе регулярных звуковых соответствий, морфонологических чередованиях. Эта близость объясняется как единством происхождения славянских языков, так и их длительными и интенсивными контактами на уровне литературных языков и диалектов. Имеются, однако, и различия материального, функционального и типологического характера, обусловленные длительным самостоятельным развитием славянских племён и народностей в разных этнических, географических и историко-культурных условиях, их контактами с родственными и неродственными этническими группами.
Данные
Данными для анализа послужили словоформы 12 славянских языков, собранные в базе Краскала [ 3]. Эти словоформы используются в том или ином языке для передачи понятий из 200-словного списка Сводеша. Кроме того, база по современным слаянским языкам была дополнена 167 словоформами староцерковнославянского языка [4] и 154 словоформами санскрита. Неизвестные словоформы отмечены «?».
Метод анализа
Для выявления лексического ядра, содержащего слова, подвергшиеся наименьшим изменениям, предлагается использовать сравнение словоформ современных славянских языков с двумя древними языками. В первом случае в качестве языка-эталона используется староцерковнославянский, возникший в конце эпохи праславянского единства, то есть тогда, когда отдельные славянские наречия относились друг к другу ещё как разные диалекты одного языка, а не как самостоятельные языки, что служит основой предположения, что старославянский язык был ещё общеславянским литературным языком [5]. Во втором случае сравнение ведётся с санскритом, одним из самых древних индоевропейских языков. И хотя санскрит не относится к славянским языкам, мы предполагаем, что он может быть использован для цели данного исследования. Для оценки изменений предлагается использовать расстояние Дамерау‑Левенштейна. Устанавливается пороговое значение, отражающее допустимое различие с языком-эталоном.
Анализ проводится, исходя из следующих предположений:
1) существует множество словоформ, сохранивших древние корни;
2) это множество можно выделить из списка Сводеша, содержащего наиболее устойчивую лексику;
3) слова из этого множества могут быть выделены на основе сравнения с древними словоформами, характерными для древнего языка.
Как уже отмечалось выше, в качестве меры сходства используется расстояние Дамерау –Левенштейна [6]. Это мера сравнения строк, определяемая как минимальное количество операций вставки, удаления одного символа, замены одного символа на другой и транспозиции соседних символов, необходимых для перевода одной строки в другую. Псевдокод расчёта расстояния Дамерау –Левенштейна представлен ниже.

for all ![]()
for all
from
to ![]()
// the distance of S2 in case of empty S1
![]()
for all
from
to ![]()
// the distance of S1 in case of empty S2
![]()
for all
from
to ![]()
![]()
// удаление
// вставка
// замена

// транспозиция
if (
and
) then
![]()
![]()
![]()
)
return ![]()
Результаты
Расчёт производился в виде процедуры, написанной в среде Wolfram Mathematica. Пороговое значение было принято равным 3, т. е. различие между словами должно было быть меньше, чем 3 операции, допускаемые расстоянием Дамерау –Левенштейна. Поскольку проводился поиск слов, сохранившихся практически во всех славянских языках, то в качестве второго ограничения было указано сохранение в 80% рассматриваемых языков.
На основе сравнения со староцерковнославянским языком было выделено 48 словоформ: зола, кровь, день, рыть, пить, сухой, тупой, есть, глаз, падать, далеко, перо, рыба, хороший, трава, зелень и др. Результаты представлены в таблице 1. Полученные словоформы представляют собой как существительные (зола, день, кровь), так и глаголы (рыть, пить, есть, падать), прилагательные (сухой, тупой, хороший), числительные (два, три, белый, мокрый).
В результате сравнения с санскритом было получено 21 значение из списка Сводеша: день (day), пить (to drink), сухой (dry), падать (to fall), перо (feather), давать (to give), трава (grass), жить (to live), мясо (meat), мать (mother), не (not), шить (to sew), спать (to sleep), маленький (small), тот (that), там (there), ты (thou), три (three), два (two), когда (when), кто (who). Среди этих слов можно выделить местоимения (ты, этот, там, кто, когда), числительные (два, три), глаголы (пить, жить, давать и т. д.). Результаты представлены в таблице 2. Отметим, что полученное таким способом ядро не является подмножеством ядра, полученного на основе сравнения со староцерковнославянским языком. Это объясняется тем, что данные о словоформах по староцерковнославянскому и санскриту не совпадают и некоторые словоформы, выделяемые в качестве ядра, не известны для староцерковнославянского.
Таблица 1. Лексическое ядро славянских языков, полученное на основе сравнения со староцерковнославянским языком.
Словенский | Нижнелужицкий | Верхнелужицкий | Чешский | Словацкий | Украинский | Белорусский | Польский | Русский | Македонский | Болгарский | Сербохорватский | Староцерковнославянский |
pepju | popel | popjel | popel | popol | popil | popel | popiol | zola | pepel | pepel | pepeo | popel |
kri | ksej | krej | krev | krv | krov | krow | krew | krov | krv | krev | krv | krov |
dan | zen | dzen | den | den | den | dzen | dzien | den | den | den | dan | din |
kopat | kopas | kopac | kopati | kopat | kopaty | kapac | kopac | ryt | kopa | kopae | kopati | kop |
pit | pis | pic | piti | pit | pyty | pic | pic | pit | pie | pie | piti | pi |
suho | suchy | suchi | suchy | suchy | suxyj | suxi | suchy | suxoj | suv | suxo | suv | sux |
skrhan | tupy | tupy | tupy | tupy | tupyj | tupy | tepy | tupoj | tap | tep | tup | top |
jest | jesc | jesc | jisti | jest | jisty | esci | jesc | est | jade | jade | jesti | jas |
oko | woko | woko | oko | oko | oko | voka | oko | glaz | oko | oko | oko | ok |
pade | padas | padac | upadnouti | padat | padaty | padac | padac | padat | paga | pada | pasti | pad |
dalec | daloki | daloki | daleko | daleky | daleko | daleki | daleko | daleko | daleku | dalec | dalek | dalek |
peru | pero | pjero | pero | pero | pero | pera | pioro | pero | pero | pero | pero | per |
riba | ryba | ryba | ryba | ryba | ryba | ryba | ryba | ryba | riba | riba | riba | rib |
pjt | pes | pjec | pet | pat | pjat | pjac | piec | pjat | pet | pet | pet | pet |
dobro | dobry | dobry | dobry | dobry | dobryj | dobry | dobry | xorosij | dobro | dobro | dobar | dobr |
trava | tsawa | trawa | trava | trava | trava | trava | trawa | trava | treva | treva | trava | trav |
zeleno | zeleny | zeleny | zeleny | travnik | zelenyj | zjaleny | zielony | zelenyj | zelen | zeleno | zelen | zelen |
lasje | los | wlos | vlasy | vlas | volos | volas | wlosy | volosy | kosa | kosa | kosa | vlas |
raka | ruka | ruka | ruka | ruka | ruka | ruka | reka | ruka | raka | reka | ruka | rok |
glava | glowa | glowa | hlava | hlava | golova | galava | glowa | golova | glava | glava | glava | glav |
lett | lod | lod | led | lad | lid | led | lod | led | led | led | led | led |
peru | list | list | list | list | lyst | list | lisc | list | list | list | list | list |
usi | wes | wos | ves | vos | vosa | vos | wesz | vos | voska | veska | us | vos |
meso | meso | mjaso | maso | maso | mjaso | mjasa | mieso | mjaso | meso | meso | meso | mes |
mati | mas | mac | matka | matka | maty | maci | matka | mat | majka | majka | majka | ma |
vujsta | husta | wusta | usta | usta | rot | rot | usta | rot | usta | usta | usta | us |
blizii | blizki | blizki | blizky | blizky | bilja | blizki | blizko | blizko | blizok | blizko | blizu | bliz |
nova | nowy | nowy | novy | novy | novyj | novy | nowy | novyj | nob | novo | nov | nov |
noc | noc | noc | noc | noc | nic | noc | noc | noc | nok | nosc | noc | nost |
nus | nos | nos | nos | nos | nis | nos | nos | nos | nos | nos | nos | nos |
star | stary | stary | stary | stary | staryj | stary | stary | staryj | star | staro | star | star |
aden | jaden | jedyn | jeden | jeden | odyn | adzin | jeden | odin | eden | edno | jedan | jedin |
sov | sol | sol | sul | sol | sil | sol | sol | sol | sol | sol | sol | sol |
pesk | pesk | pesk | pisek | piesok | pisok | pjasok | piasek | pesok | pesok | pjasek | pesak | pesuk |
morje | moro | morjo | more | more | more | mora | morze | more | more | more | more | morj |
sivat | sys | sic | siti | sit | syty | syc | szyc | sit | sie | sie | siti | si |
oster | wotsy | wotry | ostry | ostry | hoctryj | vostry | ostry | ostryj | ostar | ostro | ostar | ostr |
nebo | njebjo | njebjo | nebe | nebo | nebo | neba | niebo | nebo | nebo | nebe | nebo | neb |
snek | sneg | sneh | snih | sneh | snih | sneh | snieg | sneg | sneg | snjag | sneg | sneg |
staj | stojas | stejec | stati | stat | stojaty | stamc | stac | stojat | stoi | stoi | stajati | stoj |
kamen | kamen | kamjen | kamen | kamen | kamen | kamen | kamien | kamen | kamen | kamek | kamen | kam |
tri | tsi | tri | tri | tri | try | try | trzy | tri | tri | tri | tri | trij |
jezik | jezyk | jazyk | jazyk | jazyk | jazyk | jazyk | jezyk | jazyk | jazik | ezik | jezik | jezik |
zoby | zub | zub | zub | zub | zub | zub | zab | zub | zab | zeb | zub | zob |
dua | dwa | dwaj | dva | dva | dva | dva | dwa | dva | dva | dve | dva | dv |
voda | woda | woda | voda | voda | voda | vada | woda | voda | voda | voda | voda | vod |
makro | moksy | mokry | mokry | mokry | mokryj | mokry | mokry | mokryj | ? | mokro | mokar | mok |
kelo | bely | bely | bily | biely | bilyj | bely | bialy | belyj | bel | bjalo | belo | bel |
Таблица 2. Лексическое ядро славянских языков, полученное на основе сравнения с санскритом.
|
Из за большого объема этот материал размещен на нескольких страницах:
1 2 |
Основные порталы (построено редакторами)
