УДК 519.8

Определение лексического ядра славянских языков

, 4, d. *****@***ru

В статье предлагается метод выявления лексического ядра славянских языков на основе расстояние Дамерау ‑Левенштейна. В качестве языка-эталона, то есть языка, на основе сравнения с которым, производится анализ, выступают староцерковнославянский и санскрит. На основе сравнения со староцерковнославянским языком выделяется 48 когнат, демонстрирующих тесную связь славянских языков. Сравнение же с санскритом подчёркивает связь славянских языков с индоевропейской семьёй.

Языки меняются со временем. Эти изменения затрагивают различные уровни: фонетический, лексический, грамматический. При этом лексика подвержена наибольшим изменениям. Однако в словарном запасе языка можно выделить наиболее устойчивую лексику – основной словарный фонд [1, 2]. Примером такого словарного фонда служит список Сводеша. Целью исследования, представленного в данной статье, является выделение лексического ядра славянских языков на основе расстояния Дамерау ‑Левенштейна.

Славянские языки – группа близко родственных языков индоевропейской семьи, распространённых на территории Европы и Азии. Они отличаются большой степенью близости друг к другу, которая обнаруживается в корнеслове, аффиксах, структуре слова, употреблении грамматических категорий, структуре предложения, семантике, системе регулярных звуковых соответствий, морфонологических чередованиях. Эта близость объясняется как единством происхождения славянских языков, так и их длительными и интенсивными контактами на уровне литературных языков и диалектов. Имеются, однако, и различия материального, функционального и типологического характера, обусловленные длительным самостоятельным развитием славянских племён и народностей в разных этнических, географических и историко-культурных условиях, их контактами с родственными и неродственными этническими группами.

НЕ нашли? Не то? Что вы ищете?

Данные

Данными для анализа послужили словоформы 12 славянских языков, собранные в базе Краскала [ 3]. Эти словоформы используются в том или ином языке для передачи понятий из 200-словного списка Сводеша. Кроме того, база по современным слаянским языкам была дополнена 167 словоформами староцерковнославянского языка [4] и 154 словоформами санскрита. Неизвестные словоформы отмечены «?».

Метод анализа

Для выявления лексического ядра, содержащего слова, подвергшиеся наименьшим изменениям, предлагается использовать сравнение словоформ современных славянских языков с двумя древними языками. В первом случае в качестве языка-эталона используется староцерковнославянский, возникший в конце эпохи праславянского единства, то есть тогда, когда отдельные славянские наречия относились друг к другу ещё как разные диалекты одного языка, а не как самостоятельные языки, что служит основой предположения, что старославянский язык был ещё общеславянским литературным языком [5]. Во втором случае сравнение ведётся с санскритом, одним из самых древних индоевропейских языков. И хотя санскрит не относится к славянским языкам, мы предполагаем, что он может быть использован для цели данного исследования. Для оценки изменений предлагается использовать расстояние Дамерау‑Левенштейна. Устанавливается пороговое значение, отражающее допустимое различие с языком-эталоном.

Анализ проводится, исходя из следующих предположений:

1)  существует множество словоформ, сохранивших древние корни;

2)  это множество можно выделить из списка Сводеша, содержащего наиболее устойчивую лексику;

3)  слова из этого множества могут быть выделены на основе сравнения с древними словоформами, характерными для древнего языка.

Как уже отмечалось выше, в качестве меры сходства используется расстояние Дамерау –Левенштейна [6]. Это мера сравнения строк, определяемая как минимальное количество операций вставки, удаления одного символа, замены одного символа на другой и транспозиции соседних символов, необходимых для перевода одной строки в другую. Псевдокод расчёта расстояния Дамерау –Левенштейна представлен ниже.

for all

for all from to

// the distance of S2 in case of empty S1

for all from to

// the distance of S1 in case of empty S2

for all from to

// удаление

// вставка

// замена

// транспозиция

if ( and ) then

)

return

Результаты

Расчёт производился в виде процедуры, написанной в среде Wolfram Mathematica. Пороговое значение было принято равным 3, т. е. различие между словами должно было быть меньше, чем 3 операции, допускаемые расстоянием Дамерау –Левенштейна. Поскольку проводился поиск слов, сохранившихся практически во всех славянских языках, то в качестве второго ограничения было указано сохранение в 80% рассматриваемых языков.

На основе сравнения со староцерковнославянским языком было выделено 48 словоформ: зола, кровь, день, рыть, пить, сухой, тупой, есть, глаз, падать, далеко, перо, рыба, хороший, трава, зелень и др. Результаты представлены в таблице 1. Полученные словоформы представляют собой как существительные (зола, день, кровь), так и глаголы (рыть, пить, есть, падать), прилагательные (сухой, тупой, хороший), числительные (два, три, белый, мокрый).

В результате сравнения с санскритом было получено 21 значение из списка Сводеша: день (day), пить (to drink), сухой (dry), падать (to fall), перо (feather), давать (to give), трава (grass), жить (to live), мясо (meat), мать (mother), не (not), шить (to sew), спать (to sleep), маленький (small), тот (that), там (there), ты (thou), три (three), два (two), когда (when), кто (who). Среди этих слов можно выделить местоимения (ты, этот, там, кто, когда), числительные (два, три), глаголы (пить, жить, давать и т. д.). Результаты представлены в таблице 2. Отметим, что полученное таким способом ядро не является подмножеством ядра, полученного на основе сравнения со староцерковнославянским языком. Это объясняется тем, что данные о словоформах по староцерковнославянскому и санскриту не совпадают и некоторые словоформы, выделяемые в качестве ядра, не известны для староцерковнославянского.

Таблица 1. Лексическое ядро славянских языков, полученное на основе сравнения со староцерковнославянским языком.

Словенский

Нижнелужицкий

Верхнелужицкий

Чешский

Словацкий

Украинский

Белорусский

Польский

Русский

Македонский

Болгарский

Сербохорватский

Староцерковнославянский

pepju

popel

popjel

popel

popol

popil

popel

popiol

zola

pepel

pepel

pepeo

popel

kri

ksej

krej

krev

krv

krov

krow

krew

krov

krv

krev

krv

krov

dan

zen

dzen

den

den

den

dzen

dzien

den

den

den

dan

din

kopat

kopas

kopac

kopati

kopat

kopaty

kapac

kopac

ryt

kopa

kopae

kopati

kop

pit

pis

pic

piti

pit

pyty

pic

pic

pit

pie

pie

piti

pi

suho

suchy

suchi

suchy

suchy

suxyj

suxi

suchy

suxoj

suv

suxo

suv

sux

skrhan

tupy

tupy

tupy

tupy

tupyj

tupy

tepy

tupoj

tap

tep

tup

top

jest

jesc

jesc

jisti

jest

jisty

esci

jesc

est

jade

jade

jesti

jas

oko

woko

woko

oko

oko

oko

voka

oko

glaz

oko

oko

oko

ok

pade

padas

padac

upadnouti

padat

padaty

padac

padac

padat

paga

pada

pasti

pad

dalec

daloki

daloki

daleko

daleky

daleko

daleki

daleko

daleko

daleku

dalec

dalek

dalek

peru

pero

pjero

pero

pero

pero

pera

pioro

pero

pero

pero

pero

per

riba

ryba

ryba

ryba

ryba

ryba

ryba

ryba

ryba

riba

riba

riba

rib

pjt

pes

pjec

pet

pat

pjat

pjac

piec

pjat

pet

pet

pet

pet

dobro

dobry

dobry

dobry

dobry

dobryj

dobry

dobry

xorosij

dobro

dobro

dobar

dobr

trava

tsawa

trawa

trava

trava

trava

trava

trawa

trava

treva

treva

trava

trav

zeleno

zeleny

zeleny

zeleny

travnik

zelenyj

zjaleny

zielony

zelenyj

zelen

zeleno

zelen

zelen

lasje

los

wlos

vlasy

vlas

volos

volas

wlosy

volosy

kosa

kosa

kosa

vlas

raka

ruka

ruka

ruka

ruka

ruka

ruka

reka

ruka

raka

reka

ruka

rok

glava

glowa

glowa

hlava

hlava

golova

galava

glowa

golova

glava

glava

glava

glav

lett

lod

lod

led

lad

lid

led

lod

led

led

led

led

led

peru

list

list

list

list

lyst

list

lisc

list

list

list

list

list

usi

wes

wos

ves

vos

vosa

vos

wesz

vos

voska

veska

us

vos

meso

meso

mjaso

maso

maso

mjaso

mjasa

mieso

mjaso

meso

meso

meso

mes

mati

mas

mac

matka

matka

maty

maci

matka

mat

majka

majka

majka

ma

vujsta

husta

wusta

usta

usta

rot

rot

usta

rot

usta

usta

usta

us

blizii

blizki

blizki

blizky

blizky

bilja

blizki

blizko

blizko

blizok

blizko

blizu

bliz

nova

nowy

nowy

novy

novy

novyj

novy

nowy

novyj

nob

novo

nov

nov

noc

noc

noc

noc

noc

nic

noc

noc

noc

nok

nosc

noc

nost

nus

nos

nos

nos

nos

nis

nos

nos

nos

nos

nos

nos

nos

star

stary

stary

stary

stary

staryj

stary

stary

staryj

star

staro

star

star

aden

jaden

jedyn

jeden

jeden

odyn

adzin

jeden

odin

eden

edno

jedan

jedin

sov

sol

sol

sul

sol

sil

sol

sol

sol

sol

sol

sol

sol

pesk

pesk

pesk

pisek

piesok

pisok

pjasok

piasek

pesok

pesok

pjasek

pesak

pesuk

morje

moro

morjo

more

more

more

mora

morze

more

more

more

more

morj

sivat

sys

sic

siti

sit

syty

syc

szyc

sit

sie

sie

siti

si

oster

wotsy

wotry

ostry

ostry

hoctryj

vostry

ostry

ostryj

ostar

ostro

ostar

ostr

nebo

njebjo

njebjo

nebe

nebo

nebo

neba

niebo

nebo

nebo

nebe

nebo

neb

snek

sneg

sneh

snih

sneh

snih

sneh

snieg

sneg

sneg

snjag

sneg

sneg

staj

stojas

stejec

stati

stat

stojaty

stamc

stac

stojat

stoi

stoi

stajati

stoj

kamen

kamen

kamjen

kamen

kamen

kamen

kamen

kamien

kamen

kamen

kamek

kamen

kam

tri

tsi

tri

tri

tri

try

try

trzy

tri

tri

tri

tri

trij

jezik

jezyk

jazyk

jazyk

jazyk

jazyk

jazyk

jezyk

jazyk

jazik

ezik

jezik

jezik

zoby

zub

zub

zub

zub

zub

zub

zab

zub

zab

zeb

zub

zob

dua

dwa

dwaj

dva

dva

dva

dva

dwa

dva

dva

dve

dva

dv

voda

woda

woda

voda

voda

voda

vada

woda

voda

voda

voda

voda

vod

makro

moksy

mokry

mokry

mokry

mokryj

mokry

mokry

mokryj

?

mokro

mokar

mok

kelo

bely

bely

bily

biely

bilyj

bely

bialy

belyj

bel

bjalo

belo

bel

Таблица 2. Лексическое ядро славянских языков, полученное на основе сравнения с санскритом.

Из за большого объема этот материал размещен на нескольких страницах:
1 2

Основные порталы (построено редакторами)

Домашний очаг

ДомДачаСадоводствоДетиАктивность ребенкаИгрыКрасотаЖенщины(Беременность)СемьяХобби
Здоровье: • АнатомияБолезниВредные привычкиДиагностикаНародная медицинаПервая помощьПитаниеФармацевтика
История: СССРИстория РоссииРоссийская Империя
Окружающий мир: Животный мирДомашние животныеНасекомыеРастенияПриродаКатаклизмыКосмосКлиматСтихийные бедствия

Справочная информация

ДокументыЗаконыИзвещенияУтверждения документовДоговораЗапросы предложенийТехнические заданияПланы развитияДокументоведениеАналитикаМероприятияКонкурсыИтогиАдминистрации городовПриказыКонтрактыВыполнение работПротоколы рассмотрения заявокАукционыПроектыПротоколыБюджетные организации
МуниципалитетыРайоныОбразованияПрограммы
Отчеты: • по упоминаниямДокументная базаЦенные бумаги
Положения: • Финансовые документы
Постановления: • Рубрикатор по темамФинансыгорода Российской Федерациирегионыпо точным датам
Регламенты
Термины: • Научная терминологияФинансоваяЭкономическая
Время: • Даты2015 год2016 год
Документы в финансовой сферев инвестиционнойФинансовые документы - программы

Техника

АвиацияАвтоВычислительная техникаОборудование(Электрооборудование)РадиоТехнологии(Аудио-видео)(Компьютеры)

Общество

БезопасностьГражданские права и свободыИскусство(Музыка)Культура(Этика)Мировые именаПолитика(Геополитика)(Идеологические конфликты)ВластьЗаговоры и переворотыГражданская позицияМиграцияРелигии и верования(Конфессии)ХристианствоМифологияРазвлеченияМасс МедиаСпорт (Боевые искусства)ТранспортТуризм
Войны и конфликты: АрмияВоенная техникаЗвания и награды

Образование и наука

Наука: Контрольные работыНаучно-технический прогрессПедагогикаРабочие программыФакультетыМетодические рекомендацииШколаПрофессиональное образованиеМотивация учащихся
Предметы: БиологияГеографияГеологияИсторияЛитератураЛитературные жанрыЛитературные героиМатематикаМедицинаМузыкаПравоЖилищное правоЗемельное правоУголовное правоКодексыПсихология (Логика) • Русский языкСоциологияФизикаФилологияФилософияХимияЮриспруденция

Мир

Регионы: АзияАмерикаАфрикаЕвропаПрибалтикаЕвропейская политикаОкеанияГорода мира
Россия: • МоскваКавказ
Регионы РоссииПрограммы регионовЭкономика

Бизнес и финансы

Бизнес: • БанкиБогатство и благосостояниеКоррупция(Преступность)МаркетингМенеджментИнвестицииЦенные бумаги: • УправлениеОткрытые акционерные обществаПроектыДокументыЦенные бумаги - контрольЦенные бумаги - оценкиОблигацииДолгиВалютаНедвижимость(Аренда)ПрофессииРаботаТорговляУслугиФинансыСтрахованиеБюджетФинансовые услугиКредитыКомпанииГосударственные предприятияЭкономикаМакроэкономикаМикроэкономикаНалогиАудит
Промышленность: • МеталлургияНефтьСельское хозяйствоЭнергетика
СтроительствоАрхитектураИнтерьерПолы и перекрытияПроцесс строительстваСтроительные материалыТеплоизоляцияЭкстерьерОрганизация и управление производством