Курсовая работа по специализации «Электронные коллекции в гуманитарной сфере» Конкорданс акцентуированного корпуса современного русского языка (стр. 2 )

Партнерка на США и Канаду по недвижимости, выплаты в крипто

30% recurring commission
Выплаты в USDT
Вывод каждую неделю
Комиссия до 5 лет за каждого referral

Брауновский Корпус стал эталонным для построения аналогичных корпусов в других странах, задав стандарт в 1 млн. слов. Позже было обнаружено, что подобный стандарт не является удовлетворительным. При использовании статистических методов можно было говорить об адекватном отражении действительности только при наличии репрезентативной выборки и внушительного объема текстов. Так созданный по принципу Брауновского Упсальский Корпус (Университет Упсалы, Швеция), объем которого составлял так же примерно 1 млн. слов, оказался достаточно ограничен в отношении представленности в нем достаточного числа жанров.

Таблица 1 – Самые важные корпуса текстов

№	Название	Год	Количество словоупотреблений	Язык
1	BUC	1964	1 000 000	Англ.(USA) печатный
2	AHI	1971	5 000 000	Англ.(USA) печатный
3	LOB	1978	1 000 000	Англ.(G. B) печатный
4	Birmingem corpus	1987	20 000 000	Англ.(G. B) печатный
5	Kolhapur corpus	1988	1 000 000	Aнгл.(Индийский)
6	TOSCA	1988	1.5 000 000	Англ.(G. B) печатный
7	SEU Corpus	1989	1 000 000	Англ.(G. B) печатный
8	CHILDES	1990	20 000 000	Aнгл.(детский) устный
9	Nijmengen	1991	132 000 000	Англ.(G. B) печатный, устный
10	LLELC	1991	50 000 000	Англ. печатный, устный
11	Map Task Corpus	1991	147 000 000	Англ.(Scotland) устный
12	LCLE	1992	10 000 000	Англ. печатный (для иностранцев)
13	SEC	1992	53 000 000	Англ.(G. B) устный
14	Wellington Corpus	1993	1 000 000	Англ.(Новозеланд.) печатный
15	POW	1993	65 000 000	Англ.(детский) устный
16	BNC	1995	100 000 000	Англ.(G. B) устный, письменный, печатный
17	Corpus of Spoken	1991	2 000 000	Англ.(USA) устный
18	ICLE	1997	200 000 000	Англ. письменный (для иностранцев)
19	Bank of English	1997	320 000 000	Англ.(G. B) печатный

По мере роста мощностей компьютеров появилась возможность создания более объемных и представительных корпусов. В Великобритании появился проект Банк Английского (Bank of English) и Британский национальный корпус (BNC), который изменил стандарт репрезентативности корпуса до 100 млн. слов, включения в корпус полных текстов и образцов устной речи, добавления частеречной разметки и возможности доступа через Интернет.

НЕ нашли? Не то? Что вы ищете?

По принципам Британского были созданы Национальные корпуса многих европейских языков (испанский, итальянский, хорватский). В Чехии, например, был создан Чешский национальный корпус, включавший 100 млн. словоформ и открытый для всеобщего доступа в 2000 году. приводит таблицу [1] с информацией о самых важных корпусах текста в мире (таблица 1).

1.3 Репрезентативность корпуса

Очень важной оказывается проблема репрезентативности корпуса. Корпус должен не только отражать все разнообразие изучаемого явления, но адекватно определять место этого явления в жизни носителей данного языка.

Можно выделить следующие критерии отбора текста в корпус и оценки его репрезентативности:

русского языка

Корпусные лингвисты [3] считают, что репрезентативным можно назвать корпус в «10-20 млн. словоупотреблений» при условии определенным образом организованного отбора текстов. Они также отмечают, то важным фактор здесь является и то, что корпус «должен быть определенным образом сбалансирован по жанрам» [3], то есть должны быть широко представлены художественные, драматические, поэтические и т. д. тексты.

1.4 Национальный корпус русского языка

Национальный корпус представляет отражает все многообразие конкретного языка, его стили, жанры, диалекты и т. д. Он может использоваться как для научных исследований, для выявления тонкостей морфологии, грамматики или для составления справок о той или иной области, литературоведческий изысканий, для нужд педагогики.

Как говорит , «Особенно насущной становится необходимость в Национальном корпусе в условиях, когда российское общество ищет опору в решении проблемы идентичности, что невозможно вне контекста языка – фундамента любой культуры. Чрезвычайно важны и проблемы, связанные с поддержанием русского языка в странах СНГ и в русской диаспоре дальнего зарубежья; решение этих проблем также должно опираться на постоянный мониторинг языкового существования в соответствующих ареалах в соотнесенности с «языковой метрополией», что также невозможно без специальной службы, ориентирующейся на материалы Национального корпуса русского языка».

2 Конкордансы и конкордансеры

Словарь-конкорданс имеет довольно простое устройство. На вход пользователь подает словоформу, имея возможность задать и определенные дополнительные критерии поиска. На выходе система поиска по такому словарю – конкордансер – выдает фиксированного размера контексты употребления искомой словоформы.

При современном развитии вычислительной техники стали доступны довольно сложные и быстрые программы обработки большого объема текстового материала. В некоторых лингвистических работах [4] такое современное понятие, как Интернет, предлагается рассматривать как обширный корпус, обладающий уже необходимыми свойствами. По своей природе все тексты в Интернете представлены в электронном виде, таким образом, нет необходимости использовать сканер и последующую трудоемкую обработку. К тому же Интернет в форме всевозможных форумов, чатов и электронной почты решает проблему обычной для стандартного корпуса недостаточной представленности разговорной речи. А роль конкордансеров здесь играют различные информационно-поисковые системы (ИПС), в состав которых входят программы-роботы, сканирующие Интернет в поисках новой информации и поддерживающие старую в актуальном состоянии, индекс, представляющий собой построенную по определенным правилам базу данных для создания хорошо организованной структуры представления текстовой информации, и, наконец, непосредственно поисковая система, работающая с запросами пользователей. Индексы таких систем воспринимаются как конкордансы к текстам, так как они включают в себя инвертированные файлы, в которых содержатся взятые из текста лексические единицы с соответствующей информацией об их местоположении в исходном тексте и дополнительными сведениями. С точки зрения лингвистики, интересным кажется вопрос о том, каким образом происходит порождение индекса, какие лексические единицы попадают в инвертированные файлы, а какие признаются неинформативными. отмечает [4] следующие особенности подобных систем:

«грамотная» работа со словоформами – с одной стороны, способность ИПС отождествлять разные текстоформы как словоформы одной и той же лексемы, с другой стороны, возможность находить конкретную словоформу поиск слов с заданным или произвольным усечением, как правым, так и левым индексирование полных текстов в полном объеме без исключения работа со словосочетаниями – учет расстояния между элементами словосочетаний и порядка их следования различение больших и малых букв

Таблица 2 – сравнение популярных поисковых систем Интернета

Яндекс	Рамблер	Апорт	Google	AltaVista
Поиск по лемме	+	+	+	_	_
Поиск по словоформе	+	_	+	+	+
Учет синтагм (неразрывных словосочетаний)	+	+	+	+	+
Учет больших и малых букв	+ (в синтагмах)	_	_	_	_
Частота пословная	+	_	_	_	_
Частота подокументная	+	+	+	+	+

Захаров [4] приводит интересную таблицу, описывающую возможности нескольких самых популярных поисковых систем Интернета (Яндекс, Рамблер, Апорт, Google и AltaVista) (таблица 2).

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5

Правила пользования Сайтом
Правила публикации материалов
Политика конфиденциальности и обработки персональных данных

При перепечатке материалов ссылка на pandia.org обязательна.
Минимальная ширина экрана монитора для комфортного просмотра сайта: 1200 пикселей.
Сайт не содержит автоматически сгенерированных данных и не принимает подобные материалы.

Мы признательны за найденные неточности в материалах, опечатки, некорректное отображение элементов на странице - отправляйте на [email protected]

Курсовая работа по специализации «Электронные коллекции в гуманитарной сфере» Конкорданс акцентуированного корпуса современного русского языка (стр. 2 )

Партнерка на США и Канаду по недвижимости, выплаты в крипто

Домашний очаг

Справочная информация

Техника

Общество

Образование и наука

Мир

Бизнес и финансы