Методические рекомендации для подготовки

к практическому занятию (28 апреля)

Анализ принципов построения и пользовательского интерфейса основных корпусов русского и изучаемого языков. Решение лингвистических задач.

Задание № 1.

Ответьте на следующие вопросы касательно принципов построения и функционирования Национального корпуса русского языка (http://*****):

1. Является ли данный корпус представительным?

2. По каким параметрам описываются тексты, включенные в корпус (в плане информации об авторе, информации об аудитории, библиографических данных и служебной информации)?

3. Как осуществляются основные операции с текстами корпуса (просмотр, поиск, работа с результатами поиска)?

4. По каким параметрам можно вести поиск в корпусе?

5. Предусмотрены ли в корпусе ключевые типы разметки (морфологическая, синтаксическая, семантическая, дискурсивная и прагматическая разметка)?

6. Можно ли оценить пользовательский интерфейс программы как интуитивно понятный?

7. Чем отличается от общего корпуса его раздел «Параллельный корпус»?

Задание № 2.

Ответьте на вопросы, перечисленные в задании № 1, применительно к одному из следующих корпусов:

- Британского национального корпуса (для изучающих английский язык) – http://www. natcorp. ox. ac. uk;

- Открытого корпуса DWDS (для изучающих немецкий язык) – http://www. dwds. de.

Задание № 3.

Решите следующие лингвистические задачи с использованием Национального корпуса русского языка:

1. Определите, насколько совместное употребление пары слов «тюремная» и «роба» далеко от случайного, вычислив критерий взаимной информации по формулам

; , где

- число употреблений слова в корпусе, - число случаев, где они употреблены вместе, N – число слов в корпусе, - относительная частота случаев, когда слова встречаются вместе, - ожидаемая частота случайного распределения.

Выполните аналогичную операцию для сочетания слов «часть речи». Сделайте соответствующие выводы.

2. Изучите, как соотносится употребление омонимов «благодаря» (деепричастия и производного предлога) в основном корпусе.