происхождение и состав текста (автор должен быть урожденным носителем американского варианта английского языка, диалог должен был занимать менее половины объема текста) синхронизация (включены тексты, впервые изданные в 1961 году) продуманное соотношение численной представленности различных жанров и отбор отдельных текстов при помощи особой вероятностной процедуры доступность для компьютерной обработки (специальные пометы для передачи особенностей текста и т. д.)

Брауновский Корпус стал эталонным для построения аналогичных корпусов в других странах, задав стандарт в 1 млн. слов. Позже было обнаружено, что подобный стандарт не является удовлетворительным. При использовании статистических методов можно было говорить об адекватном отражении действительности только при наличии репрезентативной выборки и внушительного объема текстов. Так созданный по принципу Брауновского Упсальский Корпус (Университет Упсалы, Швеция), объем которого составлял так же примерно 1 млн. слов, оказался достаточно ограничен в отношении представленности в нем достаточного числа жанров.

Таблица 1 – Самые важные корпуса текстов

Название

Год

Количество словоупотреблений

Язык

1

BUC

1964

1 000 000

Англ.(USA) печатный

2

AHI

1971

5 000 000

Англ.(USA) печатный

3

LOB

1978

1 000 000

Англ.(G. B) печатный

4

Birmingem corpus

1987

20 000 000

Англ.(G. B) печатный

5

Kolhapur corpus

1988

1 000 000

Aнгл.(Индийский)

6

TOSCA

1988

1.5 000 000

Англ.(G. B) печатный

7

SEU Corpus

1989

1 000 000

Англ.(G. B) печатный

8

CHILDES

1990

20 000 000

Aнгл.(детский) устный

9

Nijmengen

1991

132 000 000

Англ.(G. B) печатный, устный

10

LLELC

1991

50 000 000

Англ. печатный, устный

11

Map Task Corpus

1991

147 000 000

Англ.(Scotland) устный

12

LCLE

1992

10 000 000

Англ. печатный (для иностранцев)

13

SEC

1992

53 000 000

Англ.(G. B) устный

14

Wellington Corpus

1993

1 000 000

Англ.(Новозеланд.) печатный

15

POW

1993

65 000 000

Англ.(детский) устный

16

BNC

1995

100 000 000

Англ.(G. B) устный, письменный, печатный

17

Corpus of Spoken

1991

2 000 000

Англ.(USA) устный

18

ICLE

1997

200 000 000

Англ. письменный (для иностранцев)

19

Bank of English

1997

320 000 000

Англ.(G. B) печатный

По мере роста мощностей компьютеров появилась возможность создания более объемных и представительных корпусов. В Великобритании появился проект Банк Английского (Bank of English) и Британский национальный корпус (BNC), который изменил стандарт репрезентативности корпуса до 100 млн. слов, включения в корпус полных текстов и образцов устной речи, добавления частеречной разметки и возможности доступа через Интернет.

НЕ нашли? Не то? Что вы ищете?

По принципам Британского были созданы Национальные корпуса многих европейских языков (испанский, итальянский, хорватский). В Чехии, например, был создан Чешский национальный корпус, включавший 100 млн. словоформ и открытый для всеобщего доступа в 2000 году.   приводит таблицу [1] с информацией о самых важных корпусах текста в мире (таблица 1).

1.3 Репрезентативность корпуса

Очень важной оказывается проблема репрезентативности корпуса. Корпус должен не только отражать все разнообразие изучаемого явления, но адекватно определять место этого явления в жизни носителей данного языка.

Можно выделить следующие критерии отбора текста в корпус и оценки его репрезентативности:

    корпусы текстов, стремящиеся отразить объективную речевую действительность во всем ее многообразии корпусы текстов, созданные с некой конкретной, интересующей исследователя целью (корпус пословиц русского языка)

Корпусные лингвисты [3] считают, что репрезентативным можно назвать корпус в «10-20 млн. словоупотреблений» при условии определенным образом организованного отбора текстов. Они также отмечают, то важным фактор здесь является и то, что корпус «должен быть определенным образом сбалансирован по жанрам» [3], то есть должны быть широко представлены художественные, драматические, поэтические и т. д. тексты.

1.4 Национальный корпус русского языка

Национальный корпус представляет отражает все многообразие конкретного языка, его стили, жанры, диалекты и т. д. Он может использоваться как для научных исследований, для выявления тонкостей морфологии, грамматики  или для составления справок о той или иной области, литературоведческий изысканий, для нужд педагогики.

Как говорит , «Особенно насущной становится необходимость в Национальном корпусе в условиях, когда российское общество ищет опору в решении проблемы идентичности, что невозможно вне контекста языка – фундамента любой культуры. Чрезвычайно важны и проблемы, связанные с поддержанием русского языка в странах СНГ и в русской диаспоре дальнего зарубежья; решение этих проблем также должно опираться на постоянный мониторинг языкового существования в соответствующих ареалах в соотнесенности с «языковой метрополией», что также невозможно без специальной службы, ориентирующейся на материалы Национального корпуса русского языка».

2 Конкордансы  и конкордансеры

Словарь-конкорданс имеет довольно простое устройство. На вход пользователь подает словоформу, имея возможность задать и определенные дополнительные критерии поиска. На выходе система поиска по такому словарю – конкордансер –  выдает фиксированного размера контексты употребления искомой словоформы.

При современном развитии вычислительной техники стали доступны довольно сложные и быстрые программы обработки большого объема текстового материала. В некоторых лингвистических работах [4] такое современное понятие, как Интернет, предлагается рассматривать как обширный корпус, обладающий уже необходимыми свойствами. По своей природе все тексты в Интернете представлены в электронном виде, таким образом, нет необходимости использовать сканер и последующую трудоемкую обработку. К тому же Интернет в форме всевозможных форумов, чатов и электронной почты решает проблему обычной для стандартного корпуса недостаточной представленности разговорной речи. А роль конкордансеров здесь играют различные информационно-поисковые системы (ИПС), в состав которых входят программы-роботы, сканирующие Интернет в поисках новой информации и поддерживающие старую в актуальном состоянии, индекс, представляющий собой построенную по определенным правилам базу данных для создания хорошо организованной структуры представления текстовой информации, и, наконец, непосредственно поисковая система, работающая с запросами пользователей. Индексы таких систем воспринимаются как конкордансы к текстам, так как они включают в себя инвертированные файлы, в которых содержатся взятые из текста лексические единицы с соответствующей информацией об их местоположении в исходном тексте и дополнительными сведениями. С точки зрения лингвистики, интересным кажется вопрос о том, каким образом происходит порождение индекса, какие лексические единицы попадают в инвертированные файлы, а какие признаются неинформативными. отмечает [4] следующие особенности подобных систем:

    «грамотная» работа со словоформами – с одной стороны, способность ИПС отождествлять разные текстоформы как словоформы одной и той же лексемы, с другой стороны, возможность находить конкретную словоформу поиск слов с заданным или произвольным усечением, как правым, так и левым индексирование полных текстов в полном объеме без исключения работа со словосочетаниями – учет расстояния между элементами словосочетаний и порядка их следования различение больших и малых букв

Таблица 2 – сравнение популярных поисковых систем Интернета

Яндекс

Рамблер

Апорт

Google

AltaVista

Поиск по лемме


+

+

+

_

_

Поиск по словоформе

+

_

+

+

+

Учет синтагм (неразрывных словосочетаний)

+

+

+

+

+

Учет больших и малых букв

+

синтагмах)

_

_

_

_

Частота пословная

+

_

_

_

_

Частота подокументная

+

+

+

+

+

Захаров [4] приводит интересную таблицу, описывающую возможности нескольких самых популярных поисковых систем Интернета (Яндекс, Рамблер, Апорт, Google и AltaVista) (таблица 2).

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5