- происхождение и состав текста (автор должен быть урожденным носителем американского варианта английского языка, диалог должен был занимать менее половины объема текста) синхронизация (включены тексты, впервые изданные в 1961 году) продуманное соотношение численной представленности различных жанров и отбор отдельных текстов при помощи особой вероятностной процедуры доступность для компьютерной обработки (специальные пометы для передачи особенностей текста и т. д.)
Брауновский Корпус стал эталонным для построения аналогичных корпусов в других странах, задав стандарт в 1 млн. слов. Позже было обнаружено, что подобный стандарт не является удовлетворительным. При использовании статистических методов можно было говорить об адекватном отражении действительности только при наличии репрезентативной выборки и внушительного объема текстов. Так созданный по принципу Брауновского Упсальский Корпус (Университет Упсалы, Швеция), объем которого составлял так же примерно 1 млн. слов, оказался достаточно ограничен в отношении представленности в нем достаточного числа жанров.
Таблица 1 – Самые важные корпуса текстов
№ | Название | Год | Количество словоупотреблений | Язык |
1 | BUC | 1964 | 1 000 000 | Англ.(USA) печатный |
2 | AHI | 1971 | 5 000 000 | Англ.(USA) печатный |
3 | LOB | 1978 | 1 000 000 | Англ.(G. B) печатный |
4 | Birmingem corpus | 1987 | 20 000 000 | Англ.(G. B) печатный |
5 | Kolhapur corpus | 1988 | 1 000 000 | Aнгл.(Индийский) |
6 | TOSCA | 1988 | 1.5 000 000 | Англ.(G. B) печатный |
7 | SEU Corpus | 1989 | 1 000 000 | Англ.(G. B) печатный |
8 | CHILDES | 1990 | 20 000 000 | Aнгл.(детский) устный |
9 | Nijmengen | 1991 | 132 000 000 | Англ.(G. B) печатный, устный |
10 | LLELC | 1991 | 50 000 000 | Англ. печатный, устный |
11 | Map Task Corpus | 1991 | 147 000 000 | Англ.(Scotland) устный |
12 | LCLE | 1992 | 10 000 000 | Англ. печатный (для иностранцев) |
13 | SEC | 1992 | 53 000 000 | Англ.(G. B) устный |
14 | Wellington Corpus | 1993 | 1 000 000 | Англ.(Новозеланд.) печатный |
15 | POW | 1993 | 65 000 000 | Англ.(детский) устный |
16 | BNC | 1995 | 100 000 000 | Англ.(G. B) устный, письменный, печатный |
17 | Corpus of Spoken | 1991 | 2 000 000 | Англ.(USA) устный |
18 | ICLE | 1997 | 200 000 000 | Англ. письменный (для иностранцев) |
19 | Bank of English | 1997 | 320 000 000 | Англ.(G. B) печатный |
По мере роста мощностей компьютеров появилась возможность создания более объемных и представительных корпусов. В Великобритании появился проект Банк Английского (Bank of English) и Британский национальный корпус (BNC), который изменил стандарт репрезентативности корпуса до 100 млн. слов, включения в корпус полных текстов и образцов устной речи, добавления частеречной разметки и возможности доступа через Интернет.
По принципам Британского были созданы Национальные корпуса многих европейских языков (испанский, итальянский, хорватский). В Чехии, например, был создан Чешский национальный корпус, включавший 100 млн. словоформ и открытый для всеобщего доступа в 2000 году. приводит таблицу [1] с информацией о самых важных корпусах текста в мире (таблица 1).
1.3 Репрезентативность корпусаОчень важной оказывается проблема репрезентативности корпуса. Корпус должен не только отражать все разнообразие изучаемого явления, но адекватно определять место этого явления в жизни носителей данного языка.
Можно выделить следующие критерии отбора текста в корпус и оценки его репрезентативности:
- корпусы текстов, стремящиеся отразить объективную речевую действительность во всем ее многообразии корпусы текстов, созданные с некой конкретной, интересующей исследователя целью (корпус пословиц русского языка)
Корпусные лингвисты [3] считают, что репрезентативным можно назвать корпус в «10-20 млн. словоупотреблений» при условии определенным образом организованного отбора текстов. Они также отмечают, то важным фактор здесь является и то, что корпус «должен быть определенным образом сбалансирован по жанрам» [3], то есть должны быть широко представлены художественные, драматические, поэтические и т. д. тексты.
1.4 Национальный корпус русского языкаНациональный корпус представляет отражает все многообразие конкретного языка, его стили, жанры, диалекты и т. д. Он может использоваться как для научных исследований, для выявления тонкостей морфологии, грамматики или для составления справок о той или иной области, литературоведческий изысканий, для нужд педагогики.
Как говорит , «Особенно насущной становится необходимость в Национальном корпусе в условиях, когда российское общество ищет опору в решении проблемы идентичности, что невозможно вне контекста языка – фундамента любой культуры. Чрезвычайно важны и проблемы, связанные с поддержанием русского языка в странах СНГ и в русской диаспоре дальнего зарубежья; решение этих проблем также должно опираться на постоянный мониторинг языкового существования в соответствующих ареалах в соотнесенности с «языковой метрополией», что также невозможно без специальной службы, ориентирующейся на материалы Национального корпуса русского языка».
2 Конкордансы и конкордансерыСловарь-конкорданс имеет довольно простое устройство. На вход пользователь подает словоформу, имея возможность задать и определенные дополнительные критерии поиска. На выходе система поиска по такому словарю – конкордансер – выдает фиксированного размера контексты употребления искомой словоформы.
При современном развитии вычислительной техники стали доступны довольно сложные и быстрые программы обработки большого объема текстового материала. В некоторых лингвистических работах [4] такое современное понятие, как Интернет, предлагается рассматривать как обширный корпус, обладающий уже необходимыми свойствами. По своей природе все тексты в Интернете представлены в электронном виде, таким образом, нет необходимости использовать сканер и последующую трудоемкую обработку. К тому же Интернет в форме всевозможных форумов, чатов и электронной почты решает проблему обычной для стандартного корпуса недостаточной представленности разговорной речи. А роль конкордансеров здесь играют различные информационно-поисковые системы (ИПС), в состав которых входят программы-роботы, сканирующие Интернет в поисках новой информации и поддерживающие старую в актуальном состоянии, индекс, представляющий собой построенную по определенным правилам базу данных для создания хорошо организованной структуры представления текстовой информации, и, наконец, непосредственно поисковая система, работающая с запросами пользователей. Индексы таких систем воспринимаются как конкордансы к текстам, так как они включают в себя инвертированные файлы, в которых содержатся взятые из текста лексические единицы с соответствующей информацией об их местоположении в исходном тексте и дополнительными сведениями. С точки зрения лингвистики, интересным кажется вопрос о том, каким образом происходит порождение индекса, какие лексические единицы попадают в инвертированные файлы, а какие признаются неинформативными. отмечает [4] следующие особенности подобных систем:
- «грамотная» работа со словоформами – с одной стороны, способность ИПС отождествлять разные текстоформы как словоформы одной и той же лексемы, с другой стороны, возможность находить конкретную словоформу поиск слов с заданным или произвольным усечением, как правым, так и левым индексирование полных текстов в полном объеме без исключения работа со словосочетаниями – учет расстояния между элементами словосочетаний и порядка их следования различение больших и малых букв
Таблица 2 – сравнение популярных поисковых систем Интернета
Яндекс | Рамблер | Апорт | AltaVista | ||
Поиск по лемме | + | + | + | _ | _ |
Поиск по словоформе | + | _ | + | + | + |
Учет синтагм (неразрывных словосочетаний) | + | + | + | + | + |
Учет больших и малых букв | + (в синтагмах) | _ | _ | _ | _ |
Частота пословная | + | _ | _ | _ | _ |
Частота подокументная | + | + | + | + | + |
Захаров [4] приводит интересную таблицу, описывающую возможности нескольких самых популярных поисковых систем Интернета (Яндекс, Рамблер, Апорт, Google и AltaVista) (таблица 2).
|
Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 |


