2
Получение большего от ваших документов

Коллекции могут быть индивидуализированы таким образом, чтобы разграничить содержащуюся в них информацию различными способами доступа. Настоящая глава описывает, как Greenstone извлекает информацию из документов и представляет ее пользователю: Раздел 2.1 - Обработка документов, Раздел 2.2 - Классификаторы, Разделы 2.3 и 2.4 - инструментальные средства интерфейса пользователя.

2.1 Приложения

Приложения анализируют импортированные документы и извлекают из них метаданные. Например, HTML-приложение конвертирует HTML-страницы в формат архива Greenstone и извлекает метаданные, которые являются явным в формате документа - такие, как заголовки, заключенные тегами <title></ title>.

Приложения написаны на языке Perl. Все они происходят от основного приложения BasPlug, которое выполняет книверсальные операции, такие как создание нового документального архива Greenstone для последующей работы с ним, назначение идентификатора объекта (OID), обработка разделов документа. Приложения хранятся в директории perllib/plugins

Чтобы узнать больше о любом из приложений, напечатайте pluginfo. pl pluginname в области командной строки. (Сначала, вы должны вызвать соответствующий скрипту setup, если вы этого не делали ранее. Если ваша операционная система не настроена на то, чтобы воспринимать файлы с расширением. рl как выполнимые программы на языке Perl, то в Windows вы должны напечатать perl –S pluginfo. pl plugin-name). В результате на экране появится информация об интересующем вас приложении - какие данному приложению требуются специфичные опции и какие общие.

НЕ нашли? Не то? Что вы ищете?

Вы легко можете написать новые приложения для обработки форматов документов, не предусмотренных в существующих приложениях, форматирования документов особыми способами или извлечения из документов новых видов метаданных.

Если вы являетесь пользователем Unix, то вы можете пропустить эту часть и начать с части 2.2. Для пользователей Windows, желающих выполнить "обычную установку" (simple installation), надо знать, что весь программный пакет Greenstone займет около 40 Mb на жестком диске. Если вы выберете другую форму установки, то вам нужно решить, устанавливать ли вам бинарный код или исходный код. Если сомневаетесь, то лучше выберите бинарный код. Процесс установки идентичен для обоих типов. Ниже описаны опции, с которыми вы столкнетесь при выборе типа инсталляции. После завершения инсталляции вы можете сразу же перейти к части 2.3.


Таблица 10 Опции, применяемые для всех приложений

input _encoding 

Кодировка символов исходных документов. Значение по умолчанию должно автоматически решить проблему кодировки для каждого индивидуального документа. Иногда полезно установить это значение, хотя, например, если вы точно знаете, что все ваши документы находятся в ASCII, установка входной кодировки  ascii значительно увеличивает скорость импорта и формирования вашей коллекции. Существует множество допустимых значений. Для получения их полного списка воспользуйтесь pluginfo. pl BasPlug.


default encoding 

Кодировка, которая используется в случае, если для опции input encoding установлено значение auto или обнаружены сбои автоматического кодирования.

process _ехр  Обычное Perl-выражение для согласования имен файлов (например, для определения местонахождения файлов с определенным расширением). Оно указывает на файл, который обрабатывается приложением. Каждое приложение имеет значение по умолчанию (значение по умолчанию HTMLPlug - (? i) .html? - т. е. файл с раширением. htm или. html).


block exp 

Обычное выражение для согласования имен файлов, которые не должны быть переданы последующим приложениям. Это может предотвратить появление сообщений об ошибках в файлах, которыми вы не интересуетесь. Некоторые приложения по умолчанию имеют выражения блокирования значения, например, HTMLPlug блокирует файлы с расширениями. gif. jpg. jpeg. png. rtf и. css

расширениями.


cover _image 

Ищет jpg файл (с таким же именем, что и обрабатываемый файл) и связывает его с документом в качестве обложки.


markup _acronyms 

Добавляет информацию об аббревиатуре в текст документа.


default language

В случае сбоя при автоматическом определении языка метаданные установят это значение.


first 

Извлекает участок текста, заключенный между запятыми, как метаданные FirstNNN (часто используется в качестве замены для Title).

extract_email 

Извлекает адрес электронной почты и добавляет его в качестве метаданных документа


extract_date 

Извлекает из документов даты, касающиеся исторических событий, и добавляет их в качестве метаданных Coverage.



Таблица 11 Приложения Greenstone

Режим

Плагин

Цель

Типы файлов

Игнорируемые файлы

Общие

ArcPlug

Обработка файлов указанных в файле archives. inf которые используются для  связи процессов импорта и формирования. Должен быть включен(если import. pl не будет использоваться).

RecPlug

Обращаясь через директивную структуру, проверяет, является ли имя файла директорией, и если является, то все файлы этой директории встраиваются внутрь конвейерного приложения. Назначает метаданные если установлена опция use_metadata_files и присутствуют файлы metadata. xml.

GAPlug

Обрабатывает сгенерированные import. plфайлы архива Greenstone. Должен быть включен (если import. pl не будет использован).

.xml

TEXTPlug

Обрабатывает текст, помещая его между тэгами

(предформатная обработка).

.txt, .text

HTMLPlug

Обрабатывает HTML, соответственно перемещая гиперссылки. Если связанная с документом страница находится вне коллекции, то вставляется промежуточная страница, предупреждающая пользователя о том, что при переходе по ссылке он покинет коллекцию. Извлекает подготовленные для доступа метаданные такие как Title


.htm, .html, .cgi, .php, .asp, .shm, .shtml

.gif, .jpeg, .jpg, .png, .css, .rtf

WordPlug

Обрабатывает документы Microsoft Word, извлекает данные об авторе и заголовке и сохраняет диаграммы и изображения в надлежащих местах.
Конверсионные утилиты, используемые этим приложением, иногда создают HTML, который плохо отформатирован. Мы рекомендуем, чтобы для просмотра Вы предоставляли оригиналы документа,
если формируете свою коллекцию из файлов WORD. Текст, который извлекается из докумета, является
адекватным для поиска и целевого индексирования.

.doc

.gif, .jpeg, .jpg, .png, .css, .rtf

PSPlug


Обработка документов PostScript,
производится извлечение
метаданных: даты, заголовка и
номера страниц.

.ps


.eps


EMAILPlug


Обработка E-mail сообщений путем распознания автора, темы, даты и т. д. Данное приложение пока не обрабатывает должным образом сообщения в кодировке MIME - зачастую они выглядят несколько странно.

Must end in

digits or digits

followed by

.Email


BibTexPlug

Обработка файлов библиографии в
формате BibText

.bib

ReferPlug

Обработка файлов библиографии в
формате refer

.bib

SRCPlug


Обработка исходных программ

Makefile,

Readme

.cc, .cpp, .h,

.hpp, .pl, .pm,

.sh


.o, .obj, .a, , .c, .so, .dll

ImagePlug


Обработка файлов изображений для создания библиотеки изображений. Работает только в UNIX.

.jpeg, .jpg,

.gif, .png,

.bmp, .xbm,

.tif, .tiff


SplitPlug


Подобно BasPlug и ConvertToPlug, данное приложение не может быть вызвано непосредственно, однако оно может последовать за byplugins в случае, если требуется обработка файла, содержащего несколько документов.



FOXPlug


Обработка файлов dbt FoxBASE


.dbt, .dbf



ZIPPlug

Разархивация gzip, bzip, zip и tar файлов, если доступны соответствующие средства GNU.

.gzip, .bzip,

.zip, .tar, .gz,

.bz, .tgz, .taz


Особенности
коллекции

PrePlug


Обработка конечной HTML, используя PRESCRIPT, разбиение документов на страницах коллекции Computer Science Technical Reports.

.html, .html. gz



GBPlug


Обработка E-text (электронного текста) Project Gutenberg (Проекта Гутенберг), включающая ручной ввод информации о заголовках.

.txt. gz, .html,

.htm


TCCPlug


Обработка E-mail документов,
поступивших от еженедельника
Computists’ Weekly

Обязана начинаться с tcc или cw


Общие опции

В Таблице 10 приведены опции, принимаемые любым приложеним, полученным от BasPlug.

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21