2
Получение большего от ваших документов
Коллекции могут быть индивидуализированы таким образом, чтобы разграничить содержащуюся в них информацию различными способами доступа. Настоящая глава описывает, как Greenstone извлекает информацию из документов и представляет ее пользователю: Раздел 2.1 - Обработка документов, Раздел 2.2 - Классификаторы, Разделы 2.3 и 2.4 - инструментальные средства интерфейса пользователя.
2.1 ПриложенияПриложения анализируют импортированные документы и извлекают из них метаданные. Например, HTML-приложение конвертирует HTML-страницы в формат архива Greenstone и извлекает метаданные, которые являются явным в формате документа - такие, как заголовки, заключенные тегами <title></ title>.
Приложения написаны на языке Perl. Все они происходят от основного приложения BasPlug, которое выполняет книверсальные операции, такие как создание нового документального архива Greenstone для последующей работы с ним, назначение идентификатора объекта (OID), обработка разделов документа. Приложения хранятся в директории perllib/plugins
Чтобы узнать больше о любом из приложений, напечатайте pluginfo. pl pluginname в области командной строки. (Сначала, вы должны вызвать соответствующий скрипту setup, если вы этого не делали ранее. Если ваша операционная система не настроена на то, чтобы воспринимать файлы с расширением. рl как выполнимые программы на языке Perl, то в Windows вы должны напечатать perl –S pluginfo. pl plugin-name). В результате на экране появится информация об интересующем вас приложении - какие данному приложению требуются специфичные опции и какие общие.
Вы легко можете написать новые приложения для обработки форматов документов, не предусмотренных в существующих приложениях, форматирования документов особыми способами или извлечения из документов новых видов метаданных.
Если вы являетесь пользователем Unix, то вы можете пропустить эту часть и начать с части 2.2. Для пользователей Windows, желающих выполнить "обычную установку" (simple installation), надо знать, что весь программный пакет Greenstone займет около 40 Mb на жестком диске. Если вы выберете другую форму установки, то вам нужно решить, устанавливать ли вам бинарный код или исходный код. Если сомневаетесь, то лучше выберите бинарный код. Процесс установки идентичен для обоих типов. Ниже описаны опции, с которыми вы столкнетесь при выборе типа инсталляции. После завершения инсталляции вы можете сразу же перейти к части 2.3.
Таблица 10 Опции, применяемые для всех приложений | |
input _encoding | Кодировка символов исходных документов. Значение по умолчанию должно автоматически решить проблему кодировки для каждого индивидуального документа. Иногда полезно установить это значение, хотя, например, если вы точно знаете, что все ваши документы находятся в ASCII, установка входной кодировки ascii значительно увеличивает скорость импорта и формирования вашей коллекции. Существует множество допустимых значений. Для получения их полного списка воспользуйтесь pluginfo. pl BasPlug. |
default encoding | Кодировка, которая используется в случае, если для опции input encoding установлено значение auto или обнаружены сбои автоматического кодирования. process _ехр Обычное Perl-выражение для согласования имен файлов (например, для определения местонахождения файлов с определенным расширением). Оно указывает на файл, который обрабатывается приложением. Каждое приложение имеет значение по умолчанию (значение по умолчанию HTMLPlug - (? i) .html? - т. е. файл с раширением. htm или. html). |
block exp | Обычное выражение для согласования имен файлов, которые не должны быть переданы последующим приложениям. Это может предотвратить появление сообщений об ошибках в файлах, которыми вы не интересуетесь. Некоторые приложения по умолчанию имеют выражения блокирования значения, например, HTMLPlug блокирует файлы с расширениями. gif. jpg. jpeg. png. rtf и. css расширениями. |
cover _image | Ищет jpg файл (с таким же именем, что и обрабатываемый файл) и связывает его с документом в качестве обложки. |
markup _acronyms | Добавляет информацию об аббревиатуре в текст документа. |
default language | В случае сбоя при автоматическом определении языка метаданные установят это значение. |
first | Извлекает участок текста, заключенный между запятыми, как метаданные FirstNNN (часто используется в качестве замены для Title). |
extract_email | Извлекает адрес электронной почты и добавляет его в качестве метаданных документа |
extract_date | Извлекает из документов даты, касающиеся исторических событий, и добавляет их в качестве метаданных Coverage. |
Таблица 11 Приложения Greenstone
Режим | Плагин | Цель | Типы файлов | Игнорируемые файлы |
Общие | ArcPlug | Обработка файлов указанных в файле archives. inf которые используются для связи процессов импорта и формирования. Должен быть включен(если import. pl не будет использоваться). | — | — |
RecPlug | Обращаясь через директивную структуру, проверяет, является ли имя файла директорией, и если является, то все файлы этой директории встраиваются внутрь конвейерного приложения. Назначает метаданные если установлена опция use_metadata_files и присутствуют файлы metadata. xml. | — | — | |
GAPlug | Обрабатывает сгенерированные import. plфайлы архива Greenstone. Должен быть включен (если import. pl не будет использован). | .xml | — | |
TEXTPlug | Обрабатывает текст, помещая его между тэгами (предформатная обработка). | .txt, .text | — | |
HTMLPlug | Обрабатывает HTML, соответственно перемещая гиперссылки. Если связанная с документом страница находится вне коллекции, то вставляется промежуточная страница, предупреждающая пользователя о том, что при переходе по ссылке он покинет коллекцию. Извлекает подготовленные для доступа метаданные такие как Title | .htm, .html, .cgi, .php, .asp, .shm, .shtml | .gif, .jpeg, .jpg, .png, .css, .rtf | |
WordPlug | Обрабатывает документы Microsoft Word, извлекает данные об авторе и заголовке и сохраняет диаграммы и изображения в надлежащих местах. | .doc | .gif, .jpeg, .jpg, .png, .css, .rtf | |
PSPlug | Обработка документов PostScript, | .ps | .eps | |
EMAILPlug | Обработка E-mail сообщений путем распознания автора, темы, даты и т. д. Данное приложение пока не обрабатывает должным образом сообщения в кодировке MIME - зачастую они выглядят несколько странно. | Must end in digits or digits followed by | — | |
BibTexPlug | Обработка файлов библиографии в | .bib | — | |
ReferPlug | Обработка файлов библиографии в | .bib | — | |
SRCPlug | Обработка исходных программ | Makefile, Readme .cc, .cpp, .h, .hpp, .pl, .pm, .sh | .o, .obj, .a, , .c, .so, .dll | |
ImagePlug | Обработка файлов изображений для создания библиотеки изображений. Работает только в UNIX. | .jpeg, .jpg, .gif, .png, .bmp, .xbm, .tif, .tiff | — | |
SplitPlug | Подобно BasPlug и ConvertToPlug, данное приложение не может быть вызвано непосредственно, однако оно может последовать за byplugins в случае, если требуется обработка файла, содержащего несколько документов. | — | — | |
FOXPlug | Обработка файлов dbt FoxBASE | .dbt, .dbf | — | |
ZIPPlug | Разархивация gzip, bzip, zip и tar файлов, если доступны соответствующие средства GNU. | .gzip, .bzip, .zip, .tar, .gz, .bz, .tgz, .taz | — | |
Особенности | PrePlug | Обработка конечной HTML, используя PRESCRIPT, разбиение документов на страницах коллекции Computer Science Technical Reports. | .html, .html. gz | — |
GBPlug | Обработка E-text (электронного текста) Project Gutenberg (Проекта Гутенберг), включающая ручной ввод информации о заголовках. | .txt. gz, .html, .htm | — | |
TCCPlug | Обработка E-mail документов, | Обязана начинаться с tcc или cw | — |
В Таблице 10 приведены опции, принимаемые любым приложеним, полученным от BasPlug.
|
Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 |


