w Элемент fileDesc источника переносится в элемент sourceDesc/biblFull нового документа (я использую нотацию XPath для адресации элементов).
w Элемент profileDesc переносится в profileDesc без изменений.
w Элемент encodingDesc, как правило, создаётся заново, поскольку принципы разметки нового документа и документа-источника, скорее всего, существенно различаются.
w Элемент revisionDesc может быть как абсолютно новым (собственно, создан новый документ), так и содержать часть информации из элемента исходного документа TEI. В последнем случае необходимо чётко выделить то, к какому именно документу относится приводимая информация (даты, редакции и т. п.).
Описание кодирования
Описание кодирования – элемент encodingDesc – предназначен для передачи принципов и способов преобразования документа-источника в документ TEI. Этот элемент может содержать объявления некоторых обозначений (кодов), используемых в других местах заголовка TEI.
Объявление описания кодирования в TEI Light имеет вид:
<!ELEMENT encodingDesc
(projectDesc*, samplingDecl*, editorialDecl*, tagsDecl?,
refsDecl*, classDecl*, p*)
>
Содержимым этого элемента может быть проза (абзац p), либо (предпочтительнее) структурированный перечень спецификаций процесса кодирования: описания проекта (projectDesc), методики отбора источников (samplingDecl), принципов редактирования (editorialDecl), собственно разметки (tagsDecl), разработанной ссылочной структуры (refsDecl), использованных классификаций/таксономий (classDecl).
В полной DTD TEI в описание кодирования можно добавить описания: системы черт (когда недостаточно классификаций/таксономий), метрической структуры текста, использованных вариантов кодирования.
Описание проекта
Описание проекта содержит описание цели создания электронного документа, а также процесса его создания. Описание проекта особенно важно при работе с корпусами текстов.
<!ELEMENT projectDesc (p)+ >
Пример:
<projectDesc>
<p>Документ предназначен для...</p>
</projectDesc>
Методика отбора
Так же, как и описание проекта, содержит прозу, описывающую принципы отбора текста (или фрагмента текста), использованного для разметки:
<!ELEMENT samplingDecl (p)+ >
Элемент важен для корпусов текстов.
Принципы редактирования
В TEI Light этот элемент содержит прозу:
<!ELEMENT editorialDecl (p)+ >
В полной DTD TEI этот элемент может иметь структуру, описывающую отдельные составляющие процесса редактирования (нормализацию, исправления, использование кавычек, переносы и пр.).
Разметка
Элемент tagsDecl используется для передачи следующей информации о разметке:
w Количестве тех или иных элементов в документе TEI – для проверки целостности разметки.
w Описания особенностей использования того или иного элемента, если для такого описания не нашлось места в другом элементе заголовка TEI.
w Объявления методов визуализации элементов, используемых по умолчанию (при отсутствии атрибута rend в элементе).
Структура tagsDecl проста:
<!ELEMENT tagsDecl (rendition*, tagUsage*) >
<!ELEMENT rendition %prose; >
<!ELEMENT tagUsage %prose; >
Каждый элемент в последовательности элементов rendition должен иметь атрибут id (естественно, с различными значениями) – чтобы на них можно было бы ссылаться в основном тексте. Последовательность элементов tagUsage состоит из большого количества элементов – по одному на каждый элемент, встречающийся в самом внешнем элементе text (следующем непосредственно за teiHeader), – таково требование стандарта.
Элемент tagUsage имеет следующие атрибуты (помимо глобальных):
Имя атрибута | Тип значения атрибута | Описание |
gi | CDATA #REQUIRED | Имя элемента (из используемого DTD), к которому относится данный элемент tagUsage («описываемый элемент») |
occurs | CDATA #IMPLIED | Количество появлений описываемого элемента в разметке текста |
ident | CDATA #IMPLIED | Количество появлений описываемого элемента в разметке текста, имеющих атрибут id (естественно, каждый раз с различными значениями) |
render | IDREF #IMPLIED | Идентификатор элемента rendition, который должен использоваться по умолчанию при визуализации описываемого элемента |
Атрибуты элемента tagUsage предназначены для их автоматической обработки, а его содержимое – нет.
Ссылочная структура
TEI, как и TEI Light, позволяет создавать при помощи разметки различные ссылочные структуры. Под ссылочной структурой в TEI имеется в виду система имён (ссылок), связанных с конкретными частями текста (например, «Пс. 23:3» для третьего стиха Псалма 23, или «Amores 2.10.7» для строки 7 поэмы 10 книги второй сочинения «Amores» Овидия). Подобные имена позволяют маркировать некоторое место в тексте с тем, чтобы затем это место можно было бы найти. Ссылочная структура может базироваться на естественных структурных элементах текста (главах, абзацах, предложениях, строфах, стихах и т. п.) или на разделах текста, созданных специально для ссылок (как, например, главы и номера стихов в Библии). Если такая структура есть в тексте источника электронного документа, её следует сохранять и в документе TEI – хотя бы для облегчения сравнения документа TEI и оригинала текста.
Ссылочная структура в документе TEI может быть создана различными средствами:
w Если в исходном документе уже присутствует ссылочная структура, то для её воспроизведения можно воспользоваться значениями атрибутов id и/или n (или комбинациями значений таких атрибутов из набора вложенных элементов). Этот же подход можно использовать, если исходная ссылочная структура отсутствует.
w Если исходная ссылочная структура не связана с логической структурой текста, а базируется, например, на номерах страниц, то можно воспользоваться многочисленными методиками создания параллельных иерархий в TEI, например, с помощью элементов маркировки milestone. Этот же подход можно использовать, если имеющаяся в источнике ссылочная структура по каким-то причинам не интересует исследователя, выполняющего разметку, а необходимо создание иной ссылочной структуры.
В любом случае – даже если ссылочная структура в исходном документе отсутствует и/или ссылочные структуры по каким-то причинам неважны, или используется ссылочная структура, не связанная с номерами страниц, – руководство TEI рекомендует размечать разрывы страниц.
Ссылочные структуры, используемые в данном документе, описываются в элементе refsDecl. Каждой отдельной используемой ссылочной структуре должен соответствовать один элемент refsDecl.
TEI Light допускает только одну форму этого элемента – прозу:
<!ELEMENT refsDecl (p)+ >
Полная спецификация TEI позволяет использовать более формализованное описание ссылочных структур.
Элемент имеет один дополнительный атрибут (помимо глобальных):
Имя атрибута | Тип значения атрибута | Описание |
doctype | CDATA "TEI.2" | Имя элемента, к которому относится описываемая ссылочная структура (отличие от значения TEI.2, т. е. от всего документа, считается экспериментальным). |
В TEI Light описание ссылочной структуры – обычный текст, который не может обрабатываться автоматически, например:
<refsDecl>
<p>Атрибут n каждого текста настоящего корпуса содержит
уникальный идентификационный код для текста как целого.
Заглавие текста помещено в первый элемент head внутри каждого
текста. Атрибут n каждого раздела div1 и div2 содержит
каноническую ссылку на данный раздел в форме 'XX. yyy', где
XX - номер книги (римскими цифрами), а
ууу – номер раздела (арабскими цифрами).
Все разрывы строк отмечены пустым элементом lb,
который в качестве значения атрибута n использует порядковый
номер строки по изданию Casaubon
</p>
<p>Порядковый номер строки и идентификатор текста совместно
являются уникальным идентификатором строки.
Каноническая ссылка образуется конкатенаций значений атрибута n
элементов text, div1 или div2, и вычислением номера строки
в каждой части текста.
</p>
</refsDecl>
Одна и та же ссылочная структура, используемая в различных частях текста, не должна описываться дважды. Элемент, использующий ссылочную структуру (text, front, body, div*, back) должен содержать ссылку на id этой структуры в качестве значения атрибута decls.
Классификации
Элемент classDecl предназначен для группировки объявлений или описания источников применяемых классификационных схем. Каждая из таких схем представлена одним элементом taxonomy. Элемент taxonomy может содержать (библиографическую) ссылку на описание классификационной схемы, либо (возможно, совместно с такой ссылкой) явное объявление используемой типологии (вложенные элементы category):
<!ELEMENT classDecl (taxonomy)+ >
<!ELEMENT taxonomy (category+ | ((bibl | biblFull), category*)) >
<!ELEMENT category (catDesc, category*) >
<!ELEMENT catDesc ( %proseGeneral; ) * >
Собственно описание категории (рубрики) находится в элементе catDesc.
Примеры:
1. Ссылка на классификацию Дьюи.
<taxonomy id="ddc12">
<bibl>
<title>Dewey Decimal Classification</title>
<edition>Abridged Edition 12</edition>
</bibl>
</taxonomy>
2. Классификация, используемая в корпусе Брауна.
<taxonomy id="b">
<bibl>Brown Corpus</bibl>
<category id="b. a">
<catDesc>Press Reportage</catDesc>
<category id="b. a1"><catDesc>Daily</catDesc></category>
<category id="b. a2"><catDesc>Sunday</catDesc></category>
<category id="b. a3"><catDesc>National</catDesc></category>
<category id="b. a4"><catDesc>Provincial</catDesc></category>
<category id="b. a5"><catDesc>Political</catDesc></category>
<category id="b. a6"><catDesc>Sports</catDesc></category>
<!-- ... -->
</category>
<category id="b. d"><catDesc>Religion</catDesc>
<category id="b. d1"><catDesc>Books</catDesc></category>
<category id="b. d2">
<catDesc>Periodicals and tracts</catDesc>
</category>
</category>
<!-- ... -->
</taxonomy>
Связь текста с используемой классификацией осуществляется с помощью элемента /TEI.2/teiHeader/profileDesc/textClass/catRef (см. ниже). Если используемая классификация допускает приписывание множественных рубрик, то они указываются как список (IDREFS), например (для корпуса Брауна):
<catRef target="b. a1 b. a3 b. a5"/>
Параметры текста
Элемент profileDesc – третий (необязательный) элемент заголовка TEI, служит для передачи важных характеристик текста, для которых не нашлось подходящих элементов в предыдущих двух – описании файла (fileDesc) и описании кодирования (encodingDesc). В параметры текста должна попадать та информация, которая обычно не укладывается в стандартное библиографическое описание.
Структура параметров текста – последовательность необязательных элементов, несущих информацию о создании текста (creation), языковом разнообразии, представленном в тексте (langUsage), и о ключевых словах, рубриках классификационных схем или тезаурусов и т. п. (textClass):
<!ELEMENT profileDesc (creation?, langUsage*, textClass*) >
Информация о создании текста
<!ELEMENT creation ( %proseGeneral; | %body. marks; ) * >
Для передачи информации о создании текста используется обычная проза, например:
<creation>
<date value="1992-08">Август 1992</date>
<rs type="city">Taos, New Mexico</rs>
</creation>
Использование языков
<!ELEMENT langUsage (p | language)+ >
<!ELEMENT language ( %proseGeneral; | %body. marks; ) * >
Элемент langUsage используется для описания языков, подъязыков, жаргонов, диалектов и пр., представленных в тексте. Каждый язык (подъязык, жаргон, диалект и пр.) отражается в отдельном элементе language. Элемент language имеет два атрибута (сверх глобальных):
Имя атрибута | Тип значения атрибута | Описание |
wsd | ENTITY #IMPLIED | Ссылка на сущность (нотацию), содержащую описание так называемой системы записи TEI. Фактически, система записи TEI соответствует кодировке. Для русского языка TEI рекомендует использовать ISO-8859.5 |
usage | NMTOKEN #IMPLIED | Примерная доля текста (в процентах) в данной системе записи |
Пример:
<langUsage>
<language id="fr" wsd="wsd. fr" usage="60">Québecois</language>
<language id="en" wsd="wsd. en" usage="20">
Canadian business English – примерно 20%
</language>
<language wsd="wsd. en" usage="20">British English</language>
</langUsage>
Классификация текста
Элемент предназначен для передачи информации о классификации текста в соответствии с одним или несколькими из трёх следующих способов:
w Ссылкой на признанную международную классификацию, такую, например, как классификация Дьюи или УДК (элемент classCode).
w Набором ключевых слов (элемент keywords).
w Ссылкой на любую другую таксономию, относящуюся к предметной области текста (элемент catRef).
<!ELEMENT textClass (classCode | catRef | keywords)* >
<!ELEMENT classCode ( %proseGeneral; | %body. marks; ) * >
<!ELEMENT catRef EMPTY>
<!ELEMENT keywords (term+ | list) >
Элементы classCode и keywords имеют один дополнительный атрибут (помимо глобальных):
Имя атрибута | Тип значения атрибута | Описание |
scheme | IDREF #IMPLIED | Для classCode – идентифицирует используемую таксономию (описанную в элементе taxonomy) Для keywords – идентифицирует применяемый контролируемый словарь (описанный в элементе taxonomy) |
Элемент catRef имеет два дополнительных атрибута (помимо глобальных):
Имя атрибута | Тип значения атрибута | Описание |
scheme | IDREF #IMPLIED | Идентифицирует используемую таксономию (описанную в элементе taxonomy) |
target | IDREFS #REQUIRED | Список идентификаторов категорий, к которым отнесён текст (элементов category) |
История изменений
Последний элемент заголовка – revisionDesc:
<!ELEMENT revisionDesc (list | change+) >
История изменений записывается в обратном хронологическом порядке в виде обычного списка или в структурированном виде, отражающем отдельные изменения в виде элементов change:
<!ELEMENT change (date, respStmt+, item) >
Каждый элемент change фиксирует дату изменения, ответственное лицо и описание выполненных изменений:
<!ELEMENT item %prose; >
Визуализация документов TEI
Визуализация документов TEI выполняется с использование XSLT – точно так же, как и для DocBook (конечно, XSLT-преобразование будет иным).
Существующее преобразование разработано в Оксфордском университете (Великобритания), и содержит информацию об этом университете. Поэтому как правило, приходится использовать XSLT-обёртку, например:
<?xml version='1.0'?>
<xsl:stylesheet xmlns:xsl="http://www. w3.org/1999/XSL/Transform"
version="1.0">
<xsl:import href="/usr/share/xsl/teilite/teihtml. xsl"/>
<xsl:param name="cssFile">my. css</xsl:param>
<xsl:param name="parentWords">Филологический факультет
СПбГУ</xsl:param>
<xsl:template name="copyrightStatement"><a
href="/documentation/copyright. xml">©</a> Филологический факультет СПбГУ</xsl:template>
<xsl:template name="logoPicture"><a target="_top" href="http://www. ox. ac. uk/"><img border="0" width="78" height="94"
src="/images/logoITAH. gif" alt="Филологический факультет СПбГУ" /></a></xsl:template>
</xsl:stylesheet>
Многочисленные параметры приведены в файле teihtml-param. xsl дистрибутива стилевого файла XSLT для TEI Light.
Литература
Основная
1. Walsh N., Muellner L. DocBook: The Definitive Guide. — O'Reilly, 2003. — ISBN 7
2. Stayton B. DocBook XSL: The Complete Guide. — Sagehill Enterprise, 2005. — ISBN 9. — http://www. /docbookxsl/index. html
3. Extensible Markup Language (XML) 1.0 (Third Edition). W3C Recommendation 04 February 2004 / Editors: Bray T., Paoli J., Sperberg-McQueen C. M., Maler E., Yergeau F. — W3C, 2004. — http://www. w3.org/TR/REC-xml
4. Text Encoding Initiative Consortium. The TEI Guidelines: TEI P4 . — http://www. tei‑c. org/Guidelines2/index. xml. ID=P4
5. Lou BurnardC. M. Sperberg-McQueen. TEI Lite: An Introduction to Text Encoding for Interchange. — 2002. — http://www. tei-c. org/Lite/teiu5_split_en. html [Перевод: Лу Бернард (Lou Burnard), - Мак-Куин (C. M. Sperberg-McQueen). Введение в TEI Lite. — http://www. tei-c. org/Lite/teiu5_ru. rtf]
6. ГОСТ 7.1–2003. Система стандартов по информации, библиотечному и издательскому делу. Библиографическая запись. Библиографическое описание. Общие требования и правила составления. – Введ. 2004–07–01. – М. : Изд-во стандартов, 2004.
Дополнительная
7. TEI P4: Guidelines for Electronic Text Encoding and Interchange / Sperberg-McQueen, C. M. and Burnard, L. (eds.). — Text Encoding Initiative Consortium, 2002. — http://www. tei-c. org/P4X/
|
Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 |


