w  Элемент fileDesc источника переносится в элемент sourceDesc/biblFull нового доку­мента (я использую нотацию XPath для адресации эле­ментов).

w  Элемент profileDesc переносится в profileDesc без изменений.

w  Элемент encodingDesc, как правило, создаётся заново, поскольку принципы раз­мет­ки нового документа и документа-источника, скорее всего, существенно разли­чаются.

w  Элемент revisionDesc может быть как абсолютно новым (собственно, создан но­вый документ), так и содержать часть информации из элемента исходного доку­мен­та TEI. В последнем случае необходимо чётко выделить то, к какому именно доку­мен­ту относится приводимая информация (даты, редакции и т. п.).

Описание кодирования

Описание кодирования – элемент encodingDesc – предназначен для передачи принци­пов и способов преобразования документа-источника в документ TEI. Этот элемент мо­жет содержать объявления некоторых обозначений (кодов), используемых в других мес­тах заголовка TEI.

Объявление описания кодирования в TEI Light имеет вид:

<!ELEMENT encodingDesc
(projectDesc*, samplingDecl*, editorialDecl*, tagsDecl?,
refsDecl*, classDecl*, p*)
>

Содержимым этого элемента может быть проза (абзац p), либо (предпочтительнее) струк­турированный перечень спецификаций процесса кодирования: описания проекта (projectDesc), методики отбора источников (samplingDecl), принципов редактирования (editorialDecl), собственно разметки (tagsDecl), разработанной ссылочной структуры (refsDecl), использованных классификаций/таксономий (classDecl).

НЕ нашли? Не то? Что вы ищете?

В полной DTD TEI в описание кодирования можно добавить описания: системы черт (ког­да недостаточно классификаций/таксономий), метрической структуры текста, использо­ванных вариантов кодирования.

Описание проекта

Описание проекта содержит описание цели создания электронного документа, а также процесса его создания. Описание проекта особенно важно при работе с корпусами текс­тов.

<!ELEMENT projectDesc (p)+ >

Пример:

<projectDesc>
<p>Документ предназначен для...</p>
</projectDesc>

Методика отбора

Так же, как и описание проекта, содержит прозу, описывающую принципы отбора текста (или фрагмента текста), использованного для разметки:

<!ELEMENT samplingDecl (p)+ >

Элемент важен для корпусов текстов.

Принципы редактирования

В TEI Light этот элемент содержит прозу:

<!ELEMENT editorialDecl (p)+ >

В полной DTD TEI этот элемент может иметь структуру, описывающую отдельные сос­тав­ляющие процесса редактирования (нормализацию, исправления, использование кавычек, переносы и пр.).

Разметка

Элемент tagsDecl используется для передачи следующей информации о разметке:

w  Количестве тех или иных элементов в документе TEI – для проверки целостности разметки.

w  Описания особенностей использования того или иного элемента, если для такого описания не нашлось места в другом элементе заголовка TEI.

w  Объявления методов визуализации элементов, используемых по умолчанию (при отсутствии атрибута rend в элементе).

Структура tagsDecl проста:

<!ELEMENT tagsDecl (rendition*, tagUsage*) >

<!ELEMENT rendition %prose; >

<!ELEMENT tagUsage %prose; >

Каждый элемент в последовательности элементов rendition должен иметь атрибут id (естественно, с различными значениями) – чтобы на них можно было бы ссылаться в ос­нов­ном тексте. Последовательность элементов tagUsage состоит из большого ко­личества элементов – по одному на каждый элемент, встречающийся в самом внешнем элементе text (следующем непосредственно за teiHeader), – таково требование стандарта.

Элемент tagUsage имеет следующие атрибуты (помимо глобальных):

Имя атрибута

Тип значения атрибута

Описание

gi

CDATA #REQUIRED

Имя элемента (из используемого DTD), к которому относится данный элемент tagUsage («описываемый элемент»)

occurs

CDATA #IMPLIED

Количество появлений описываемого элемента в разметке текста

ident

CDATA #IMPLIED

Количество появлений описываемого элемента в разметке текста, имеющих атрибут id (естест­венно, каждый раз с различными значениями)

render

IDREF #IMPLIED

Идентификатор элемента rendition, который должен использоваться по умолчанию при визуализации описываемого элемента

Атрибуты элемента tagUsage предназначены для их автоматической обработки, а его со­держимое – нет.

Ссылочная структура

TEI, как и TEI Light, позволяет создавать при помощи разметки различные ссылочные струк­туры. Под ссылочной структурой в TEI имеется в виду система имён (ссылок), связанных с конкретными частями текста (например, «Пс. 23:3» для третьего стиха Псалма 23, или «Amores 2.10.7» для строки 7 поэмы 10 книги второй сочинения «Amores» Ови­дия). Подобные имена позволяют маркировать некоторое место в тексте с тем, чтобы за­тем это место можно было бы найти. Ссылочная структура может базироваться на естест­венных структурных элементах текста (главах, абзацах, предложениях, строфах, стихах и т. п.) или на разделах текста, созданных специально для ссылок (как, например, главы и но­мера стихов в Библии). Если такая структура есть в тексте источника электронного до­кумента, её следует сохранять и в документе TEI – хотя бы для облегчения сравнения до­ку­мента TEI и оригинала текста.

Ссылочная структура в документе TEI может быть создана различными средствами:

w  Если в исходном документе уже присутствует ссылочная структура, то для её воспроизведения можно воспользоваться значениями атрибутов id и/или n (или комбинациями значений таких атрибутов из набора вложенных элементов). Этот же подход можно использовать, если исходная ссылочная структура отсутствует.

w  Если исходная ссылочная структура не связана с логической структурой текста, а ба­зируется, например, на номерах страниц, то можно воспользоваться многочис­лен­ными методиками создания параллельных иерархий в TEI, например, с помощью элементов маркировки milestone. Этот же подход можно использовать, если име­ю­щаяся в источнике ссылочная структура по каким-то причинам не интересует ис­с­ледователя, выполняющего разметку, а необходимо создание иной ссылочной струк­туры.

В любом случае – даже если ссылочная структура в исходном документе отсутствует и/или ссылочные структуры по каким-то причинам неважны, или используется ссы­лоч­ная структура, не связанная с номерами страниц, – руководство TEI рекомендует разме­чать разрывы страниц.

Ссылочные структуры, используемые в данном документе, описываются в эле­мен­те refsDecl. Каждой отдельной используемой ссылочной структуре должен соответ­с­твовать один элемент refsDecl.

TEI Light допускает только одну форму этого элемента – прозу:

<!ELEMENT refsDecl (p)+ >

Полная спецификация TEI позволяет использовать более формализованное описание ссылочных структур.

Элемент имеет один дополнительный атрибут (помимо глобальных):

Имя атрибута

Тип значения атрибута

Описание

doctype

CDATA "TEI.2"

Имя элемента, к которому относится описы­ва­е­мая ссылочная структура (отличие от значения TEI.2, т. е. от всего документа, считается экспериментальным).

В TEI Light описание ссылочной структуры – обычный текст, который не может обра­батываться автоматически, например:

<refsDecl>
<p>Атрибут n каждого текста настоящего корпуса содержит
уникальный идентификационный код для текста как целого.
Заглавие текста помещено в первый элемент head внутри каждого
текста. Атрибут n каждого раздела div1 и div2 содержит
каноническую ссылку на данный раздел в форме 'XX. yyy', где
XX - номер книги (римскими цифрами), а
ууу – номер раздела (арабскими цифрами).
Все разрывы строк отмечены пустым элементом lb,
который в качестве значения атрибута n использует порядковый
номер строки по изданию Casaubon
</p>
<p>Порядковый номер строки и идентификатор текста совместно
являются уникальным идентификатором строки.
Каноническая ссылка образуется конкатенаций значений атрибута n
элементов text, div1 или div2, и вычислением номера строки
в каждой части текста.
</p>
</refsDecl>

Одна и та же ссылочная структура, используемая в различных частях текста, не должна описываться дважды. Элемент, использующий ссылочную структуру (text, front, body, div*, back) должен содержать ссылку на id этой структуры в качестве значения атрибу­та decls.

Классификации

Элемент classDecl предназначен для группировки объявлений или описания источни­ков применяемых классификационных схем. Каждая из таких схем представлена одним элементом taxonomy. Элемент taxonomy может содержать (библиографическую) ссылку на описание классификационной схемы, либо (возможно, совместно с такой ссылкой) яв­ное объявление используемой типологии (вложенные элементы category):

<!ELEMENT classDecl (taxonomy)+ >

<!ELEMENT taxonomy (category+ | ((bibl | biblFull), category*)) >

<!ELEMENT category (catDesc, category*) >

<!ELEMENT catDesc ( %proseGeneral; ) * >

Собственно описание категории (рубрики) находится в элементе catDesc.

Примеры:

1. Ссылка на классификацию Дьюи.

<taxonomy id="ddc12">
<bibl>
<title>Dewey Decimal Classification</title>
<edition>Abridged Edition 12</edition>
</bibl>
</taxonomy>

2. Классификация, используемая в корпусе Брауна.

<taxonomy id="b">
<bibl>Brown Corpus</bibl>
<category id="b. a">
<catDesc>Press Reportage</catDesc>
<category id="b. a1"><catDesc>Daily</catDesc></category>
<category id="b. a2"><catDesc>Sunday</catDesc></category>
<category id="b. a3"><catDesc>National</catDesc></category>
<category id="b. a4"><catDesc>Provincial</catDesc></category>
<category id="b. a5"><catDesc>Political</catDesc></category>
<category id="b. a6"><catDesc>Sports</catDesc></category>
<!-- ... -->
</category>
<category id="b. d"><catDesc>Religion</catDesc>
<category id="b. d1"><catDesc>Books</catDesc></category>
<category id="b. d2">
<catDesc>Periodicals and tracts</catDesc>
</category>
</category>
<!-- ... -->
</taxonomy>

Связь текста с используемой классификацией осуществляется с помощью элемента /TEI.2/teiHeader/profileDesc/textClass/catRef (см. ниже). Если используемая клас­сификация допускает приписывание множественных рубрик, то они указываются как спи­сок (IDREFS), например (для корпуса Брауна):

<catRef target="b. a1 b. a3 b. a5"/>

Параметры текста

Элемент profileDesc – третий (необязательный) элемент заголовка TEI, служит для пе­редачи важных характеристик текста, для которых не нашлось подходящих элементов в предыдущих двух – описании файла (fileDesc) и описании кодирования (encodingDesc). В параметры текста должна попадать та информация, которая обычно не укладывается в стандартное библиографическое описание.

Структура параметров текста – последовательность необязательных элементов, несущих информацию о создании текста (creation), языковом разнообразии, представленном в тексте (langUsage), и о ключевых словах, рубриках классификационных схем или тезау­ру­сов и т. п. (textClass):

<!ELEMENT profileDesc (creation?, langUsage*, textClass*) >

Информация о создании текста

<!ELEMENT creation ( %proseGeneral; | %body. marks; ) * >

Для передачи информации о создании текста используется обычная проза, например:

<creation>
<date value="1992-08">Август 1992</date>
<rs type="city">Taos, New Mexico</rs>
</creation>

Использование языков

<!ELEMENT langUsage (p | language)+ >
<!ELEMENT language ( %proseGeneral; | %body. marks; ) * >

Элемент langUsage используется для описания языков, подъязыков, жаргонов, диалек­тов и пр., пред­став­ленных в тексте. Каждый язык (подъязык, жаргон, диалект и пр.) отра­жа­ется в отдельном элементе language. Элемент language имеет два атрибута (сверх глобальных):

Имя атрибута

Тип значения атрибута

Описание

wsd

ENTITY #IMPLIED

Ссылка на сущность (нотацию), содержащую описание так называемой системы записи TEI. Фактически, система записи TEI соответствует кодировке. Для русского языка TEI рекомендует использовать ISO-8859.5

usage

NMTOKEN #IMPLIED

Примерная доля текста (в процентах) в данной системе записи

Пример:

<langUsage>
<language id="fr" wsd="wsd. fr" usage="60">Qu&eacute;becois</language>
<language id="en" wsd="wsd. en" usage="20">
Canadian business English – примерно 20%
</language>
<language wsd="wsd. en" usage="20">British English</language>
</langUsage>

Классификация текста

Элемент предназначен для передачи информации о классификации текста в соответ­ст­вии с одним или несколькими из трёх следующих способов:

w  Ссылкой на признанную международную классификацию, такую, например, как классификация Дьюи или УДК (элемент classCode).

w  Набором ключевых слов (элемент keywords).

w  Ссылкой на любую другую таксономию, относящуюся к предметной области текста (элемент catRef).

<!ELEMENT textClass (classCode | catRef | keywords)* >
<!ELEMENT classCode ( %proseGeneral; | %body. marks; ) * >
<!ELEMENT catRef EMPTY>
<!ELEMENT keywords (term+ | list) >

Элементы classCode и keywords имеют один дополнительный атрибут (помимо гло­бальных):

Имя атрибута

Тип значения атрибута

Описание

scheme

IDREF #IMPLIED

Для classCode – идентифицирует исполь­зуемую таксономию (описанную в элементе taxonomy)

Для keywords – идентифицирует применяе­мый контролируемый словарь (описанный в элементе taxonomy)

Элемент catRef имеет два дополнительных атрибута (помимо глобальных):

Имя атрибута

Тип значения атрибута

Описание

scheme

IDREF #IMPLIED

Идентифицирует исполь­зуемую таксономию (описанную в элементе taxonomy)

target

IDREFS #REQUIRED

Список идентификаторов категорий, к которым отнесён текст (элементов category)

История изменений

Последний элемент заголовка – revisionDesc:

<!ELEMENT revisionDesc (list | change+) >

История изменений записывается в обратном хронологическом порядке в виде обычного списка или в структурированном виде, отражающем отдельные изменения в виде элемен­тов change:

<!ELEMENT change (date, respStmt+, item) >

Каждый элемент change фиксирует дату изменения, ответственное лицо и описание вы­полненных изменений:

<!ELEMENT item %prose; >

Визуализация документов TEI

Визуализация документов TEI выполняется с использование XSLT – точно так же, как и для DocBook (конечно, XSLT-преобразование будет иным).

Существующее преобразование разработано в Оксфордском университете (Великобри­та­ния), и содержит информацию об этом университете. Поэтому как правило, приходится использовать XSLT-обёртку, например:

<?xml version='1.0'?>
<xsl:stylesheet xmlns:xsl="http://www. w3.org/1999/XSL/Transform"
version="1.0">
<xsl:import href="/usr/share/xsl/teilite/teihtml. xsl"/>
<xsl:param name="cssFile">my. css</xsl:param>

<xsl:param name="parentWords">
Филологический факультет
СПбГУ</xsl:param>
<xsl:template name="copyrightStatement"><a
href="/documentation/copyright. xml">&copy
;</a> Филологический факультет СПбГУ</xsl:template>

<xsl:template name="logoPicture"><a target="_top" href="http://www. ox. ac. uk/"><img border="0" width="78" height="94"
src="/images/logoITAH. gif" alt="
Филологический факультет СПбГУ" /></a></xsl:template>
</xsl:stylesheet>

Многочисленные параметры приведены в файле teihtml-param. xsl дистрибутива стилевого файла XSLT для TEI Light.

Литература

Основная

1.  Walsh N., Muellner L. DocBook: The Definitive Guide. — O'Reilly, 2003. — ISBN 7

2.  Stayton B. DocBook XSL: The Complete Guide. — Sagehill Enterprise, 2005. — ISBN 9. — http://www. /docbookxsl/index. html

3.  Extensible Markup Language (XML) 1.0 (Third Edition). W3C Recommendation 04 February 2004 / Editors: Bray T., Paoli J., Sperberg-McQueen C. M., Maler E., Yergeau F. — W3C, 2004. — http://www. w3.org/TR/REC-xml

4.  Text Encoding Initiative Consortium. The TEI Guidelines: TEI P4 . — http://www. tei‑c. org/Guidelines2/index. xml. ID=P4

5.  Lou BurnardC. M. Sperberg-McQueen. TEI Lite: An Introduction to Text Encoding for Interchange. — 2002. — http://www. tei-c. org/Lite/teiu5_split_en. html [Перевод: Лу Бернард (Lou Burnard), - Мак-Куин (C. M. Sperberg-McQueen). Введение в TEI Lite. — http://www. tei-c. org/Lite/teiu5_ru. rtf]

6.  ГОСТ 7.1–2003. Система стандартов по информации, библиотечному и изда­тель­скому делу. Библиографическая запись. Библиографическое описание. Общие требования и правила составления. – Введ. 2004–07–01. – М. : Изд-во стандартов, 2004.

Дополнительная

7.  TEI P4: Guidelines for Electronic Text Encoding and Interchange / Sperberg-McQueen, C. M. and Burnard, L. (eds.). — Text Encoding Initiative Consortium, 2002. — http://www. tei-c. org/P4X/

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6