Раздел

Все разделы ручной разметки (рекурсивные div и разделы всех уровней – от div0 до div7), имеют оди­на­ковую структуру (с той лишь оговоркой, что в разделы div0 div6 входят разделы следующего уровня, в раздел div – только разделы div, а в div7 ника­кие разделы не входят – место вхождения таких разделов я выделил полужирным шриф­том). Структура раздела напоминает структуру тела тела документа (и даже можно ис­пользовать уже объявленные сущности):

<!ELEMENT div
(
%body. header;*,
(
( (div | divGen), (%body. marks;)* )+
|
(
( %body. outOfDiv; , (%body. marks;)* )+,
( (div | divGen), (%body. marks;)* )*
)
),
%body. trailer;*
)
>

Приведу для примера объявление раздела первого уровня:

<!ELEMENT div1
(
%body. header;*,
(
( (div2 | divGen), (%body. marks;)* )+
|
(
( %body. outOfDiv; , (%body. marks;)* )+,
( (div2 | divGen), (%body. marks;)* )*
)
),
%body. trailer;*
)
>

В этих объявлениях важно обратить внимание на структуру тела раздела. Существуют два варианта этой структуры:

w  Тело раздела начинается с раздела (более глубокого уровня в случае нумерованного раздела; ре­кур­сивного раздела div в случае рекурсивного раздела div; или сгене­ри­рованного раздела).

В этом случае элементы, расположенные вне разделов, на уровне раздела употреб­лять нельзя. На уровне раздела используются исключительно разделы более глубо­кого уровня, сгенерированные разделы и маркирующие элементы.

w  Тело начинается с элементов, которые расположены вне раздела.

В этом случае за цепочкой элементов, которые расположены вне раздела (возмож­но, разбавлен­ной маркирующими элементами), идёт цепочка разделов более глубо­кого уровня, сгенерированных разделов и маркирующих элементов.

НЕ нашли? Не то? Что вы ищете?

Таким образом, раздел может начинаться с элементов, которые допустимы в разделе (%outOfDiv;), и состоять только из таких элементов, но вслед за такими элементами могут идти другие разделы.

Генерируемые разделы – divGen – представляют собой пустой элемент.

Другие элементы блочной структуры

К блочной структуре также относятся:

p – абзац

ab – «анонимный блок», содержащий произвольную часть текста (например, фра­зу), без семантической нагрузки, которую несёт абзац

lg – стихотворная строфа

l – стихотворная строка

stage – авторские замечания (ремарки в пьесе и т. п.)

Элементы, которые могут считаться блочными или потоковыми

Вне или в начале разделов в теле тела документа могут использоваться и такие элементы, которые при визуализации оказываются либо блочными, либо потоковыми (в зависимос­ти от ситуации).

Списки

list – список

label – метка элемента списка, термин в словаре/глоссарии

Примечание

note – примечание/аннотация (в тексте)

Цитаты

cit – цитата из некоторого другого документа, а также библиографическая ссылка на ее источник

q – цитата или кажущаяся цитата – цитата общего вида (речь или мысль, от­меченные как принадлежащие другому автору (независимо от того, действительно ли данный отрывок является цитатой); в сюжетно-повествовательных текстах таким образом отмечается прямая речь персонажа или оратора, а в словарях элемент этот элемент можно использовать для обозначения реальных или искусственных приме­ров использования)

Библиография

bibl – библиографическая ссылка произвольной структуры

biblFull – полностью структурированная библиографическая ссылка

listBibl – список библиографических ссылок

Обозначение прямой речи

sp – прямая речь персонажа (контейнер, содержащий, в том числе, и обозначение персонажа)

Элементы технической документации

eg – содержит простой краткий пример к некоторой обсуждаемой технической теме, например фрагмент программы или пример кодирования

Замечание

Обратим внимание на то, что такие элементы, как, например, table, на уровне тела тела документа или на уровне раздела отсутствуют. Они могут присутствовать только внутри других элементов разметки, таких, как абзац (p), цитата (q), выделение (emp) и др.

Абзац

Абзац имеет смешанное содержимое – в абзаце может присутствовать смесь текста с 54 (в TEI Light) другими элементами (последовательность перечисления элементов в DTD мной сохранена):

<!ENTITY % prose
"(
#PCDATA
| ident | code | kw | abbr | address
| date | name | num | rs | time
| add | corr | del | orig | reg
| sic | unclear | formula | emph | foreign
| gloss | hi | mentioned | soCalled | term
| title | ptr | ref | xptr | xref
| s | seg | gi | eg | bibl
| biblFull | figure | cit | q | label
| list | listBibl | note | stage | table
| text | anchor | gap | index | interp
| interpGrp | lb | milestone | pb
)*"
>

<!ELEMENT p %prose; >

Общие атрибуты всех элементов

Все элементы документов TEI Lite имеют следующие общие (необязательные) атрибуты (я привожу фраг­мен­ты объявления списка атрибутов).

Глобальные атрибуты

5 атрибутов являются общими и в полной спецификации TEI. Первые четыре из них объ­единены в т. н. класс глобальных атрибутов:

id ID #IMPLIED

Уникальный (в пределах документа) идентификатор элемента; должен начинаться с буквы, может содержать буквы, цифры, дефисы и точки.

n CDATA #IMPLIED

Имя или номер элемента; может использоваться любая последовательность симво­лов. Значение этого атрибута не обязательно должно быть уникальным в документе. Часто применяется для записи традиционных систем ссылок или нумерации (глав и т. п.).

lang IDREF #IMPLIED

Язык текста в данном элементе; если значение не указано, считается, что в элементе использован тот же язык, что и в окружающем контексте. Значение атрибута – ссыл­ка на элемент language в TEI-заголовке документа.

rend CDATA #IMPLIED

Указывает способ начертания элемента в оригинале текста: italic (курсив), roman (прямой светлый шрифт), display block (выделенный блок) и т. п. Значением мо­жет быть любая строка символов.

Пятый атрибут – TEIform – имеет разное значение для каждого из элементов. Значением TEIform является строка, обозначающая так называемее «каноническое имя» элемента. Например для абза­ца:

TEIform CDATA "p"

Эти значе­ния определены в DTD TEI/TEI Light, так что заботиться о придании значения этому атрибуту нет необходимости. Атрибут предназначен для идентификации эле­мен­тов в случае допустимых модификаций DTD – значение этого атрибута при пе­ре­име­но­ва­нии элемента модифицировать нельзя.

TEI Light в дополнение к глобальным атрибутам определяет ещё 4 общих атрибута: три атрибута связывания (в полной DTD TEI эти три атрибута не являются глобальными, а от­носятся к отдельному классу атрибутов связывания) и один – указания интерпретации (в полной DTD TEI этот атрибут выделен в отдельный класс атрибутов анализа).

Связывание

Простейший механизм связывания любых элементов обеспечивает атрибут corresp, зна­че­нием которого является список идентификаторов элементов:

corresp IDREFS #IMPLIED

Связывает элемент с одним или несколькими соответствующими (в смысле, опре­де­ляемом целями разметки данного документа/корпуса) элементами.

TEI/TEI Light содержат и более мощные механизмы связывания, использующие спе­ци­аль­ные элементы (ref и ptr для связей внутри документа; xref и xptr – для связей с дру­гими документами; anchor и seg – для создания точек и сегментов, с которыми можно осуществлять связь). Использование элементов (а не атрибута corresp) для ор­га­низации связей позволяет указывать роли связей и создавать разнообразные структуры связей.

Использование XML (и SGML) для разметки произвольных концепций, накладываемых на текст, порождает серьёзную проблему: сегменты текста, соответствующие элементам одной из концепций, не являются строго вложенными в сегменты текста, которые соот­ветствуют элементам другой концепции, в то время как структурные языки разметки тре­буют вложенности элементов. Преодолеть эту проблему можно, используя упомянутые механизмы связывания, однако зачастую проще связать несколько сегментов текста (или других элементов) в цепочку, соответствующую концепции разметки, которая по каким-то причинам не совместима с основной разметкой текста. Для облегчения этой задачи служат два атрибута, позволяющие явно указать отношение следования:

next IDREF #IMPLIED

Связывает данный элемент со следующим элементом в некоторой совокупности элементов.

prev IDREF #IMPLIED

Соединяет данный элемент с предыдущим элементом в некоторой совокупности элементов.

Интерпретация

ana IDREFS #IMPLIED

Связывает элемент и его интерпретацию.

Идентификаторы в списке идентификаторов – значении атрибута ana, – должны принад­лежать так называемым элементам интерпретации: interp или interpGrp, – или эле­мен­ту note.

Лекция 7.  Заголовок TEI (электронный титульный лист).
Визуализация документа TEI

Размеченный текст должен быть снабжён метаинформацией, документирующей сам текст, кодировку, вносимые изменения и др. Эта метаинформация необходима как исс­ле­дователям, использующим размеченный текст, так и программам, которые этот текст об­рабатывают, а также и каталогизаторам (в библиотеках). Содержание этой метаинфор­ма­ции похоже на содержание титульного листа печатного издания.

Поскольку основной текст (тело) документа TEI может вообще практически не содержать разметки, заголовок TEI является важнейшим элементом документа TEI. Поэтому рас­смот­рим заголовок TEI подробно.

Общие сведения о заголовке TEI

Метаинформация в документе TEI размещается в обязательном заголовке TEI:

<!ELEMENT teiHeader
(fileDesc, encodingDesc*, profileDesc*, revisionDesc?) >

Структура заголовка TEI

Заголовок TEI состоит из четырёх частей, лишь первая из которых – описание файла, fileDesc – обязательна. Таким образом, минимальный заголовок TEI имеет вид:

<teiHeader>
<fileDesc>...</fileDesc>
</teiHeader>

Почти всегда, однако, присутствуют и необязательные элементы.

Следует отличать заголовок TEI (элемент teiHeader), предназначенный для размещения в нём метаинформации, от элемента front, предназна­чен­но­го для разметки вводной час­ти текста.

Полная версия TEI в некоторых случаях (например, при разметке корпуса) допускает ис­пользование нескольких заголовков TEI. TEI Light разрешает использовать лишь единст­венный заголовок TEI.

Остановимся вначале на каждом элементе заголовка TEI кратко:

w  Описание файла (элемент fileDesc) содержит полное библиографическое описа­ние самого компьютерного файла. Когда здесь говорится о компьютерном фай­ле, имеется в виду вся совокупность физических сущностей, на которые разбит доку­мент TEI.

Из этого описания пользователь может получить точную библиографическую ссыл­ку, а библиотекарь или работник архива может соз­дать правильную библиографи­ческую запись, идентифицирующую наличие это­го файла в коллекции.

Описание файла также включает информацию об источнике, из которого был создан электронный документ.

w  Описание кодирования (элемент encodingDesc) предназначено для подробного от­ражения связей между электронным документом и его источником (источника­ми). Оно предназначено для детального описания таких аспектов преобразования текста в электронную форму, как нормализация, устранение неоднозначностей; здесь так­же приводится информация об использованной разметке, глубине анали­за и т. п.

w  Параметры текста (элемент profileDesc) – это классификационная и контекстная ин­формация о тексте.

В этом элементе могут присутствовать предметные рубрики, история создания, пер­со­налии, связанные с текстом (как ответственные лица, так и описываемые в тексте), и т. п. Этот элемент часто используется при работе с корпусами – в этом случае для значений вложенных в него элементов применяются словари с контролируемой лек­сикой, что позволяет, например, автоматизировать отбор текстов для последующей обработки.

w  История изменений (элемент revisionDesc). Этот элемент используется для управления версиями размеченного документа.

Типы содержимого в заголовке TEI

w  Проза

Большинство элементов заголовка содержат элементы прозы, такие как абзац или спи­сок. Некоторые элементы, однако, могут содержать только символьные данные (возмож­но, с разметкой фразового уровня).

w  Группирующие элементы. Имена группирующих элементов заканчиваются суф­фик­сом Stmt (например, editionStmt или titleStmt)

Группирующие элементы используются для записи структурированной информа­ции, например, соответствующей области библиографического описания. Зачас­тую группирующий элемент имеет две альтернативы: структурированную (состоя­щую из отдельных элементов) и неструктурированную. В неструктурированном ва­рианте используется один элемент, формально содержащий прозу, в котором раз­мет­ка составных частей выполнена в соответствии с местными традициями (напри­мер, библиографическое описание в соответствии с ГОСТ 7.1–2003).

w  Объявления. Имена элементов объявлений имеют суффикс Decl (например, subjectDecl или refsDecl).

Объявления содержат информацию о конкретном применении разметки в данном тексте, зачастую в кодированном виде. На эту информацию можно ссылаться в раз­метке текста, используя атрибут decls.

w  Описания. Имена элементов объявлений имеют суффикс Desc (например, settingDesc или projectDesc). Эти элементы содержат тексты соответствующих описаний.

Описание файла

Элемент fileDesc – первый и единственный обязательный элемент заголовка TEI:

<!ELEMENT fileDesc
(titleStmt, editionStmt?, extent?, publicationStmt, seriesStmt?,
notesStmt?, sourceDesc+) >

Структура этого элемента напоминает структуру библиографического описания. Эле­мент fileDesc содержит три обязательных (titleStmt, publicationStmt и sourceDesc) и четыре необязательных элемента. Все эти (как обязательные, так и необя­зательные) элементы имеют только глобальные атрибуты.

Группа заглавия

Элемент titleStmt группирует информацию о заглавии произведения и лицах, ответст­венных за интеллектуальное содержание произведения. Этот элемент идёт первым в опи­сании файла и является обязательным.

<!ELEMENT titleStmt
(title+, (author | editor | sponsor | funder | principal | respStmt)*)
>

Группа заглавия содержит заглавие, данное электронному произведению (это заг­лавие может, вообще говоря, отличаться от заглавия произведения-источника), а также мо­жет содержать один или несколько необязательных элементов, несущих в себе сведе­ния об ответственности, идентифицирующие автора, разметчика, составителя и др. лиц (физических и/или организаций), каким-либо образом ответственных за электронный до­кумент.

В сведениях об ответственности должны присутствовать элементы author – автор произ­ведения – и principal – автор электронной размеченной версии. Остальные сведения об ответственности факультативны.

Все имена и названия организаций должны приводиться в наиболее развёрнутой форме (в частности, персональные имена – не только в виде фамилий с инициалами, но, по край­ней мере, в виде фамилий и полных личных имён).

Пример

<titleStmt>
<title>Two stories by Edgar Allen Poe: electronic version</title>
<author>Poe, Edgar Allen ()</author>
<respStmt>
<resp>compiled by</resp> <name>James D. Benson</name>
</respStmt>
</titleStmt>

Заглавие

Заглавие – это элемент прозы. Для удобства дальнейшего описания я сначала определю две пара­мет­рические сущности, которые в совокупности определяют все элементы прозы (см. описание абзаца выше):

<!ENTITY % proseGeneral
#PCDATA
| ident | code | kw | abbr | address
| date | name | num | rs | time
| add | corr | del | orig | reg
| sic | unclear | formula | emph | foreign
| gloss | hi | mentioned | soCalled | term
| title | ptr | ref | xptr | xref
| s | seg | gi

>

<!ENTITY % proseNotInPerson
" eg | bibl | biblFull | figure | cit | q | label
| list | listBibl | note | stage | table | text"
>

<!ENTITY % prose
"(%proseGeneral; | %proseNotInPerson; | %body. marks; )*"
>

<!ELEMENT title %prose; >

Элемент title имеет два (сверх обычных глобальных) атрибута:

level – библиографический уровень заглавия (статья – article, книга – monograph, журнал – journal, продол­жаю­ще­еся издание – series, неопубликованный материал – unpublished):

level (a | m | j | s | u) #IMPLIED

type – вид заглавия, в соответствии с принятой (коллективом, размечавшим текст) типологией заглавий:

type CDATA #IMPLIED

Элемент title содержит основное заглавие файла, включая все альтернативные загла­вия и подзаголовки. Форма, в которой представляется заглавие, оставляется на усмот­ре­ние того, кто создаёт этот элемент. Если электронный текст является производным от су­ществующего неэлектронного источника, то следует в элементе title воспроизвести точ­ное заглавие этого источника, дополнив его фразой типа «электронный вариант / из­дание / текст» и т. п. для того, чтобы надёжно отличать размеченный документ от исход­но­го (в том числе в каталогах, содержащих описания обоих документов).

Руководство по TEI настоятельно не рекомендует использовать системное имя файла в ка­честве значения элемента title, поскольку системное имя файла подвержено частым из­менениям.

Полезным руководством по определению того, как следует формировать заглавие, может служить ГОСТ 7.1–2003 6.

Автор, редактор, спонсор, финансовая поддержка, ответственный исполнитель

Все эти элементы содержат сведения о лицах или организациях, выступающих в опреде­лённой роли относительно данного текста. В этих элементах допустимы не все элементы прозы.

author

<!ELEMENT author ( %proseGeneral; | %body. marks; )* >

Имя персоны или коллектива, которые являются автором произведения; первичные сведения об ответственности.

editor

<!ELEMENT editor ( %proseGeneral; | %body. marks; )* >

Вторичные сведения об ответственности. Элемент содержит информацию о редак­то­рах, составителях, переводчика и пр. лицах (персонах или организациях), участ­во­вавших в создании произведения.

sponsor

<!ELEMENT sponsor ( %proseGeneral; | %body. marks; )* >

Название организации или лица, оказавшего спонсорскую (не обязательно финан­со­вую) поддержку созданию произведения.

funder

<!ELEMENT funder ( %proseGeneral; | %body. marks; )* >

Название организации, структуры или лица, ответственных за финансирование про­екта разметки или создания данного текста.

principal

<!ELEMENT principal ( %proseGeneral; | %body. marks; )* >

Имя лица, ответственного за создание данного электронного текста

Сведения об ответственности

Для детализации указания сведений об ответственности используется элемент respStmt:

<!ELEMENT respStmt ( resp | name | %body. marks; )+ >

Обычно этот элемент содержит пару элементов resp и name:

resp

<!ELEMENT resp ( %proseGeneral; | %body. marks; )* >

Содержит фразу, описывающую вид интеллектуальной ответственности.

name

<!ELEMENT name ( %proseGeneral; | %body. marks; )* >

Содержит имя или именную фразу.

Группа издания

Группа издания – элемент editionStmt – объединяет информацию, относящуюся к од­но­му изданию текста:

<!ELEMENT editionStmt ((edition, respStmt*) | p+) >

<!ELEMENT edition ( %proseGeneral; | %body. marks; )* >

Элемент editionStmt содержит либо фразу, описывающую издание (элементы p – аб­зацы), либо структурированную информацию в виде элемента edition, описывающего особенности издания, и списка (respStmt*) сведений об ответственности, относящихся к указанному изданию.

Термин «издание» по отношению к печатным текстам используется в TEI в традицион­ном смысле. По отношению к электронным документам «издание» примерно эквивален­т­но версии (version) или выпуску (release). Слова «издание», «версия» и т. п. должны включаться в содержимое элемента editionStmt (в элемент edition или p). Все даты в элементах edition или p внутри элемента editionStmt должны быть заключены в эле­мент date.

Слова «подверсия» (revision) или об­нов­ление (update), напротив, не могут служить признаком «издания». Все изменения в электронной версии текста, однако, могут быть зафиксированы в элементе revisionDesc – «История изменений» (см. ниже).

Размер

Необязательный элемент extent описывает размер электронного текста, размещенного на некотором носителе, в каких-либо приемлемых единицах. Этот элемент не имеет ни­ка­кой специальной структуры:

<!ELEMENT extent ( %proseGeneral; | %body. marks; )* >

Примеры:

<extent>между 1 16-битовым мегабайтом и
2 16-битовыми мегабайтами</extent>

<extent>4.2 MB</extent>

<extent>4532 bytes</extent>

<extent>3200 предложений</extent>

<extent>5 3.5" дискет высокой плотности</extent>

Группа выходных данных (сведения о публикации)

Группа выходных данных – обязательный элемент publicationStmt – объединяет ин­фор­мацию, относящуюся к публикации или распространению исходного или электрон­ного текста. Этот элемент содержит либо прозу, либо структурированную информацию. В этом элементе разрешены маркирующие элементы (%body. marks;):

<!ENTITY % pubInfo
"(publisher | distributor | authority | pubPlace |
address | idno | availability | date) "
>

<!ELEMENT publicationStmt
( ( p, (%body. marks;)* )+ | (%pubInfo;, (%body. marks;)* )+ )
>

В группе выходных данных обязательно присутствие информации об одном из трёх лиц или организаций: издателе (publisher), рас­пространителе (distributor) или о ли­це или организации, отвечающей за доступность произведения (authority). Ос­тальные эле­мен­ты необязательны: место издания – pubPlace, почтовый или иной адрес – address, стан­дартный или нестандартный идентификационный номер издания – idno, сведения о доступности (включая информацию об авторских правах) – availability, дата публика­ции – date (именно дата публикации; дата создания документа приводится в элементе profileDesc – Параметры текста). Рекомендуется приводить элементы именно в ука­зан­ном порядке.

Пример:

<publicationStmt>
<publisher>Oxford University Press</publisher>
<pubPlace>Oxford</pubPlace>
<date>1989</date>
<idno type='ISBN'>-4</idno>
<availability>
<p>Copyright 1989, Oxford University Press</p>
</availability>
</publicationStmt>

Группа серии

Необязательный элемент seriesStmt объединяет информацию о серии, к которой при­надлежит публикация. На «библиографическом жаргоне» серию можно определить одним из трёх способов:

w  Группа отдельных публикаций, связанных друг с другом тем фактом, что каждая публикация, кроме собственного заглавия, имеет также общее, объединяющее все эти публикации, заглавие. Индивидуальные публикации могут быть, а могут и не быть пронумерованы.

w  Каждый из двух или более томов литературных произведений, лекций, статей, или других однородных публикаций, изданных последовательно.

w  Пронумерованная последовательность томов внутри периодического или продол­жа­ющегося издания.

Элемент seriesStmt содержит либо прозу, либо структурированную информацию.

<!ELEMENT seriesStmt ((title+, (idno | respStmt)*) | p+) >

Все элементы содержимого группы серии уже были рассмотрены выше. В элементе title следует указывать атрибут level со значением s (серия). В исполь­зовании эле­мен­та idno в группе серии есть некоторые особенности: обычно используют­ся не менее двух элементов idno. Один содержит стандартный номер (ISSN), а другой – номер пуб­ли­кации в серии:

<seriesStmt>
<title level="s">
Machine-Readable Texts for the Study of Indian Literature
</title>
<respStmt>
<resp></resp>
<name>Jan Gonda</name>
</respStmt>
<idno type="vol">1.2</idno>
<idno type='ISSN'>0 </idno>
</seriesStmt>

Номера публикации в серии рекомендуется кодировать арабскими цифрами с точкой в качестве разделителя: вместо VI/xix:33 в содержимом элемента idno должно стоять 6.19.33.

Группа примечаний

Группа примечаний – notesStmt – содержит разнообразные примечания (структури­ро­ванный текст – %structuredText; – может включать анонимные блоки ab, элементы сти­хотворного текста l и lg, абзацы p и прямую речь персонажей sp, – всё это может появляться в тексте примечания):

<!ELEMENT notesStmt (note)+ >

<!ENTITY % structuredText "ab | l | lg | p | sp" >
<!ENTITY % extendedText "%prose; | %structuredText;" >

<!ELEMENT note (%extendedText;)* >

Элемент note имеет, кроме глобальных, ещё 6 атрибутов (напомню, что значение по умолчанию #IMPLIED означает, что атрибут не является обязательным):

Имя атрибута

Тип значения атрибута

Описание

type

CDATA #IMPLIED

Тип примечания

resp

CDATA #IMPLIED

Указывает лицо, ответственное за данное примечание (автор, редактор, переводчик и пр.)

place

CDATA "unspecified"

Есть ли примечание в основном тексте

anchored

(yes | no) "yes"

Указано ли конкретное место примечания в тексте (в виде ссылки ил описания места)

target

IDREFS #IMPLIED

Идентификаторы отрезков текста, к которым относится примечание

targetEnd

IDREFS #IMPLIED

Идентификаторы элементов, которые завершают отрезки текста, к которым относится примечание (при необходимости должны использоваться пустые элементы)

В традиционной библиографии некоторые виды информации о произведении размеща­ются в примечаниях. TEI требует, чтобы для перечисленных ниже видов метаинфор­ма­ции использовались специально предназначенные для них элементы:

w  Происхождение, назначение, художественная форма, жанр или другая интеллек­ту­альная категория profileDesc.

w  Формальный реферат, не содержащий оценки произведения – profileDesc.

w  Подробное библиографическое описание (традиционного, как правило, не элект­рон­ного) источника или источников текста электронного документа – sourceDesc.

w  Любая информация, относящаяся к выходным данным, распространению текста (включая то, как можно получить текст), любая информация об ограничениях или условиях доступа – publicationStmt.

w  Общедоступные идентификационные номера и шифры (прежде всего, ISBN и ISSN) – publicationStmt (вложенный элемент idno).

Элемент notesStmt можно использовать для передачи следующей информации о фай­ле и его осо­бен­ностях:

w  Дат (например, «предположительно, 1983».

w  Имён лиц и названий коллективов (организаций), имеющих отношение к процессу создания и разметки электронного документа, но которые по каким-то причинам не упомянуты в сведениях об ответственности.

w  Доступности электронного документа на тех или иных носителях; доступности до­ку­ментации; доступности имеющей отношение к электронному документу допол­ни­тель­ной информации (например, в случае неполной оцифровки/разметки исход­но­го источника).

w  Языке текста и реферата.

w  Уникальном названии, присвоенном серии в Международной системе данных о сериях (ISDS).

w  Связанных публикациях (например, описывающих текст произведения – источни­ка).

Пример:

<notesStmt>
<note>Historical commentary provided by Mark Cohen.</note>
<note>OCR scanning done at University of Toronto.</note>
</notesStmt>

Группа источника

Последний элемент описания файла – обязательный элемент sourceDesc. Он предназна­чен для передачи информации об источнике (источниках), которые послужили основой для создания электронного размеченного текста – документа TEI. Таким источником мо­жет быть печатный текст, рукопись, другой компьютерный файл, аудио или видеозапись, и др., или любая комбинация подобных источников. Источник, впрочем, может и вовсе от­сутствовать. Элемент sourceDesc содержит библиографическое описание источника.

Элемент sourceDesc содержит либо прозу (абзац p), либо (предпочтительнее) структу­рированное библиографическое описание:

<!ELEMENT sourceDesc (p | bibl | biblFull | listBibl)+ >

Полная DTD TEI допускает использование ещё двух элементов для описания источника в случае, когда источником послужила записанная устная речь: scriptStmt – для описа­ния того, как речь была записана на бумаге, recordingStmt – для описания того, какой на­бор физических записей был использован (включая информацию об оборудовании).

Пример (из оригинального руководства по TEI):

<sourceDesc>
<p>No source: created in machine-readable form.</p>
</sourceDesc>

Производные документы TEI

Если источником документа TEI является другой документ TEI, то данные из заголовка TEI этого второго документа должны быть включены в заголовок первого документа в со­ответствии со следующими правилами:

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6