Раздел
Все разделы ручной разметки (рекурсивные div и разделы всех уровней – от div0 до div7), имеют одинаковую структуру (с той лишь оговоркой, что в разделы div0 – div6 входят разделы следующего уровня, в раздел div – только разделы div, а в div7 никакие разделы не входят – место вхождения таких разделов я выделил полужирным шрифтом). Структура раздела напоминает структуру тела тела документа (и даже можно использовать уже объявленные сущности):
<!ELEMENT div
(
%body. header;*,
(
( (div | divGen), (%body. marks;)* )+
|
(
( %body. outOfDiv; , (%body. marks;)* )+,
( (div | divGen), (%body. marks;)* )*
)
),
%body. trailer;*
)
>
Приведу для примера объявление раздела первого уровня:
<!ELEMENT div1
(
%body. header;*,
(
( (div2 | divGen), (%body. marks;)* )+
|
(
( %body. outOfDiv; , (%body. marks;)* )+,
( (div2 | divGen), (%body. marks;)* )*
)
),
%body. trailer;*
)
>
В этих объявлениях важно обратить внимание на структуру тела раздела. Существуют два варианта этой структуры:
w Тело раздела начинается с раздела (более глубокого уровня в случае нумерованного раздела; рекурсивного раздела div в случае рекурсивного раздела div; или сгенерированного раздела).
В этом случае элементы, расположенные вне разделов, на уровне раздела употреблять нельзя. На уровне раздела используются исключительно разделы более глубокого уровня, сгенерированные разделы и маркирующие элементы.
w Тело начинается с элементов, которые расположены вне раздела.
В этом случае за цепочкой элементов, которые расположены вне раздела (возможно, разбавленной маркирующими элементами), идёт цепочка разделов более глубокого уровня, сгенерированных разделов и маркирующих элементов.
Таким образом, раздел может начинаться с элементов, которые допустимы в разделе (%outOfDiv;), и состоять только из таких элементов, но вслед за такими элементами могут идти другие разделы.
Генерируемые разделы – divGen – представляют собой пустой элемент.
Другие элементы блочной структуры
К блочной структуре также относятся:
w p – абзац
w ab – «анонимный блок», содержащий произвольную часть текста (например, фразу), без семантической нагрузки, которую несёт абзац
w lg – стихотворная строфа
w l – стихотворная строка
w stage – авторские замечания (ремарки в пьесе и т. п.)
Элементы, которые могут считаться блочными или потоковыми
Вне или в начале разделов в теле тела документа могут использоваться и такие элементы, которые при визуализации оказываются либо блочными, либо потоковыми (в зависимости от ситуации).
Списки
w list – список
w label – метка элемента списка, термин в словаре/глоссарии
Примечание
w note – примечание/аннотация (в тексте)
Цитаты
w cit – цитата из некоторого другого документа, а также библиографическая ссылка на ее источник
w q – цитата или кажущаяся цитата – цитата общего вида (речь или мысль, отмеченные как принадлежащие другому автору (независимо от того, действительно ли данный отрывок является цитатой); в сюжетно-повествовательных текстах таким образом отмечается прямая речь персонажа или оратора, а в словарях элемент этот элемент можно использовать для обозначения реальных или искусственных примеров использования)
Библиография
w bibl – библиографическая ссылка произвольной структуры
w biblFull – полностью структурированная библиографическая ссылка
w listBibl – список библиографических ссылок
Обозначение прямой речи
w sp – прямая речь персонажа (контейнер, содержащий, в том числе, и обозначение персонажа)
Элементы технической документации
w eg – содержит простой краткий пример к некоторой обсуждаемой технической теме, например фрагмент программы или пример кодирования
Замечание
Обратим внимание на то, что такие элементы, как, например, table, на уровне тела тела документа или на уровне раздела отсутствуют. Они могут присутствовать только внутри других элементов разметки, таких, как абзац (p), цитата (q), выделение (emp) и др.
Абзац
Абзац имеет смешанное содержимое – в абзаце может присутствовать смесь текста с 54 (в TEI Light) другими элементами (последовательность перечисления элементов в DTD мной сохранена):
<!ENTITY % prose
"(
#PCDATA
| ident | code | kw | abbr | address
| date | name | num | rs | time
| add | corr | del | orig | reg
| sic | unclear | formula | emph | foreign
| gloss | hi | mentioned | soCalled | term
| title | ptr | ref | xptr | xref
| s | seg | gi | eg | bibl
| biblFull | figure | cit | q | label
| list | listBibl | note | stage | table
| text | anchor | gap | index | interp
| interpGrp | lb | milestone | pb
)*"
>
<!ELEMENT p %prose; >
Общие атрибуты всех элементов
Все элементы документов TEI Lite имеют следующие общие (необязательные) атрибуты (я привожу фрагменты объявления списка атрибутов).
Глобальные атрибуты
5 атрибутов являются общими и в полной спецификации TEI. Первые четыре из них объединены в т. н. класс глобальных атрибутов:
w id ID #IMPLIED
Уникальный (в пределах документа) идентификатор элемента; должен начинаться с буквы, может содержать буквы, цифры, дефисы и точки.
w n CDATA #IMPLIED
Имя или номер элемента; может использоваться любая последовательность символов. Значение этого атрибута не обязательно должно быть уникальным в документе. Часто применяется для записи традиционных систем ссылок или нумерации (глав и т. п.).
w lang IDREF #IMPLIED
Язык текста в данном элементе; если значение не указано, считается, что в элементе использован тот же язык, что и в окружающем контексте. Значение атрибута – ссылка на элемент language в TEI-заголовке документа.
w rend CDATA #IMPLIED
Указывает способ начертания элемента в оригинале текста: italic (курсив), roman (прямой светлый шрифт), display block (выделенный блок) и т. п. Значением может быть любая строка символов.
Пятый атрибут – TEIform – имеет разное значение для каждого из элементов. Значением TEIform является строка, обозначающая так называемее «каноническое имя» элемента. Например для абзаца:
TEIform CDATA "p"
Эти значения определены в DTD TEI/TEI Light, так что заботиться о придании значения этому атрибуту нет необходимости. Атрибут предназначен для идентификации элементов в случае допустимых модификаций DTD – значение этого атрибута при переименовании элемента модифицировать нельзя.
TEI Light в дополнение к глобальным атрибутам определяет ещё 4 общих атрибута: три атрибута связывания (в полной DTD TEI эти три атрибута не являются глобальными, а относятся к отдельному классу атрибутов связывания) и один – указания интерпретации (в полной DTD TEI этот атрибут выделен в отдельный класс атрибутов анализа).
Связывание
Простейший механизм связывания любых элементов обеспечивает атрибут corresp, значением которого является список идентификаторов элементов:
w corresp IDREFS #IMPLIED
Связывает элемент с одним или несколькими соответствующими (в смысле, определяемом целями разметки данного документа/корпуса) элементами.
TEI/TEI Light содержат и более мощные механизмы связывания, использующие специальные элементы (ref и ptr для связей внутри документа; xref и xptr – для связей с другими документами; anchor и seg – для создания точек и сегментов, с которыми можно осуществлять связь). Использование элементов (а не атрибута corresp) для организации связей позволяет указывать роли связей и создавать разнообразные структуры связей.
Использование XML (и SGML) для разметки произвольных концепций, накладываемых на текст, порождает серьёзную проблему: сегменты текста, соответствующие элементам одной из концепций, не являются строго вложенными в сегменты текста, которые соответствуют элементам другой концепции, в то время как структурные языки разметки требуют вложенности элементов. Преодолеть эту проблему можно, используя упомянутые механизмы связывания, однако зачастую проще связать несколько сегментов текста (или других элементов) в цепочку, соответствующую концепции разметки, которая по каким-то причинам не совместима с основной разметкой текста. Для облегчения этой задачи служат два атрибута, позволяющие явно указать отношение следования:
w next IDREF #IMPLIED
Связывает данный элемент со следующим элементом в некоторой совокупности элементов.
w prev IDREF #IMPLIED
Соединяет данный элемент с предыдущим элементом в некоторой совокупности элементов.
Интерпретация
w ana IDREFS #IMPLIED
Связывает элемент и его интерпретацию.
Идентификаторы в списке идентификаторов – значении атрибута ana, – должны принадлежать так называемым элементам интерпретации: interp или interpGrp, – или элементу note.
Лекция 7. Заголовок TEI (электронный титульный лист).
Визуализация документа TEI
Размеченный текст должен быть снабжён метаинформацией, документирующей сам текст, кодировку, вносимые изменения и др. Эта метаинформация необходима как исследователям, использующим размеченный текст, так и программам, которые этот текст обрабатывают, а также и каталогизаторам (в библиотеках). Содержание этой метаинформации похоже на содержание титульного листа печатного издания.
Поскольку основной текст (тело) документа TEI может вообще практически не содержать разметки, заголовок TEI является важнейшим элементом документа TEI. Поэтому рассмотрим заголовок TEI подробно.
Общие сведения о заголовке TEI
Метаинформация в документе TEI размещается в обязательном заголовке TEI:
<!ELEMENT teiHeader
(fileDesc, encodingDesc*, profileDesc*, revisionDesc?) >
Структура заголовка TEI
Заголовок TEI состоит из четырёх частей, лишь первая из которых – описание файла, fileDesc – обязательна. Таким образом, минимальный заголовок TEI имеет вид:
<teiHeader>
<fileDesc>...</fileDesc>
</teiHeader>
Почти всегда, однако, присутствуют и необязательные элементы.
Следует отличать заголовок TEI (элемент teiHeader), предназначенный для размещения в нём метаинформации, от элемента front, предназначенного для разметки вводной части текста.
Полная версия TEI в некоторых случаях (например, при разметке корпуса) допускает использование нескольких заголовков TEI. TEI Light разрешает использовать лишь единственный заголовок TEI.
Остановимся вначале на каждом элементе заголовка TEI кратко:
w Описание файла (элемент fileDesc) содержит полное библиографическое описание самого компьютерного файла. Когда здесь говорится о компьютерном файле, имеется в виду вся совокупность физических сущностей, на которые разбит документ TEI.
Из этого описания пользователь может получить точную библиографическую ссылку, а библиотекарь или работник архива может создать правильную библиографическую запись, идентифицирующую наличие этого файла в коллекции.
Описание файла также включает информацию об источнике, из которого был создан электронный документ.
w Описание кодирования (элемент encodingDesc) предназначено для подробного отражения связей между электронным документом и его источником (источниками). Оно предназначено для детального описания таких аспектов преобразования текста в электронную форму, как нормализация, устранение неоднозначностей; здесь также приводится информация об использованной разметке, глубине анализа и т. п.
w Параметры текста (элемент profileDesc) – это классификационная и контекстная информация о тексте.
В этом элементе могут присутствовать предметные рубрики, история создания, персоналии, связанные с текстом (как ответственные лица, так и описываемые в тексте), и т. п. Этот элемент часто используется при работе с корпусами – в этом случае для значений вложенных в него элементов применяются словари с контролируемой лексикой, что позволяет, например, автоматизировать отбор текстов для последующей обработки.
w История изменений (элемент revisionDesc). Этот элемент используется для управления версиями размеченного документа.
Типы содержимого в заголовке TEI
w Проза
Большинство элементов заголовка содержат элементы прозы, такие как абзац или список. Некоторые элементы, однако, могут содержать только символьные данные (возможно, с разметкой фразового уровня).
w Группирующие элементы. Имена группирующих элементов заканчиваются суффиксом Stmt (например, editionStmt или titleStmt)
Группирующие элементы используются для записи структурированной информации, например, соответствующей области библиографического описания. Зачастую группирующий элемент имеет две альтернативы: структурированную (состоящую из отдельных элементов) и неструктурированную. В неструктурированном варианте используется один элемент, формально содержащий прозу, в котором разметка составных частей выполнена в соответствии с местными традициями (например, библиографическое описание в соответствии с ГОСТ 7.1–2003).
w Объявления. Имена элементов объявлений имеют суффикс Decl (например, subjectDecl или refsDecl).
Объявления содержат информацию о конкретном применении разметки в данном тексте, зачастую в кодированном виде. На эту информацию можно ссылаться в разметке текста, используя атрибут decls.
w Описания. Имена элементов объявлений имеют суффикс Desc (например, settingDesc или projectDesc). Эти элементы содержат тексты соответствующих описаний.
Описание файла
Элемент fileDesc – первый и единственный обязательный элемент заголовка TEI:
<!ELEMENT fileDesc
(titleStmt, editionStmt?, extent?, publicationStmt, seriesStmt?,
notesStmt?, sourceDesc+) >
Структура этого элемента напоминает структуру библиографического описания. Элемент fileDesc содержит три обязательных (titleStmt, publicationStmt и sourceDesc) и четыре необязательных элемента. Все эти (как обязательные, так и необязательные) элементы имеют только глобальные атрибуты.
Группа заглавия
Элемент titleStmt группирует информацию о заглавии произведения и лицах, ответственных за интеллектуальное содержание произведения. Этот элемент идёт первым в описании файла и является обязательным.
<!ELEMENT titleStmt
(title+, (author | editor | sponsor | funder | principal | respStmt)*)
>
Группа заглавия содержит заглавие, данное электронному произведению (это заглавие может, вообще говоря, отличаться от заглавия произведения-источника), а также может содержать один или несколько необязательных элементов, несущих в себе сведения об ответственности, идентифицирующие автора, разметчика, составителя и др. лиц (физических и/или организаций), каким-либо образом ответственных за электронный документ.
В сведениях об ответственности должны присутствовать элементы author – автор произведения – и principal – автор электронной размеченной версии. Остальные сведения об ответственности факультативны.
Все имена и названия организаций должны приводиться в наиболее развёрнутой форме (в частности, персональные имена – не только в виде фамилий с инициалами, но, по крайней мере, в виде фамилий и полных личных имён).
Пример
<titleStmt>
<title>Two stories by Edgar Allen Poe: electronic version</title>
<author>Poe, Edgar Allen ()</author>
<respStmt>
<resp>compiled by</resp> <name>James D. Benson</name>
</respStmt>
</titleStmt>
Заглавие
Заглавие – это элемент прозы. Для удобства дальнейшего описания я сначала определю две параметрические сущности, которые в совокупности определяют все элементы прозы (см. описание абзаца выше):
<!ENTITY % proseGeneral
#PCDATA
| ident | code | kw | abbr | address
| date | name | num | rs | time
| add | corr | del | orig | reg
| sic | unclear | formula | emph | foreign
| gloss | hi | mentioned | soCalled | term
| title | ptr | ref | xptr | xref
| s | seg | gi
>
<!ENTITY % proseNotInPerson
" eg | bibl | biblFull | figure | cit | q | label
| list | listBibl | note | stage | table | text"
>
<!ENTITY % prose
"(%proseGeneral; | %proseNotInPerson; | %body. marks; )*"
>
<!ELEMENT title %prose; >
Элемент title имеет два (сверх обычных глобальных) атрибута:
w level – библиографический уровень заглавия (статья – article, книга – monograph, журнал – journal, продолжающееся издание – series, неопубликованный материал – unpublished):
level (a | m | j | s | u) #IMPLIED
w type – вид заглавия, в соответствии с принятой (коллективом, размечавшим текст) типологией заглавий:
type CDATA #IMPLIED
Элемент title содержит основное заглавие файла, включая все альтернативные заглавия и подзаголовки. Форма, в которой представляется заглавие, оставляется на усмотрение того, кто создаёт этот элемент. Если электронный текст является производным от существующего неэлектронного источника, то следует в элементе title воспроизвести точное заглавие этого источника, дополнив его фразой типа «электронный вариант / издание / текст» и т. п. для того, чтобы надёжно отличать размеченный документ от исходного (в том числе в каталогах, содержащих описания обоих документов).
Руководство по TEI настоятельно не рекомендует использовать системное имя файла в качестве значения элемента title, поскольку системное имя файла подвержено частым изменениям.
Полезным руководством по определению того, как следует формировать заглавие, может служить ГОСТ 7.1–2003 6.
Автор, редактор, спонсор, финансовая поддержка, ответственный исполнитель
Все эти элементы содержат сведения о лицах или организациях, выступающих в определённой роли относительно данного текста. В этих элементах допустимы не все элементы прозы.
w author
<!ELEMENT author ( %proseGeneral; | %body. marks; )* >
Имя персоны или коллектива, которые являются автором произведения; первичные сведения об ответственности.
w editor
<!ELEMENT editor ( %proseGeneral; | %body. marks; )* >
Вторичные сведения об ответственности. Элемент содержит информацию о редакторах, составителях, переводчика и пр. лицах (персонах или организациях), участвовавших в создании произведения.
w sponsor
<!ELEMENT sponsor ( %proseGeneral; | %body. marks; )* >
Название организации или лица, оказавшего спонсорскую (не обязательно финансовую) поддержку созданию произведения.
w funder
<!ELEMENT funder ( %proseGeneral; | %body. marks; )* >
Название организации, структуры или лица, ответственных за финансирование проекта разметки или создания данного текста.
w principal
<!ELEMENT principal ( %proseGeneral; | %body. marks; )* >
Имя лица, ответственного за создание данного электронного текста
Сведения об ответственности
Для детализации указания сведений об ответственности используется элемент respStmt:
<!ELEMENT respStmt ( resp | name | %body. marks; )+ >
Обычно этот элемент содержит пару элементов resp и name:
w resp
<!ELEMENT resp ( %proseGeneral; | %body. marks; )* >
Содержит фразу, описывающую вид интеллектуальной ответственности.
w name
<!ELEMENT name ( %proseGeneral; | %body. marks; )* >
Содержит имя или именную фразу.
Группа издания
Группа издания – элемент editionStmt – объединяет информацию, относящуюся к одному изданию текста:
<!ELEMENT editionStmt ((edition, respStmt*) | p+) >
<!ELEMENT edition ( %proseGeneral; | %body. marks; )* >
Элемент editionStmt содержит либо фразу, описывающую издание (элементы p – абзацы), либо структурированную информацию в виде элемента edition, описывающего особенности издания, и списка (respStmt*) сведений об ответственности, относящихся к указанному изданию.
Термин «издание» по отношению к печатным текстам используется в TEI в традиционном смысле. По отношению к электронным документам «издание» примерно эквивалентно версии (version) или выпуску (release). Слова «издание», «версия» и т. п. должны включаться в содержимое элемента editionStmt (в элемент edition или p). Все даты в элементах edition или p внутри элемента editionStmt должны быть заключены в элемент date.
Слова «подверсия» (revision) или обновление (update), напротив, не могут служить признаком «издания». Все изменения в электронной версии текста, однако, могут быть зафиксированы в элементе revisionDesc – «История изменений» (см. ниже).
Размер
Необязательный элемент extent описывает размер электронного текста, размещенного на некотором носителе, в каких-либо приемлемых единицах. Этот элемент не имеет никакой специальной структуры:
<!ELEMENT extent ( %proseGeneral; | %body. marks; )* >
Примеры:
<extent>между 1 16-битовым мегабайтом и
2 16-битовыми мегабайтами</extent>
<extent>4.2 MB</extent>
<extent>4532 bytes</extent>
<extent>3200 предложений</extent>
<extent>5 3.5" дискет высокой плотности</extent>
Группа выходных данных (сведения о публикации)
Группа выходных данных – обязательный элемент publicationStmt – объединяет информацию, относящуюся к публикации или распространению исходного или электронного текста. Этот элемент содержит либо прозу, либо структурированную информацию. В этом элементе разрешены маркирующие элементы (%body. marks;):
<!ENTITY % pubInfo
"(publisher | distributor | authority | pubPlace |
address | idno | availability | date) "
>
<!ELEMENT publicationStmt
( ( p, (%body. marks;)* )+ | (%pubInfo;, (%body. marks;)* )+ )
>
В группе выходных данных обязательно присутствие информации об одном из трёх лиц или организаций: издателе (publisher), распространителе (distributor) или о лице или организации, отвечающей за доступность произведения (authority). Остальные элементы необязательны: место издания – pubPlace, почтовый или иной адрес – address, стандартный или нестандартный идентификационный номер издания – idno, сведения о доступности (включая информацию об авторских правах) – availability, дата публикации – date (именно дата публикации; дата создания документа приводится в элементе profileDesc – Параметры текста). Рекомендуется приводить элементы именно в указанном порядке.
Пример:
<publicationStmt>
<publisher>Oxford University Press</publisher>
<pubPlace>Oxford</pubPlace>
<date>1989</date>
<idno type='ISBN'>-4</idno>
<availability>
<p>Copyright 1989, Oxford University Press</p>
</availability>
</publicationStmt>
Группа серии
Необязательный элемент seriesStmt объединяет информацию о серии, к которой принадлежит публикация. На «библиографическом жаргоне» серию можно определить одним из трёх способов:
w Группа отдельных публикаций, связанных друг с другом тем фактом, что каждая публикация, кроме собственного заглавия, имеет также общее, объединяющее все эти публикации, заглавие. Индивидуальные публикации могут быть, а могут и не быть пронумерованы.
w Каждый из двух или более томов литературных произведений, лекций, статей, или других однородных публикаций, изданных последовательно.
w Пронумерованная последовательность томов внутри периодического или продолжающегося издания.
Элемент seriesStmt содержит либо прозу, либо структурированную информацию.
<!ELEMENT seriesStmt ((title+, (idno | respStmt)*) | p+) >
Все элементы содержимого группы серии уже были рассмотрены выше. В элементе title следует указывать атрибут level со значением s (серия). В использовании элемента idno в группе серии есть некоторые особенности: обычно используются не менее двух элементов idno. Один содержит стандартный номер (ISSN), а другой – номер публикации в серии:
<seriesStmt>
<title level="s">
Machine-Readable Texts for the Study of Indian Literature
</title>
<respStmt>
<resp></resp>
<name>Jan Gonda</name>
</respStmt>
<idno type="vol">1.2</idno>
<idno type='ISSN'>0 </idno>
</seriesStmt>
Номера публикации в серии рекомендуется кодировать арабскими цифрами с точкой в качестве разделителя: вместо VI/xix:33 в содержимом элемента idno должно стоять 6.19.33.
Группа примечаний
Группа примечаний – notesStmt – содержит разнообразные примечания (структурированный текст – %structuredText; – может включать анонимные блоки ab, элементы стихотворного текста l и lg, абзацы p и прямую речь персонажей sp, – всё это может появляться в тексте примечания):
<!ELEMENT notesStmt (note)+ >
<!ENTITY % structuredText "ab | l | lg | p | sp" >
<!ENTITY % extendedText "%prose; | %structuredText;" >
<!ELEMENT note (%extendedText;)* >
Элемент note имеет, кроме глобальных, ещё 6 атрибутов (напомню, что значение по умолчанию #IMPLIED означает, что атрибут не является обязательным):
Имя атрибута | Тип значения атрибута | Описание |
type | CDATA #IMPLIED | Тип примечания |
resp | CDATA #IMPLIED | Указывает лицо, ответственное за данное примечание (автор, редактор, переводчик и пр.) |
place | CDATA "unspecified" | Есть ли примечание в основном тексте |
anchored | (yes | no) "yes" | Указано ли конкретное место примечания в тексте (в виде ссылки ил описания места) |
target | IDREFS #IMPLIED | Идентификаторы отрезков текста, к которым относится примечание |
targetEnd | IDREFS #IMPLIED | Идентификаторы элементов, которые завершают отрезки текста, к которым относится примечание (при необходимости должны использоваться пустые элементы) |
В традиционной библиографии некоторые виды информации о произведении размещаются в примечаниях. TEI требует, чтобы для перечисленных ниже видов метаинформации использовались специально предназначенные для них элементы:
w Происхождение, назначение, художественная форма, жанр или другая интеллектуальная категория – profileDesc.
w Формальный реферат, не содержащий оценки произведения – profileDesc.
w Подробное библиографическое описание (традиционного, как правило, не электронного) источника или источников текста электронного документа – sourceDesc.
w Любая информация, относящаяся к выходным данным, распространению текста (включая то, как можно получить текст), любая информация об ограничениях или условиях доступа – publicationStmt.
w Общедоступные идентификационные номера и шифры (прежде всего, ISBN и ISSN) – publicationStmt (вложенный элемент idno).
Элемент notesStmt можно использовать для передачи следующей информации о файле и его особенностях:
w Дат (например, «предположительно, 1983».
w Имён лиц и названий коллективов (организаций), имеющих отношение к процессу создания и разметки электронного документа, но которые по каким-то причинам не упомянуты в сведениях об ответственности.
w Доступности электронного документа на тех или иных носителях; доступности документации; доступности имеющей отношение к электронному документу дополнительной информации (например, в случае неполной оцифровки/разметки исходного источника).
w Языке текста и реферата.
w Уникальном названии, присвоенном серии в Международной системе данных о сериях (ISDS).
w Связанных публикациях (например, описывающих текст произведения – источника).
Пример:
<notesStmt>
<note>Historical commentary provided by Mark Cohen.</note>
<note>OCR scanning done at University of Toronto.</note>
</notesStmt>
Группа источника
Последний элемент описания файла – обязательный элемент sourceDesc. Он предназначен для передачи информации об источнике (источниках), которые послужили основой для создания электронного размеченного текста – документа TEI. Таким источником может быть печатный текст, рукопись, другой компьютерный файл, аудио или видеозапись, и др., или любая комбинация подобных источников. Источник, впрочем, может и вовсе отсутствовать. Элемент sourceDesc содержит библиографическое описание источника.
Элемент sourceDesc содержит либо прозу (абзац p), либо (предпочтительнее) структурированное библиографическое описание:
<!ELEMENT sourceDesc (p | bibl | biblFull | listBibl)+ >
Полная DTD TEI допускает использование ещё двух элементов для описания источника в случае, когда источником послужила записанная устная речь: scriptStmt – для описания того, как речь была записана на бумаге, recordingStmt – для описания того, какой набор физических записей был использован (включая информацию об оборудовании).
Пример (из оригинального руководства по TEI):
<sourceDesc>
<p>No source: created in machine-readable form.</p>
</sourceDesc>
Производные документы TEI
Если источником документа TEI является другой документ TEI, то данные из заголовка TEI этого второго документа должны быть включены в заголовок первого документа в соответствии со следующими правилами:
|
Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 |


