Лекція 2.7
Тема: Формати та метадані електронних документів
2.7:1 Формати електронних документів
2.7:1.1 Представлення документів у комп’ютерних системах
Пригадаємо, що електронний документ можна визначити як записану електронну інформацію, яка може розглядатися як одиниця під час здійснення інформаційної діяльності. Електронна інформація фіксується в комп’ютерних системах у вигляді файлів. Отже, електронні документи (далі — документи) функціонують в комп’ютерних системах у вигляді файлів.
Документ може зберігатися в одному файлі або сукупності файлів, або бути частиною файлу (а сам файл, в такому випадку, може складатися з певної кількості документів). Як бачимо, в загальному випадку поняття файл і документ не є тотожніми.
Файл (англ. file — шухляда, тека, папка, швидкозшивач) — концепція в обчислювальній техніці: об’єкт, що дозволяє дістати доступ до якого-небудь ресурсу комп’ютерної системи і що володіє двома ознаками: 1) фіксоване ім'я (послідовність символів, число або щось інше, що однозначно характеризує файл); 2) певне логічне представлення і відповідні йому операції читання/запису. Таким ресурсом може виступати документ або їх сукупність.
За відношенням до файлу документи можуть бути прості (представляються у вигляді одного файлу), складені (представляються у вигляді сукупності файлів) та інкапсульовані (представляються у вигляді частини файлу).
2.7:1.2 Поняття формату
Різні типи файлів зберігають різні види даних у відмінні способи.
Контейнер — це структура, що дозволяє інкапсулювати у собі об'єкти різних типів.
Формат файлу — це усталений стандарт запису даних у файлі даного типу. Програми певним чином зчитують дані з файлів і певним чином записують їх туди. Угода про те, як різні дані перетворюються у певну форму представлення і розташовуються у середині файлу — і є форматом файлу.
Кожному типу файлу відповідає певний формат файлу. Часто формат файлу або тип файлу позначається (але не визначається) його розширенням.
Часто, кажучи про формат або тип документу, мають на увазі формат або тип файлу. Скільки існує форматів файлів — майже стільки може існувати форматів документів.
2.7:1.3 Співвідношення понять текстовий файл та текстовий формат
Двійковий (бінарний) файл — послідовність довільних байтів, що становить собою файл. Назва пов'язана з тим що байти діляться на біти, тобто на двійкові (англ. binary) цифри. Двійкові файли протиставляються текстовим, але насправді, текстові файли є частковим випадком двійкових файлів, а тому під означення «двійковий файл» підходить будь-який файл. Але зазвичай, двійковими називають файли, які не є текстовими, ще частіше так називають файли програм, що виконуються. Звичайними прикладами двійкових файлів є файли програм, що виконуються, і стиснуті дані.
Текстовий файл — послідовність довільних символів, що становить собою файл. Кожен символ з використовуваного набору символів кодується у вигляді одного байта, а іноді у вигляді послідовності двох, трьох і т. д. байтів.
Текстові файли розбиваються на рядки. На сучасних платформах розбивка на рядки кодується символом зміни рядка. Взагалі, текстові файли можуть містити друковані символи, такі як букви, цифри й розділові знаки й деяку кількість керуючих символів, таких як знаки табуляції й зміни рядка.
Простота текстових файлів зробила їх популярним вибором для різноманітних застосовань. Так, текстовий файл часто є структурою, що лежить в основі реалізації більш складних файлів таких як база даних або XML-документ.
Важливо розрізняти прості текстові файли, якими маніпулюють застосунки, що називаються редакторами, та більш складні файли, які створюються за допомогою програм обробки тексту або текстових процесорів (таких як OpenOffice. org або Microsoft Word). Обидва види файлів містять текстовий матеріал. Проте в текстовому файлі міститься тільки посимвольно закодований текст, а у файлі, отриманому за допомогою текстового процесору, записані різноманітні внутрішні коди, що позначають різні шрифти, інформацію про вирівнювання тексту, його колір тощо.
Текстовий формат, або текстові дані (англ. plain text — читаний текст; відкритий текст; текст без форматуючої інформації), — це послідовність символів у комп’ютері (файлі).
На відміну від терміну «текстовий формат», що характеризує вміст даних, термін «текстовий файл» відноситься до контейнера, що зберігає ці дані. Текстовий файл може містити не тільки чистий текст, але і похідні формати — наприклад, HTML-текст.
2.7:1.4 Різновиди форматів текстових документів
Слід не плутати «формат текстового документу» та «текстовий формат документу».
Формати текстових документів поділяють на чотири групи:
1) текстові формати текстових документів;
2) двійкові формати текстових документів;
3) формати текстових документів на основі мов розмітки;
4) XML-ZIP-контейнери — формати текстових документів на основі мови розмітки XML та архівного формату ZIP;
5) портабельні формати текстових документів.
Текстові формати текстових документів:
- текстовий файл (.txt);
Двійкові формати текстових документів:
- Microsoft Word (.doc) (пропрієтарний формат Microsoft); Microsoft Excel (.xls) (пропрієтарний формат Microsoft); Microsoft PowerPoint (.ppt, .pps) (пропрієтарний формат Microsoft).
Формати текстових документів на основі мов розмітки:
- Comma-Separated Values (.csv) — значення, розділені комами, — текстовий формат, призначений для представлення табличних даних. Кожний рядок файлу — один рядок таблиці, а значення стовпців відокремлюються комою (,) або крапкою з комою (;); Rich Text Format (.rtf) (прийнятий Microsoft формат для зберігання форматованого тексту); TeX (.tex); HTML (.html, .htm) — текстові документи, що містять код на мові HTML; XML (.xml).
XML-ZIP-контейнери:
- OpenDocument Text (.odt); OpenDocument Spreadsheet (.ods); OpenDocument Presentation (.odp); OpenDocument Graphics (.odg); Office Open XML Document (docx, .docm) (пропрієтарний формат Microsoft); Office Open XML Workbook (.xlsx, .xlsm) (пропрієтарний формат Microsoft); Office Open XML Presentation (.pptx, .pptm) (пропрієтарний формат Microsoft).
Open Document Format (OpenDocument, ODF, скорочено від OASIS Open Document Format for Office Application — відкритий формат документів для офісних застосунків) — відкритий формат файлів документів для зберігання й обміну офісними документами, доступними для редагування, в тому числі текстовими документами (такими как нотатки, звіти й книги), електронними таблицями, рисунками, базами даних, презентаціями. Цей стандарт розроблений індустріальною спільнотою OASIS і базується на XML-форматі, первісно створеному для OpenOffice. org. 3 травня 2006 року прийнятий як міжнародний стандарт ISO/IEC 26300.
Office Open XML (ще часто називається OOXML) — міжнародний стандарт формату файлів для електронних документів, такі як електронні таблиці, діаграми, презентації та текстові документи, що базується на XML. Формат є zip-архів, що містить текст у вигляді XML, графіку та інші дані.
Портабельні формати текстових документів:
- DjVu (.djvu, .djv) PDF (.pdf)
DjVu (вимовляється «дежавю́», від фр. déjà vu — дежавю — колись вже бачене) — технологія стискання зображення з втратами, розроблене компанією AT&T спеціально для зберігання відсканованих документів — книг, журналів, рукописів та ін., де наявна велика кількість формул, схем, рисунків та рукописних символів, котрі роблять повноцінне розпізнавання такого документа надзвичайно складним та трудоємним. Також це дуже ефективне рішення, коли необхідно передати всі особливості оформлення документа. Наприклад в історичних документах важливим є не тільки зміст, а й колір, фактура паперу, його дефекти: тріщини, сліди від згинів, клякси, залишені сліди предметів тощо.
Portable Document Format (PDF) — відкритий формат файлу, створений і підтримуваний компанією Adobe Systems, для представлення двовимірних документів у незалежному від пристрою виводу та роздільної здатності вигляді. Кожен PDF файл може містити повну інформацію про 2D документ, таку як: тексти, зображення, векторні зображення, відео, інтерактивні форми та ін. В грудні 2007 року, формат PDF було затверджено в якості стандарту ISO 32000.
2.7:2 Метадані електронних документів
2.7:2.1 Поняття метаданих
Метадані (у загальному випадку) — це дані, що характеризують або пояснюють інші дані. Наприклад, значення «123456» само по собі недостатньо виразно. А якщо значенню «123456» зіставлено достатньо виразне ім'я «поштовий індекс» (що вже є метаданими), то в цьому контексті значення «123456» більш осмислене — можна витягувати інформацію про місцеположення адресата, що має даний поштовий індекс.
Оскільки для більшості людей різниця між словами «дані» та «інформація» є тільки з філософської точки зору і не істотна з практичної точки зору, то мають місце наступні визначення:
- Метадані це інформація про дані. Метадані це інформація про інформацію.
Інші визначення
Для терміну метадані немає єдиного формального визначення. Навпаки, існують різні визначення цього терміну. Ось просте і популярне переформулювання:
- Метадані — це дані про дані. Цей термін в широкому сенсі слова використовується для будь-яких «даних про дані»: іменах таблиць, колонок в таблиці, програм і тому подібне.
- Метадані — це дані з більш загальної формальної системи, що описує задану систему даних.
Існують вужчі визначення:
- Метадані — це структуровані дані, що представляють собою характеристики описуваних сутностей для цілей їх ідентифікації, пошуку, оцінки, управління ними.
- Метадані — це набір допустимих структурованих описів, які доступні в явному вигляді і призначення яких допомогти знайти об'єкт. Це визначення використовується набагато рідше, оскільки воно концентрується на одному з призначень метаданих — пошук об'єктів, сутностей, ресурсів — та ігнорує інші призначення.
Відмінність між даними і метаданими. Зазвичай неможливо провести однозначне розділення на дані та метадані у документі, оскільки:
§ Щось може бути як даними, так і метаданими. Так, заголовок статті можна одночасно віднести як до метаданих (як елемент метаданих — заголовок), так і до власне даних (оскільки заголовок є частиною самого тексту).
§ Дані та метадані можуть мінятися ролями. На вірш, що розглядається як дані, може бути написана музика, в цьому випадку весь вірш може бути «прикріплений» до музичного файлу і в цьому випадку розглядається як метадані. Таким чином, віднесення до однієї або іншій категорії залежить від точки зору.
§ Можливе створення мета-мета-…-метаданих. Оскільки, відповідно до звичайного визначення, метадані є даними, то можна створити метадані на метадані, метадані на метадані на метадані і так далі. На перший погляд це може здатися безглуздим, але насправді це є дуже істотною і корисною властивістю даних і метаданих.
Ці міркування застосовні незалежно від вибору визначення метаданих (з приведених вище і не тільки).
Метадані використовуються для підвищення якості пошуку. Пошукові запити, використовуючі метадані можуть врятувати користувача від зайвої ручної роботи по фільтрації. Інформуючи комп'ютер про те, які елементи даних зв'язані і як ці зв'язки враховувати, стає можливим здійснювати достатньо складні операції по фільтрації та пошуку. Наприклад, якщо пошукова система «знає» про те, що «Ван Гог» є «голландським художником», то вона може видати у відповідь на запит про голландських художників веб-сторінку про Ван Гога, навіть якщо слова «голландський художник» не зустрічаються на цій сторінці.
Практично кожний електронний документ має певні метадані. Метадані електронних документів відіграють важливу роль в системах електронного документообігу та автоматизації діловодства і інформаційно-пошукових системах. Метадані можуть, наприклад, включати дату, коли документ був збережений і відомості про особистість користувача, що зберіг його. Системи електронного документообігу та автоматизації діловодства можуть також здобувати метадані з документу автоматично або підказувати користувачеві додати метадані.
2.7:2.2 Класифікація метаданих
Метадані можна класифікувати за таким ознаками:
- Змістом. Метадані можуть або описувати сам ресурс (наприклад, назва і розмір файлу), або вміст ресурсу (наприклад, «у цьому відеофайлі показано як хлопець грає у футбол»). Відношенням до ресурсу в цілому. Метадані можуть відноситься до ресурсу в цілому або до його частин. Наприклад, «Title» (назва фільму) відноситься до фільму в цілому, а «Scene description» (опис епізоду фільму) окреме для кожного епізоду фільму. Можливістю логічного виводу. Метадані можна підрозділити на три шари: нижній шар — це «сирі» дані самі по собі; середній шар — метадані, що описують ці дані; і верхній шар — метадані, які дозволяють робити логічний вивід, використовуючи другий шар.
2.7:2.3 Формат метаданих
Метаданими на практиці зазвичай називають дані, представлені відповідно до одного з форматів метаданих.
Формат метаданих — це стандарт, призначений для формального опису деякої категорії ресурсів (об'єктів, сутностей, документів і т. п.). Такий стандарт зазвичай включає набір полів (атрибутів, властивостей, елементів метаданих), що дозволяють характеризувати даний об'єкт. Наприклад, формат MARC дозволяє описувати книги (і не тільки книги), містить поля для опису назви, автора, тематики і безлічі інших характеристик (формат MARC дозволяє описати сотні характеристик).
Формати метаданих часто розробляються міжнародними організаціями або консорціумами, що включають зацікавлені у появі стандарту державні організації та приватні компанії. Розроблений формат часто закріплюється як стандарт в одній або декількох організаціях, що займаються розробкою і ухваленням стандартів (наприклад W3C, ISO, ANSI і т. д.).


