, к-т техн. наук
, д-р техн. наук
Ин-т вычислительной математики
и математической геофизики СО РАН
(Россия, 630090, Новосибирск, пр. Лаврентьева, 6,
тел.(383) 3307332, Е-mail: *****@***sscc. ru )
Интерпретация семантики геоданных, распределенных в Web
Аннотация. В докладе представлены идеи, концепции и сервисы глобальной WWW - информатики, на основе которых предлагается технология семантической интерпретации геоданных распределенных в Web. Программное ядро технологии - оригинальный транслятор текстовых атрибутивных геоданных.
Введение
Парадигма современной информатики предполагает WWW-интеграцию глобальных ДДЗ и локальных отраслевых данных в целостный объект данных - планета Земля, со всем ее природным и антропогенным содержанием. В первой части доклада рассматриваются новейшие понятия и направления глобальной геоинформатики, обуславливающие тему исследования, это: семантическое моделирование в БД; NeoGeo –неогеография; Web-2; Wiki проекты; GeoWeb - Geospatial Web; картографические web-сервисы OGC. Новый подход в разработке локальных ГИС – это вписывание ГИС в глобальный сетевой массив ДДЗ посредством Web –семантики. Обновление глобальных-локальных данных сверху-донизу, и это важно, производится посредством коллективной технологии Wiki, успешно себя зарекомендовавшей в самых разных приложениях WWW. Новый подход отчасти заявлен первой конференцией подобной тематики: Infrastructure: Local to Global, 21-26 июля 2008, Ванкувер, Канада. Первая часть доклада дает представление об идеях, концепциях и парадигмах глобальной информатики, на основе которых во второй части доклада предлагается технология семантической интерпретации геоданных в WEB. Программное ядро технологии - оригинальный транслятор текстовых атрибутивных геоданных, разработанный на языке Java.
1. Семантическое моделирование в БД
В реальном проектировании баз данных преобладает естественный метод семантического моделирования структуры данных, опирающийся на смысл этих данных. В качестве инструмента семантического моделирования используются различные варианты диаграмм сущность-связь. По сути, все варианты диаграмм сущность-связь исходят из одной идеи - рисунок всегда нагляднее текстового описания. Все такие диаграммы используют графическое изображение сущностей предметной области, их свойств (атрибутов), и взаимосвязей между сущностями [1]. Неогеография, рассмотренная ниже, также базируется на методе семантического моделирования атрибутивных геоданных представленных в формате гипертекста WWW.
2. NeoGeo –Неогеография
Неогеография — новое поколение средств и методов работы с геопространственной информацией, отличающееся от предыдущих (карт и ГИС) тремя основными признаками: 1) Использованием географических (широта, долгота, высота), а не картографической (x, y) систем координат; Это позволило решить ключевую проблему обычных карт - сведение высокоточных геоданных воедино; 2) Применением растрового, а не векторного представления географической информации в качестве основного; Это позволяет комплексно отображать местность; 3) Использованием открытых гипертекстовых форматов представления геоданных. Термин Неогеография (NeoGeo) получил широкое распространение после выхода в свет в декабре 2006 года книги Эндрю Тёрнера "Введение в Неогеографию". NeoGeo представляет собой набор методик и средств, выходящих за рамки “классических” ГИС. NeoGeo объединяет воедино сложные технологии картографии и ГИС и делает их доступными для пользователей и разработчиков. NeoGeo эпохи Web 2.0 предполагает, что картографические данные создаются самими пользователями, которые как правило, не географы-профессионалы. Классический пример решений, выполненных в идеологии NeoGeo - это геопорталы Google Earth и Google Maps.
3. Web 2.0
Появление термина Web 2.0 принято связывать со статьёй "Tim O'Reilly - What Is Web 2.0" от 01.01.01 года. В этой статье Тим О'Рейли выявил некоторые новые принципы создания сайтов в соответствии с общей тенденцией развития интернет-сообщества, и назвал это явление Web 2.0, в противовес "старому" Web 1.0. Исследователи Web 2.0 выделяют несколько основных аспектов этого явления: Web-службы; AJAX (Асинхронные JavaScript и XML); Web-синдикация; Mash-up (Web приложение комбинирущее данные и функции нескольких источников: текстовых, графических, аудио, видео и др.); Метки (теги); Социализация.
4. Wiki проекты
Wiki —web-сайт, структуру и содержимое которого пользователи могут сообща изменять с помощью простых инструментов, предоставляемых самим сайтом. Wiki часто используются для коллективного создания объемных и сложных web-сайтов различной тематики. Семантическая wiki — wiki, модель знаний которой описана на ее страницах. Обычные wiki заполняются структурированным текстом и нетипизированными гиперссылками. Семантические wiki позволяют указывать тип ссылок между статьями, тип данных внутри статей, а также информацию о страницах (метаданные). Цель семантической wiki: обеспечить машинную обработку Web данных с минимальными усилиями для пользователей. По wiki-принципам строят картографические сервисы, пример http://wikimapia. org
5. GeoWeb - Geospatial Web
Geospatial Web или Geoweb подразумевает объединение географической (локально-ориентированной) информации с текущей абстрактной информацией Интернет. Это позволяет создать среду, в которой можно искать вещи на основе местоположения, вместо поиска по ключевым словам. Среда Geoweb - это кибер-инфраструктура, объединяющая Интернет адресацию и иерархическую пространственную адресацию. Таким образом Geoweb характеризуется самосинхронизацией сетевой адресации, времени и места.
6. Картографические web-сервисы OGC
Становятся популярными различные картографические интернет-сервисы, например, Google Earth / Google Maps. Общие принципы и стандарты программного обеспечения такого рода сервисов, разрабатываются и декларируются международной некоммерческой организацией OGC - Open Geospatial Consortium. Одной из первых разработок OGC были стандарты по созданию GML - Geography Markup Language - языка группы XML, предназначенного для описания географически привязанных объектов. GML может быть использован и как язык моделирования, и как язык передачи пространственной информации в сети. Важная спецификация OGC - KML - Keyhole Markup Language: XML - ориентированный язык схем для экспресс-аннотаций и визуализации текущей и будущей Web - основы, двухмерных карт и трехмерных обзоров Земли.
7. Технология семантической интерпретации геоданных
Технология семантической интерпретации геоданных (рис.1) базируется на трансляторе пользовательского мета языка семантической разметки атрибутивных геоданных WEB. Назначение транслятора - автоматизация семантической разметки и преобразования в формат HTML-XML, уже накопленных разнородных атрибутивных геоданных для задач исследования природных ресурсов [3]. Транслятор (рис.2), на основе входного текстового файла разметки геоданных, формирует выходной файл в формате HTML-XML, в том числе онтологии конкретных предметных областей. Технология допускает итеративный процесс семантической разметки и редактирования пользователем промежуточных результатов трансляции, остановленной после интерпретации встроенных функций обработки размеченного текста, если таковые обнаружены транслятором.

Рисунок 1: Блок схема технологии геосемантической разметки в технологических процессах интерпретации геоданных в WEB
Промежуточный результат трансляции - суть добавление к исходному тексту (макроподстановка) результатов его интерпретации в формате входного мета языка, после редакции может быть вновь интерпретирован или окончательно транслирован в формат HTML-XML. Транслятор может быть настроен на различные мета языки пользователей, варьируемые в рамках "правил описания языка". Согласно "правилам" синтаксис языка задается в НФБ (нормальная форма Бэкуса-Наура). Конструкции пользовательского мета языка семантической разметки геоданных:
-- Типы данных, переменных и констант - символьные, текстовые и числовые целые;
-- Служебные слова и символы семантической разметки;
-- Встроенные функции обработки размеченного текста:
- статистика повторяемости ключевых слов в блоке текста,
- проверка грамматики слов на основе машинного словаря русского языка,
- контекстный поиск и замена по образцу,
- замена почтовых адресов, указанных в блоке текста, в реальные географические координаты,
- определение принадлежности имени собственного заданным категориям имен, (фамилия, имя, отчество, название населенного пункта),
- и т. д.
Планируется расширение мета языка управляющими операторами обработки объектов текста.
Генератор гипертекста HTML-XML представляет собой алгоритм обхода дерева и выполнения над ним трех операций. Во-первых, получение типов всех функций и объектов, определение области их видимости. Это позволит автоматически генерировать код для корректной записи аргументов функций и иных объектов. Во-вторых, происходит раскрытие конструкций метаязыка в новые ветви дерева. И последнее - запись обработанных ветвей кода метаязыка обратно во входной файл (макрорасширение и макроподстановка результатов интерпретации функций обработки текста).

Рисунок 2: Принципиальная схема транслятора мета языка для генерации гипертекста HTML-XML.
Заключение
В заключение следует отметить факт разрастающейся, как снежный ком, сферы применения инструментов и стандартов глобальной WWW в локальных областях науки, техники и народного хозяйства. Универсализация локальной информатики в терминах глобальной информатики - процесс добровольный, ибо дает пользователям как правило бесплатный (FreeWare) инструмент, разработанный коллективно и наилучшим образом проверенный большим числом пользователей. Приспособление локальных задач к инструментам решения глобальных задач - объективный процесс развития информационных технологий отраслей промышленности, востребованных на мировом рынке. Вхождение России в процесс глобальной информатизации происходит по мере возвращения отечественной промышленности на передовые позиции в мире. Обоснованная в докладе, находящаяся в стадии реализации и отладки, технология семантической интерпретации геоданных в WEB дает функциональное наполнение базы данных природных явлений, созданной на предыдущем этапе разработки [3].
Работа выполнена частично при финансовой поддержке Российского фонда фундаментальных исследований, проект № 07-07-00085a.
Список литературы
. Семантическая организация пространственных данных. // В сборнике трудов Международной Конференции "ИНТЕРКАРТО - ИНТЕРГИС 11 Устойчивое развитие территорий: теория ГИС и практический опыт" 25 сент.-3 окт. 2005 г.,Ставрополь-Домбай-Будапешт, изд-во СГУ, 2005 г., с.92-96. , , . Интернет технологии в обработке данных дистанционного зондирования Земли // Труды Международного научного конгресса “ГЕО-Сибирь-2006”, 24-28 апреля 2006, Новосибирск, Россия, т.3, ч.1. “Мониторинг окружающей среды, геоэкология, дистанционные методы зондирования Земли и фотограмметрия”, с. 43-51. Калантаев семантической обработки данных космического мониторинга. // Труды Международного научного конгресса “ГЕО-Сибирь-2007”, 25-27 апреля 2007, Новосибирск, Россия, т.3 “Дистанционные методы зондирования Земли и фотограмметрия, мониторинг окружающей среды, геоэкология”, с.162-165.

