, к-т техн. наук
, д-р техн. наук

Ин-т вычислительной математики

и математической геофизики СО РАН

(Россия, 630090, Новосибирск, пр. Лаврентьева, 6,

тел.(383) 3307332, Е-mail: *****@***sscc. ru  )

Интерпретация семантики геоданных, распределенных в Web

Аннотация.  В докладе представлены идеи, концепции и сервисы глобальной WWW - информатики, на основе которых предлагается технология семантической интерпретации геоданных распределенных в Web. Программное ядро технологии - оригинальный транслятор текстовых атрибутивных геоданных.

Введение

Парадигма современной информатики  предполагает WWW-интеграцию  глобальных ДДЗ и локальных отраслевых данных в целостный объект данных - планета Земля, со всем ее природным и антропогенным содержанием.  В первой части доклада рассматриваются новейшие  понятия и направления глобальной геоинформатики, обуславливающие тему исследования, это:  семантическое моделирование в БД; NeoGeo –неогеография;  Web-2;  Wiki проекты;  GeoWeb - Geospatial Web;  картографические web-сервисы OGC.  Новый подход в разработке локальных ГИС – это  вписывание ГИС в глобальный сетевой массив ДДЗ посредством Web –семантики. Обновление глобальных-локальных данных сверху-донизу, и это важно, производится посредством коллективной технологии Wiki, успешно себя зарекомендовавшей в самых разных приложениях WWW. Новый подход отчасти заявлен первой конференцией подобной тематики:  Infrastructure: Local to Global, 21-26 июля 2008, Ванкувер, Канада.  Первая часть доклада дает представление об идеях, концепциях и парадигмах глобальной информатики, на основе которых во второй части доклада предлагается технология семантической интерпретации геоданных в WEB.  Программное ядро технологии - оригинальный транслятор текстовых атрибутивных геоданных, разработанный на языке Java.

НЕ нашли? Не то? Что вы ищете?


1. Семантическое моделирование в БД


В реальном проектировании баз данных преобладает естественный метод семантического моделирования структуры данных, опирающийся на смысл этих данных. В качестве инструмента семантического моделирования используются различные варианты диаграмм сущность-связь. По сути, все варианты диаграмм сущность-связь исходят из одной идеи - рисунок всегда нагляднее текстового описания. Все такие диаграммы используют графическое изображение сущностей предметной области, их свойств (атрибутов), и взаимосвязей между сущностями [1]. Неогеография, рассмотренная ниже, также базируется на методе семантического моделирования атрибутивных геоданных представленных в формате гипертекста WWW.


2. NeoGeo –Неогеография

Неогеография — новое поколение средств и методов работы с геопространственной информацией, отличающееся от предыдущих (карт и ГИС) тремя основными признаками: 1) Использованием географических (широта, долгота, высота), а не картографической (x, y) систем координат; Это позволило решить ключевую проблему обычных карт - сведение высокоточных геоданных воедино;  2) Применением растрового, а не векторного представления географической информации в качестве основного; Это позволяет комплексно отображать местность;  3) Использованием открытых гипертекстовых форматов представления геоданных. Термин Неогеография (NeoGeo) получил широкое распространение после выхода в свет в декабре 2006 года книги Эндрю Тёрнера "Введение в Неогеографию".  NeoGeo представляет собой набор методик и средств, выходящих за рамки “классических” ГИС.  NeoGeo объединяет воедино сложные технологии картографии и ГИС и делает их доступными для пользователей и разработчиков. NeoGeo эпохи Web 2.0 предполагает, что картографические данные создаются самими пользователями, которые как правило, не географы-профессионалы. Классический пример решений, выполненных в идеологии NeoGeo - это  геопорталы Google Earth и Google Maps.


3. Web 2.0


Появление термина Web 2.0 принято связывать со статьёй "Tim O'Reilly - What Is Web 2.0" от 01.01.01 года. В этой статье Тим О'Рейли выявил некоторые новые принципы создания  сайтов в соответствии с общей тенденцией развития интернет-сообщества, и назвал это явление Web 2.0, в противовес "старому" Web 1.0.  Исследователи Web 2.0 выделяют несколько основных аспектов этого явления:  Web-службы;  AJAX (Асинхронные JavaScript и XML);  Web-синдикация;  Mash-up (Web приложение комбинирущее данные и функции нескольких источников:  текстовых, графических, аудио, видео и др.);  Метки (теги); Социализация.


4. Wiki проекты


Wiki —web-сайт, структуру и содержимое которого пользователи могут сообща изменять с помощью простых инструментов, предоставляемых самим сайтом. Wiki часто используются для коллективного  создания  объемных и сложных web-сайтов различной тематики. Семантическая wiki — wiki, модель знаний которой описана на ее страницах. Обычные wiki заполняются структурированным текстом и нетипизированными гиперссылками. Семантические wiki позволяют указывать тип ссылок между статьями, тип данных внутри статей, а также информацию о страницах (метаданные). Цель семантической wiki: обеспечить машинную обработку Web данных с минимальными усилиями для пользователей. По wiki-принципам строят картографические сервисы, пример  http://wikimapia. org

5. GeoWeb - Geospatial Web


Geospatial Web или Geoweb подразумевает объединение географической (локально-ориентированной) информации с текущей абстрактной информацией Интернет.  Это позволяет создать среду, в которой можно искать вещи на основе местоположения, вместо поиска по ключевым словам. Среда Geoweb  - это кибер-инфраструктура, объединяющая  Интернет адресацию и иерархическую пространственную адресацию.  Таким образом Geoweb характеризуется самосинхронизацией сетевой адресации, времени и места.


6. Картографические web-сервисы OGC


Становятся популярными  различные  картографические интернет-сервисы,  например, Google Earth / Google Maps. Общие принципы и стандарты  программного обеспечения такого рода сервисов, разрабатываются и декларируются международной некоммерческой организацией OGC - Open Geospatial Consortium. Одной из первых разработок OGC были стандарты по созданию GML - Geography Markup Language - языка группы XML, предназначенного для описания географически привязанных объектов. GML может быть использован и как язык моделирования, и как язык передачи пространственной информации в сети.  Важная спецификация OGC - KML - Keyhole Markup Language: XML - ориентированный язык схем для экспресс-аннотаций и визуализации текущей и будущей Web - основы, двухмерных карт и трехмерных обзоров Земли.


7. Технология семантической интерпретации геоданных


Технология семантической интерпретации геоданных (рис.1) базируется на трансляторе пользовательского мета языка семантической разметки атрибутивных геоданных WEB. Назначение транслятора - автоматизация семантической разметки и преобразования в формат HTML-XML, уже накопленных разнородных атрибутивных геоданных для задач исследования природных ресурсов [3]. Транслятор (рис.2), на основе входного текстового файла разметки геоданных, формирует выходной файл в формате HTML-XML, в том числе онтологии конкретных предметных областей. Технология допускает итеративный процесс семантической разметки и редактирования пользователем промежуточных результатов трансляции, остановленной после интерпретации встроенных функций обработки размеченного текста, если таковые обнаружены транслятором.


Рисунок 1: Блок схема технологии геосемантической разметки в технологических процессах интерпретации геоданных в WEB

Промежуточный результат трансляции - суть добавление к исходному тексту (макроподстановка) результатов его интерпретации в формате входного мета языка, после редакции может быть вновь интерпретирован или окончательно транслирован в формат HTML-XML. Транслятор может быть настроен на различные мета языки пользователей, варьируемые в рамках "правил описания языка". Согласно "правилам" синтаксис языка задается в НФБ (нормальная форма Бэкуса-Наура). Конструкции пользовательского мета языка семантической разметки геоданных:
-- Типы данных, переменных и констант - символьные, текстовые и числовые целые;
-- Служебные слова и символы семантической разметки;

-- Встроенные функции обработки размеченного текста:

- статистика повторяемости ключевых слов в блоке текста, 

- проверка грамматики слов на основе машинного словаря русского языка,

- контекстный поиск и замена по образцу,

- замена почтовых адресов, указанных в блоке текста, в реальные географические координаты,

- определение принадлежности имени собственного заданным категориям имен, (фамилия, имя, отчество, название населенного пункта),

- и т. д.

Планируется расширение мета языка управляющими операторами обработки объектов текста.

Генератор гипертекста HTML-XML представляет собой алгоритм обхода дерева и выполнения над ним трех операций. Во-первых, получение типов всех функций и объектов, определение области их видимости. Это позволит автоматически генерировать код для корректной записи аргументов функций и иных объектов. Во-вторых, происходит раскрытие конструкций метаязыка в новые ветви дерева. И последнее - запись обработанных ветвей кода метаязыка обратно во входной файл (макрорасширение и макроподстановка результатов интерпретации функций обработки текста).

Рисунок 2: Принципиальная схема транслятора мета языка для генерации гипертекста HTML-XML.

Заключение

В заключение следует отметить факт разрастающейся, как снежный ком, сферы применения инструментов и стандартов глобальной WWW в локальных областях науки, техники и народного хозяйства. Универсализация локальной информатики в терминах глобальной информатики - процесс добровольный, ибо дает пользователям как правило бесплатный (FreeWare) инструмент, разработанный коллективно и наилучшим образом проверенный большим числом пользователей. Приспособление локальных задач к инструментам решения глобальных задач - объективный процесс развития информационных технологий отраслей промышленности, востребованных на мировом рынке. Вхождение России в процесс глобальной информатизации происходит  по мере возвращения отечественной промышленности на передовые позиции в мире.  Обоснованная в докладе, находящаяся в стадии реализации и отладки, технология семантической интерпретации геоданных в WEB дает функциональное наполнение базы данных природных явлений, созданной на предыдущем этапе разработки [3].

Работа выполнена частично при финансовой поддержке Российского фонда фундаментальных исследований, проект № 07-07-00085a.

Список литературы

. Семантическая организация пространственных данных. // В сборнике трудов Международной Конференции "ИНТЕРКАРТО - ИНТЕРГИС 11 Устойчивое развитие территорий: теория ГИС и практический опыт" 25 сент.-3 окт. 2005 г.,Ставрополь-Домбай-Будапешт, изд-во СГУ, 2005 г., с.92-96. , , . Интернет технологии в обработке данных дистанционного зондирования Земли // Труды Международного научного конгресса “ГЕО-Сибирь-2006”, 24-28 апреля 2006, Новосибирск, Россия, т.3, ч.1. “Мониторинг окружающей среды, геоэкология, дистанционные методы зондирования Земли и фотограмметрия”, с. 43-51. Калантаев семантической обработки данных космического мониторинга. // Труды Международного научного конгресса “ГЕО-Сибирь-2007”, 25-27 апреля 2007, Новосибирск, Россия, т.3 “Дистанционные методы зондирования Земли и фотограмметрия, мониторинг окружающей среды, геоэкология”, с.162-165.