В 2001 году работа по проекту осуществлялась в рамках поставленных ранее задач. Проведены исследования по следующим направлениям.

1. Компьютерный анализ и моделирование структурно-функциональной организации ДНК

(ИЦиГ СО РАН, ИМ СО РАН, ИВМиМГ СО РАН, ИВТ СО РАН)

Цель работы - изучение фундаментальных закономерностей геномной ДНК, изучение природы кодов, определяющих взаимосвязь между последовательностями геномной ДНК и выполняемыми ими функциями, моделирование и распознавание регуляторных районов, контролирующих функцию геномов, исследование нуклеосомной организации ДНК, поддержка и пополнение баз данных и знаний по структурно-функциональной организации ДНК. В ходе исследований по данному направлению получены следующие результаты.

, , Проскура Е. А. (ИЦиГ СО РАН), (ИВМиМГ СО РАН)

Развитие Интернет доступной базы данных TRRD (Transcription Regulatory Regions Database), предназначенной для накопления экспериментальной информации по структурно - функциональной организации регуляторных областей эукариотических генов

В 2001 году создан новый релиз ТРРД 6.0, который включает экспериментальную информацию о структурно-функциональной организации районов геномной ДНК, вовлеченных в регуляцию транскрипции. Новая версия ТРРД 6.0 доступна по адресу: http://www. bionet. *****/trrd/. В отличие от выпуска 5.0, включавшего 6 баз, данный выпуск TRRD содержит 7 баз данных: TRRDGENES, TRRDUNITS, TRRDSITES, TRRDEXP, TRRDFACTORS, TRRDBIB, TRRDLCR. Новой является база TRRDLCR, содержащая информацию о локус-контролирующих районах (LCR) генов.

В течение 2001 года в рамках проекта было аннотировано 1097 статей, что существенно превышает количество, заявленное в проекте на отчетный период. На основе аннотирования этих статей осуществлен ввод в базу данных TRRD новой информации о 1672 сайтах связывания транскрипционных факторов, 2019 паттернах экспрессии генов. При этом введена информация о регуляции новых 299 генов.

Версия базы данных ТРРД 6.0 содержит описание 1300 генов, 1967 регуляторных единиц, 6250 сайтов связывания транскрипционных факторов и 6371 паттернах экспрессии генов. Информация получена при аннотировании 4426 научных статей. Объем информации в TRRD за отчетный период вырос более чем на 30 процентов. В том числе, в TRRDGENES на 30%, в TRRDUNITS на 36%, в TRRDBIB на 33%, в TRRDEXP на 46%.

Рис. 1.1. Объект исследования - общая модель регуляции транскрипции генов эукариот.

Для представления новых типов информации, важных для описания структурно-функциональных особенностей сайтов связывания транскрипционных факторов, был расширен формат базы данных в версии TRRD 6.0.

В частности, введены новые поля в базе TRRDSITES:

-IP (important positions);

-SC (sequence contradiction);

-PC (positions contradiction);

В поле IP (important positions), представляется информация о нуклеотидах сайта связывания транскрипционного фактора, важных для его функционирования. Поле заполняется на основании экспериментов с временной трансфекцией, EMSA с мутированными и нормальным фрагментами ДНК исследуемого гена, а также экспериментов по интерференции паттернов метилирования и связывания транскрипционного фактора с фрагментом ДНК.

Поле SC (sequence contradiction) заполняется в случае, если при аннотировании обнаруживается противоречие между последовательностью сайта, представленной в статье и соответствующими данными, приведенными в базах данных EMBL/GenBank, которые приводятся в поле SQ. В таком случае последовательность из статьи вносится в поле SC.

Поле PC (positions contradiction) служит для представления в базе данных TRRD авторских вариантов позиций сайтов связывания транскрипционных факторов, полученных при аннотировании научных статей, если они отличаются от вариантов, предоставленных в EMBL.

Была продолжена работа по развитию системы ввода информации в базу данных TRRD, синтаксического и семантического контроля введенной информации. В процессе этой работы увеличено количество контролируемых словарей и существенно увеличено наполнение уже существующих.

Значительно расширены тезаурусы в базе данных TRRD. Тезаурусы, содержащие информацию о тканях и органах организмов, гены которых представлены в TRRD, доступны для пользователей сети Интернет по адресу: http://wwwmgs. bionet. *****/mgs/gnw/trrd/thesaurus/.

Начата работа по созданию методов классификации транскрипционных факторов. На первом этапе этой работы осуществлено создание словаря синонимов транскрипционных факторов, сайты связывания которых представлены в TRRD.

Была продолжена работа по созданию средств, облегчающих пользователю работу с базой TRRD. В настоящее время обеспечены альтернативные варианты поиска информации в TRRD. Во-первых, стандартный поиск, обеспечивающийся системой SRS. Во-вторых, поиск по имени гена и виду организма с помощью специального браузера, который доступен по адресу: (http://wwwmgs. bionet. *****/mgs/gnw/trrd/browse. shtml).

И, наконец, поиск генов по особенностям их экспрессии с использованием специально созданной поисковой системы, основанной на использовании тезаурусов и иерархически организованных словарей тканей, органов клеток и клеточных линий, а так же словарей синонимов. Эта система позволяет делать запросы к SRS-версии TRRD по введенному слову и по всем связанным с ним словам (дочерним по отношению к слову запроса) в соответствующем словаре, а также по всем синонимам одновременно. При этом автоматически производится линковка двух SRS-баз TRRDEXP4 и TRRDGENES4. Существенно облегчает работу пользователя то, что в результате такого запроса он получает список генов, представленных в базе TRRD с указанием их синонимических названий и вида организма, а не просто паттернов экспрессии, как при работе обычной поисковой системы SRS.

НЕ нашли? Не то? Что вы ищете?

Пользователям предоставляется возможность поиска и анализа последовательности ДНК на основе информации, содержащейся в TRRD с помощью следующих специальных программных средств:

- программа BinomSite, обеспечивающая поиск в анализируемой последовательности ДНК областей, гомологичных сайтам связывания транскрипционных факторов, представленных в базе данных TRRD (http://wwwmgs. bionet. *****/mgs/programs/mmsite/);

- программа BLAST, обеспечивающая поиск в базе TRRDUNITS последовательностей, гомологичных анализируемой (http://wwwmgs. bionet. *****/mgs/systems/fastprot/units_blast. html)

Была продолжена работа по созданию графических интерфейсов для отображения структурно-функциональной организации регуляторных районов генов. В текущей версии программы TRRD Viewer применен новый формат представления данных, что обеспечивает более высокую скорость загрузки и повышенную производительность графических функций в сравнении с предыдущей версией программы. Информация представляется в более удобном и корректном виде, легче обнаруживаются ошибки; исключена избыточная серверная часть приложения, что, в свою очередь, повышает быстродействие, устойчивость и безопасность системы. Программа разработана на языке Java с применением JDK 1.1.8 и протестирована в веб-браузерах под операционными системами MS Windows и Linux.

Создана система динамической верификации информации о последовательностях регуляторных районов и сайтов связывания транскрипционных факторов, представленной в базе данных TRRDSITES по последовательностям, представленным в базе данных EMBL.

В результате работы этой системы в базу ТРРД могут вводиться как авторские варианты структуры и последовательности регуляторных районов, полученные при аннотировании научных статей, так и варианты, привязанные к последовательности, соответствующей регуляторной области, представленной в базе данных EMBL. Входящие в систему программы выполняют следующие функции:

- осуществляют семантический анализ описания структуры регуляторных районов и их последовательностей в базе данных TRRD;

- производят сопоставление информации о последовательностях, содержащихся в базе данных TRRD, с соответствующей информацией, представленной в базе данных EMBL;

- оценивают степень соответствия информации, представленной в TRRD и EMBL;

- осуществляют принятие решений по поиску вариантов привязки данных, представленных в TRRD, полученных путем аннотирования публикаций к последовательностям из EMBL.

Еще одной функцией этой системы является автоматическая генерация блока полей с нуклеотидными последовательностями регуляторной единицы в базе TRRDUNITS на основе информации из баз TRRD и EMBL/GenBank.

Разработано онтологическое описание понятий, информация о которых накапливается в базе TRRD. Создано метаописание данных, представленных в TRRD в формате UML с использованием Rational Rose/2000.

Предполагается в дальнейшем использовать это описание для интеграции в единой объектной среде на основе онтологии регуляции транскрипции эукариотических генов и технологий XML и CORBA.

Создана программа автоматического аннотирования (разметка структуры) и графического отображения структуры последовательностей ДНК, введенных пользователем или представленных в карточках EMBL.

Cоздана реляционная версия базы данных TRRD, которая содержит 102 таблицы (52 информационных и 50 таблиц связей). Схема данных реляционной версии TRRD доступна по адресу: http://www. bionet. *****/trrd/RelScheme/

Реляционная версия базы данных TRRD реализована в среде ORACLE8i.

Разработан wrapper для преобразования данных из флэт файла TRRD в формат XML. Разработаны программные средства для загрузки XML файла базы TRRD в реляционные таблицы.

Разработан интерфейс пользователя для выполнения удаленных запросов к реляционной версии базы данных TRRD, ориентированный на решение конкретных задач биоинформатики, в частности, создания выборок последовательностей сайтов связывания транскрипционных факторов и протяженных регуляторных районов.

Схема. Фрагмент онтологического описания структур в разделе ДНК

Степень новизны полученных результатов

База данных TRRD является уникальным информационным ресурсом, не имеющим в мире аналогов, который содержит информацию о структурно-функциональной организации протяженных транскрипционных регуляторных областей генов эукариот и экспрессии этих генов.

Результатом работы над проектом в 2001 году явилось следующее:

-создан новый релиз базы данных TRRD (TRRD 6.0);

-введен большой объем новой уникальной информации в базу данных TRRD;

-на основе аннотирования новой литература продолжалось пополнение уникальных словарей и тезаурусов в базе данных TRRD;

-создана усовершенствованная версия программы ввода данных и заполнения базы TRRD;

-создан словарь синонимов транскрипционных факторов, сайты связывания которых представлены в TRRD;

-создана специальная поисковая система, для поиска генов в базе данных TRRD по особенностям их экспрессии;

На основе правил, подготовленных экспертами, создана система динамической верификации информации о последовательностях регуляторных районов и сайтов связывания транскрипционных факторов, представленной в базе данных TRRD по последовательностям, представленным в базе данных EMBL. Такого рода семантическая интеграция сделана впервые.

- Создана оригинальная программа для графического представления информации, содержащейся в TRRD – TRRD Viewer, которая позволяет представлять информацию о регуляторных районах генов и входящих в них сайтах, описанных в TRRD, в форме иерархически организованной карты с возможностью масштабирования изображения.

- впервые создана реляционная версия базы данных TRRD в среде ORACLE8i.

За рубежом информация по различным аспектам регуляции транскрипции генов эукариот представлена в ряде молекулярно-биологических информационных ресурсов. В частности, в базе данных EPD представлена данные о стартах транскрипции, тканеспецифичности, индуцибельности и функциональной классификации промоторов генов, в базе TRANSFAC содержатся данные о транскрипционных факторах и их сайтах связывания, база COMPEL содержит информацию о композиционных элементах, в регуляторных районах генов. Однако ни одна из перечисленных зарубежных баз данных не дает иерархического описания структурно-функциональной организации регуляторных районов генов эукариот. Это делает базу данных TRRD уникальной по сравнению с имеющимися зарубежными аналогами.

TRRD содержит самую крупную в мире коллекцию аннотированных природных регуляторных районов генов позвоночных, в том числе сайтов связывания транскрипционных факторов.

Большое разнообразие типов информации в TRRD, высокая степень их структуризации, быстрые темпы роста объема делают эту базу данных важнейшим и уникальным информационным ресурсом как для функциональной аннотации вновь секвенированных геномных последовательностей человека и других высших организмов, для интерпретации молекулярных механизмов мутационного нарушения функции генов, для разработки стратегии генотерапии, и трансгенеза, а так же для конструирования искусственных систем продуцентов биологически активных веществ.

Наконец, наличие данных о паттернах экспрессии генов, и функциональных характеристиках их регуляторных районов и регуляторных элементах, описанных в TRRD (например, сайтах связывания транскрипционных факторов) впервые дает возможность анализа молекулярно-генетических систем организмов на уровне генных сетей.

Методы и подходы, использованные в ходе выполнения проекта

Для интеграции полнотекстовых (не формализованных или частично формализованных) баз данных нами используется система Sequal Retrieval System (SRS) v.6. Основными достоинствами системы SRS является возможность быстрого прототипирования и погружения в среду SRS разрабатываемых информационных ресурсов, возможность интеграции с другими молекулярно-генетическими базами данных, реализованными под SRS.

Система SRS использует для сетевого доступа стандартный CGI интерфейс к WWW серверу.

Для описания схемы баз данных, установленных под SRS, использовался объектно-ориентированный язык Icarus.

Использовалась технология создания словарей и тезаурусов, включающих различного вида понятия в области регуляции экспрессии генов и способы использования их для унификации запросов к базе данных.

Реляционная версия базы данных TRRD реализована в среде ORACLE8i.

В качестве обменного формата использовалось XML представление.

Для загрузки данных из флэт файла использовался специально разработанный загрузчик, который предварительно преобразовывал данные в XML формат.

TRRDViewer реализован ввиде Java апплета (jdk 1.1.8).

Программа синтаксической и семантической проверки базы данных TRRD реализована в среде Visual C++.

Доступ к базе данных TRRD и другим информационным ресурсам, созданным в рамках проекта, осуществляется через http сервер (http://www. bionet. *****/trrd/).

(ИЦиГ СО РАН), (ИВМиМГ СО РАН)

Разработка графических интерфейсов для отображения структурно-функциональной организации регуляторных районов ДНК

В рамках проекта была продолжена работа по созданию графических интерфейсов для отображения структурно-функциональной организации регуляторных районов ДНК. Разработана программа визуализации регуляторных районов из базы данных TRRD, отличающаяся от предыдущей версии TRRD_Viewer быстрой загрузкой и повышенной производительностью графических функций. Также, новый формат данных позволяет отображать информацию в более удобном и корректном виде, легче обнаруживать ошибки; исключена избыточная серверная часть приложения, что, в свою очередь, повышает быстродействие, устойчивость и безопасность системы. Программа разработана на языке Java с применением JDK 1.1.8 и протестирована в веб-браузерах под операционными системами MS Windows и Linux.

Рис. 1.2. Пример визуализации регуляторного района гена бета-глобина мыши (Mus musculus).

Разработана программа автоматического аннотирования (разметки структуры) и графического отображения структуры последовательностей ДНК, введенных пользователем или представленных в карточке банка данных EMBL.