В 2001 году работа по проекту осуществлялась в рамках поставленных ранее задач. Проведены исследования по следующим направлениям.
1. Компьютерный анализ и моделирование структурно-функциональной организации ДНК
(ИЦиГ СО РАН, ИМ СО РАН, ИВМиМГ СО РАН, ИВТ СО РАН)
Цель работы - изучение фундаментальных закономерностей геномной ДНК, изучение природы кодов, определяющих взаимосвязь между последовательностями геномной ДНК и выполняемыми ими функциями, моделирование и распознавание регуляторных районов, контролирующих функцию геномов, исследование нуклеосомной организации ДНК, поддержка и пополнение баз данных и знаний по структурно-функциональной организации ДНК. В ходе исследований по данному направлению получены следующие результаты.
, , Проскура Е. А. (ИЦиГ СО РАН), (ИВМиМГ СО РАН)
Развитие Интернет доступной базы данных TRRD (Transcription Regulatory Regions Database), предназначенной для накопления экспериментальной информации по структурно - функциональной организации регуляторных областей эукариотических генов
В 2001 году создан новый релиз ТРРД 6.0, который включает экспериментальную информацию о структурно-функциональной организации районов геномной ДНК, вовлеченных в регуляцию транскрипции. Новая версия ТРРД 6.0 доступна по адресу: http://www. bionet. *****/trrd/. В отличие от выпуска 5.0, включавшего 6 баз, данный выпуск TRRD содержит 7 баз данных: TRRDGENES, TRRDUNITS, TRRDSITES, TRRDEXP, TRRDFACTORS, TRRDBIB, TRRDLCR. Новой является база TRRDLCR, содержащая информацию о локус-контролирующих районах (LCR) генов.
В течение 2001 года в рамках проекта было аннотировано 1097 статей, что существенно превышает количество, заявленное в проекте на отчетный период. На основе аннотирования этих статей осуществлен ввод в базу данных TRRD новой информации о 1672 сайтах связывания транскрипционных факторов, 2019 паттернах экспрессии генов. При этом введена информация о регуляции новых 299 генов.
Версия базы данных ТРРД 6.0 содержит описание 1300 генов, 1967 регуляторных единиц, 6250 сайтов связывания транскрипционных факторов и 6371 паттернах экспрессии генов. Информация получена при аннотировании 4426 научных статей. Объем информации в TRRD за отчетный период вырос более чем на 30 процентов. В том числе, в TRRDGENES на 30%, в TRRDUNITS на 36%, в TRRDBIB на 33%, в TRRDEXP на 46%.

Рис. 1.1. Объект исследования - общая модель регуляции транскрипции генов эукариот.
Для представления новых типов информации, важных для описания структурно-функциональных особенностей сайтов связывания транскрипционных факторов, был расширен формат базы данных в версии TRRD 6.0.
В частности, введены новые поля в базе TRRDSITES:
-IP (important positions);
-SC (sequence contradiction);
-PC (positions contradiction);
В поле IP (important positions), представляется информация о нуклеотидах сайта связывания транскрипционного фактора, важных для его функционирования. Поле заполняется на основании экспериментов с временной трансфекцией, EMSA с мутированными и нормальным фрагментами ДНК исследуемого гена, а также экспериментов по интерференции паттернов метилирования и связывания транскрипционного фактора с фрагментом ДНК.
Поле SC (sequence contradiction) заполняется в случае, если при аннотировании обнаруживается противоречие между последовательностью сайта, представленной в статье и соответствующими данными, приведенными в базах данных EMBL/GenBank, которые приводятся в поле SQ. В таком случае последовательность из статьи вносится в поле SC.
Поле PC (positions contradiction) служит для представления в базе данных TRRD авторских вариантов позиций сайтов связывания транскрипционных факторов, полученных при аннотировании научных статей, если они отличаются от вариантов, предоставленных в EMBL.
Была продолжена работа по развитию системы ввода информации в базу данных TRRD, синтаксического и семантического контроля введенной информации. В процессе этой работы увеличено количество контролируемых словарей и существенно увеличено наполнение уже существующих.
Значительно расширены тезаурусы в базе данных TRRD. Тезаурусы, содержащие информацию о тканях и органах организмов, гены которых представлены в TRRD, доступны для пользователей сети Интернет по адресу: http://wwwmgs. bionet. *****/mgs/gnw/trrd/thesaurus/.
Начата работа по созданию методов классификации транскрипционных факторов. На первом этапе этой работы осуществлено создание словаря синонимов транскрипционных факторов, сайты связывания которых представлены в TRRD.
Была продолжена работа по созданию средств, облегчающих пользователю работу с базой TRRD. В настоящее время обеспечены альтернативные варианты поиска информации в TRRD. Во-первых, стандартный поиск, обеспечивающийся системой SRS. Во-вторых, поиск по имени гена и виду организма с помощью специального браузера, который доступен по адресу: (http://wwwmgs. bionet. *****/mgs/gnw/trrd/browse. shtml).
И, наконец, поиск генов по особенностям их экспрессии с использованием специально созданной поисковой системы, основанной на использовании тезаурусов и иерархически организованных словарей тканей, органов клеток и клеточных линий, а так же словарей синонимов. Эта система позволяет делать запросы к SRS-версии TRRD по введенному слову и по всем связанным с ним словам (дочерним по отношению к слову запроса) в соответствующем словаре, а также по всем синонимам одновременно. При этом автоматически производится линковка двух SRS-баз TRRDEXP4 и TRRDGENES4. Существенно облегчает работу пользователя то, что в результате такого запроса он получает список генов, представленных в базе TRRD с указанием их синонимических названий и вида организма, а не просто паттернов экспрессии, как при работе обычной поисковой системы SRS.
Пользователям предоставляется возможность поиска и анализа последовательности ДНК на основе информации, содержащейся в TRRD с помощью следующих специальных программных средств:
- программа BinomSite, обеспечивающая поиск в анализируемой последовательности ДНК областей, гомологичных сайтам связывания транскрипционных факторов, представленных в базе данных TRRD (http://wwwmgs. bionet. *****/mgs/programs/mmsite/);
- программа BLAST, обеспечивающая поиск в базе TRRDUNITS последовательностей, гомологичных анализируемой (http://wwwmgs. bionet. *****/mgs/systems/fastprot/units_blast. html)
Была продолжена работа по созданию графических интерфейсов для отображения структурно-функциональной организации регуляторных районов генов. В текущей версии программы TRRD Viewer применен новый формат представления данных, что обеспечивает более высокую скорость загрузки и повышенную производительность графических функций в сравнении с предыдущей версией программы. Информация представляется в более удобном и корректном виде, легче обнаруживаются ошибки; исключена избыточная серверная часть приложения, что, в свою очередь, повышает быстродействие, устойчивость и безопасность системы. Программа разработана на языке Java с применением JDK 1.1.8 и протестирована в веб-браузерах под операционными системами MS Windows и Linux.
Создана система динамической верификации информации о последовательностях регуляторных районов и сайтов связывания транскрипционных факторов, представленной в базе данных TRRDSITES по последовательностям, представленным в базе данных EMBL.
В результате работы этой системы в базу ТРРД могут вводиться как авторские варианты структуры и последовательности регуляторных районов, полученные при аннотировании научных статей, так и варианты, привязанные к последовательности, соответствующей регуляторной области, представленной в базе данных EMBL. Входящие в систему программы выполняют следующие функции:
- осуществляют семантический анализ описания структуры регуляторных районов и их последовательностей в базе данных TRRD;
- производят сопоставление информации о последовательностях, содержащихся в базе данных TRRD, с соответствующей информацией, представленной в базе данных EMBL;
- оценивают степень соответствия информации, представленной в TRRD и EMBL;
- осуществляют принятие решений по поиску вариантов привязки данных, представленных в TRRD, полученных путем аннотирования публикаций к последовательностям из EMBL.
Еще одной функцией этой системы является автоматическая генерация блока полей с нуклеотидными последовательностями регуляторной единицы в базе TRRDUNITS на основе информации из баз TRRD и EMBL/GenBank.
Разработано онтологическое описание понятий, информация о которых накапливается в базе TRRD. Создано метаописание данных, представленных в TRRD в формате UML с использованием Rational Rose/2000.
Предполагается в дальнейшем использовать это описание для интеграции в единой объектной среде на основе онтологии регуляции транскрипции эукариотических генов и технологий XML и CORBA.
Создана программа автоматического аннотирования (разметка структуры) и графического отображения структуры последовательностей ДНК, введенных пользователем или представленных в карточках EMBL.
Cоздана реляционная версия базы данных TRRD, которая содержит 102 таблицы (52 информационных и 50 таблиц связей). Схема данных реляционной версии TRRD доступна по адресу: http://www. bionet. *****/trrd/RelScheme/
Реляционная версия базы данных TRRD реализована в среде ORACLE8i.
Разработан wrapper для преобразования данных из флэт файла TRRD в формат XML. Разработаны программные средства для загрузки XML файла базы TRRD в реляционные таблицы.
Разработан интерфейс пользователя для выполнения удаленных запросов к реляционной версии базы данных TRRD, ориентированный на решение конкретных задач биоинформатики, в частности, создания выборок последовательностей сайтов связывания транскрипционных факторов и протяженных регуляторных районов.

Схема. Фрагмент онтологического описания структур в разделе ДНК
Степень новизны полученных результатов
База данных TRRD является уникальным информационным ресурсом, не имеющим в мире аналогов, который содержит информацию о структурно-функциональной организации протяженных транскрипционных регуляторных областей генов эукариот и экспрессии этих генов.
Результатом работы над проектом в 2001 году явилось следующее:
-создан новый релиз базы данных TRRD (TRRD 6.0);
-введен большой объем новой уникальной информации в базу данных TRRD;
-на основе аннотирования новой литература продолжалось пополнение уникальных словарей и тезаурусов в базе данных TRRD;
-создана усовершенствованная версия программы ввода данных и заполнения базы TRRD;
-создан словарь синонимов транскрипционных факторов, сайты связывания которых представлены в TRRD;
-создана специальная поисковая система, для поиска генов в базе данных TRRD по особенностям их экспрессии;
На основе правил, подготовленных экспертами, создана система динамической верификации информации о последовательностях регуляторных районов и сайтов связывания транскрипционных факторов, представленной в базе данных TRRD по последовательностям, представленным в базе данных EMBL. Такого рода семантическая интеграция сделана впервые.
- Создана оригинальная программа для графического представления информации, содержащейся в TRRD – TRRD Viewer, которая позволяет представлять информацию о регуляторных районах генов и входящих в них сайтах, описанных в TRRD, в форме иерархически организованной карты с возможностью масштабирования изображения.
- впервые создана реляционная версия базы данных TRRD в среде ORACLE8i.
За рубежом информация по различным аспектам регуляции транскрипции генов эукариот представлена в ряде молекулярно-биологических информационных ресурсов. В частности, в базе данных EPD представлена данные о стартах транскрипции, тканеспецифичности, индуцибельности и функциональной классификации промоторов генов, в базе TRANSFAC содержатся данные о транскрипционных факторах и их сайтах связывания, база COMPEL содержит информацию о композиционных элементах, в регуляторных районах генов. Однако ни одна из перечисленных зарубежных баз данных не дает иерархического описания структурно-функциональной организации регуляторных районов генов эукариот. Это делает базу данных TRRD уникальной по сравнению с имеющимися зарубежными аналогами.
TRRD содержит самую крупную в мире коллекцию аннотированных природных регуляторных районов генов позвоночных, в том числе сайтов связывания транскрипционных факторов.
Большое разнообразие типов информации в TRRD, высокая степень их структуризации, быстрые темпы роста объема делают эту базу данных важнейшим и уникальным информационным ресурсом как для функциональной аннотации вновь секвенированных геномных последовательностей человека и других высших организмов, для интерпретации молекулярных механизмов мутационного нарушения функции генов, для разработки стратегии генотерапии, и трансгенеза, а так же для конструирования искусственных систем продуцентов биологически активных веществ.
Наконец, наличие данных о паттернах экспрессии генов, и функциональных характеристиках их регуляторных районов и регуляторных элементах, описанных в TRRD (например, сайтах связывания транскрипционных факторов) впервые дает возможность анализа молекулярно-генетических систем организмов на уровне генных сетей.
Методы и подходы, использованные в ходе выполнения проекта
Для интеграции полнотекстовых (не формализованных или частично формализованных) баз данных нами используется система Sequal Retrieval System (SRS) v.6. Основными достоинствами системы SRS является возможность быстрого прототипирования и погружения в среду SRS разрабатываемых информационных ресурсов, возможность интеграции с другими молекулярно-генетическими базами данных, реализованными под SRS.
Система SRS использует для сетевого доступа стандартный CGI интерфейс к WWW серверу.
Для описания схемы баз данных, установленных под SRS, использовался объектно-ориентированный язык Icarus.
Использовалась технология создания словарей и тезаурусов, включающих различного вида понятия в области регуляции экспрессии генов и способы использования их для унификации запросов к базе данных.
Реляционная версия базы данных TRRD реализована в среде ORACLE8i.
В качестве обменного формата использовалось XML представление.
Для загрузки данных из флэт файла использовался специально разработанный загрузчик, который предварительно преобразовывал данные в XML формат.
TRRDViewer реализован ввиде Java апплета (jdk 1.1.8).
Программа синтаксической и семантической проверки базы данных TRRD реализована в среде Visual C++.
Доступ к базе данных TRRD и другим информационным ресурсам, созданным в рамках проекта, осуществляется через http сервер (http://www. bionet. *****/trrd/).
(ИЦиГ СО РАН), (ИВМиМГ СО РАН)
Разработка графических интерфейсов для отображения структурно-функциональной организации регуляторных районов ДНК
В рамках проекта была продолжена работа по созданию графических интерфейсов для отображения структурно-функциональной организации регуляторных районов ДНК. Разработана программа визуализации регуляторных районов из базы данных TRRD, отличающаяся от предыдущей версии TRRD_Viewer быстрой загрузкой и повышенной производительностью графических функций. Также, новый формат данных позволяет отображать информацию в более удобном и корректном виде, легче обнаруживать ошибки; исключена избыточная серверная часть приложения, что, в свою очередь, повышает быстродействие, устойчивость и безопасность системы. Программа разработана на языке Java с применением JDK 1.1.8 и протестирована в веб-браузерах под операционными системами MS Windows и Linux.

Рис. 1.2. Пример визуализации регуляторного района гена бета-глобина мыши (Mus musculus).
Разработана программа автоматического аннотирования (разметки структуры) и графического отображения структуры последовательностей ДНК, введенных пользователем или представленных в карточке банка данных EMBL.


