Поиск семейств ортологов на основе доменной архитектуры

студентка

Московский Государственный Университет имени ,

физический факультет, Москва, Россия

E-mail: *****@***com

Задача отбора семейств генов для любого заданного набора видов – одна из ключевых задач эволюционной геномики. Существующие алгоритмы отбора ортологов основаны на поиске схожих последовательностей с помощью программы BLAST [1] в качестве первичного шага. Очень часто при таком подходе в одну группу могут попасть белки всего лишь с одним общим доменом. Нами был разработан алгоритм, позволяющий разделять белки по группам на основе доменной архитектуры. Алгоритм основан на представлении группы белков, объединенных в одно суперсемейство по признаку статистически значимого сходства, в виде сети. Расстояния между белками в этой сети обратно пропорциональны коэффициенту сходства их доменной архитектуры, который вычисляется как

,

где N’P и N’Q - число доменов в белках P и Q соответственно, а N’PQ - число доменов, присутствующих в обоих белках [2]. Информация о доменной архитектуре бралась из базы данных Conserved Domain Database [3]. Далее, с помощью алгоритма ClusterONE [4] сеть разбивалась на непересекающееся множество подсетей, соответствующих группам гомологичных белков. С помощью алгоритма BranchClust [5] из этих групп впоследствии были выделены семейства ортологов. Алгоритм был протестирован на разных наборах геномов бактерий и архей.

Литература

1. Altschul, S. F., et al. Basic local alignment search tool // J Mol Biol, 19p. 403-10.

2. Lin, K., L. Zhu, and D. Y. Zhang. An initial strategy for comparing proteins at the domain

architecture level // Bioinformatics, 20p. 2081-6.

3. Marchler-Bauer, A., et al. CDD: conserved domains and protein three-dimensional structure //

Nucleic Acids Res, 20Database issue). p. D348-52.

4. Nepusz, T., H. Yu, and A. Paccanaro. Detecting overlapping protein complexes in protein

protein interaction networks // Nat Methods, 20p. 471-2.

5. Poptsova, M. S. and J. P. Gogarten. BranchClust: a phylogenetic algorithm for selecting gene

families // BMC Bioinformatics, 20p. 120.