Хуже обстоит дело, когда белки в семействе сильно варьируют (Рис.19-2).
  В этом случае на помощь приходит компьютер. Разработано множество программ, ищущих гомологии; с ними можно работать по Интернет. Назову только самые популярные из этих программ: BLAST и PSI-BLAST. Все они строят выравнивание (alignment) последовательностей, добиваясь наибольшего сходства между ними. При этом за повышение сходства часто приходится платить "разрывом" последовательностей (см. знаки "-" на Рис.19-2).
 
 
 

  Рис.19-2. Аминокислотные последовательности N-концевых фрагментов рибонуклеаз Н бактерии (E. coli), эукариота (дрожжи, yeast), и трех разных вирусов. Множественное выравнивание делалось так, чтобы не допустить разрывов последовательностей (см. "- - -") внутри a - и b-структурных участков. Жирным шрифтом выделены остатки, идентичные в трех и более из этих пяти последовательностей. Черными точками отмечены остатки активного центра, пустыми кружками и ромбами  —  остатки, вовлеченные в два гидрофобных ядра этого белка. Внизу отмечены остатки, совпадающие ( = ) и сходные ( : ) у последовательностей из RSV и HIV (помещенных в двух нижних строках выравнивания), а также указана вторичная структура рассматриваемых белков. Картинка, с небольшими изменениями, взята из [7].
 
 

  Разные программы по-разному оценивают, чего стоит совпадение остатков, чего  —  сходство, чего  —  несовпадение, чего  —  начало разрыва, чего  —  каждый дополнительный остаток в разрыве. Все эти оценки оптимизируются авторами так, чтобы удовлетворительно выделять белки, сходство которых уже известно из других данных, и потом "зашиваются" в программу. Пользуясь программой, люди ("пользователи") обычно даже не знают, что "хорошо" согласно этой программе, что "плохо", а просто говорят: "установлено, что гомология последовательностей составляет 25%"  —  имея в виду, что 25% выровненных остатков совпали друг с другом.
  Встает вопрос  —  свидетельствуют ли эти 25% о сходстве последовательностей? Для ответа на этот вопрос необходимо сравнить, пользуясь той же программой, заведомо несходные последовательности. И тут выясняется, что "гомология" несходных белков (Рис.19-3) обычно составляет 10-15%, иногда  —  20%, и порой  —  даже 25%!
 
 
 

НЕ нашли? Не то? Что вы ищете?

  Рис.19-3. Выравнивание аминокислотных последовательностей непохожих, негомологичных белков [в данном случае  —  a-спирального РНК-связывающего белка (rop) и b-структурного белка холодового шока (mjc)] часто дает 10-15% совпадающих аминокислотных остатков [в данном примере  —  10 остатков (см. жирный шрифт) из 69, т. е. 14.5%]. Выравнивание сделано программой BLAST.
 
 

  Эти цифры меняются от программы к программе. Однако накопленный опыт показывает, что тогда, когда "хорошая" (по общему мнению) программа дает совпадение свыше 30-35% остатков,  —  то выявленной гомологии можно смело доверять (с оговоркой: при длине сравниваемых последовательностей свыше 50, а лучше  —  100 остатков). Правда, надо учитывать что 30 — 35% гомологии между последовательностями, верно (как правило) свидетельствуя об их родстве, позволяют правильно наложить друг на друга только 70-80% их пространственных структур, давая неверное предсказание о сходстве остальных 20-30%. А для того, чтобы верно проследить структуру 95% главной цепи "нового" белка, нужно, чтобы его гомология с белком с известной структурой достигала 40 — 50%.
  Если же сходство пары последовательностей не превышает 10-15%  —  то их родство обычно нельзя обнаружить: такое сходство находится на уровне шума (что, однако, не является доказательством, что белки не похожи, не гомологичны  —  я к этому еще вернусь). А от 15 до 25 и даже до 30% простирается "сумеречная зона": кажется, что белки гомологичны,  —  но кто поручится?...
  К сожалению, все эти цифры не вполне одинаковы у разных программ (и у разных режимов их работы), а к программе они, эти цифры, обычно не прилагаются (они есть в исходных статьях, но кто их читает...),  —  так что я бы рекомендовал, прежде чем доверяться любой такой программе, проверить ее (именно ее, и именно в используемом Вами режиме) на известных вам белках примерно той же длины (и сходных, и несходных) и понять, "что такое хорошо и что такое плохо" (другой вариант: прочесть исходную статью...).
  Больше всего все эти оценки достоверности и недостоверности найденного сходства "плавают" от программы к программе из-за того, что разные авторы по-разному оценивают "штраф" за разрыв последовательности. Если его положить нулевым, то есть позволить делать любые разрывы "бесплатно",  —  случайно выбранные белковые (и вообще 20-буквенные) последовательности дают сходство на уровне 30-35% (а ДНКовые, 4-буквенные  —  на уровне 65%)!
  Опыт показывает, что оптимальное отделение "похожих" от "непохожих" белковых последовательностей достигается, когда начало разрыва последовательности штрафуется в цену двух или трех дополнительных совпадений аминокислотных остатков, а за удлинение разрыва платится примерно 1/20  —  1/100 этой цены за каждый дополнительный остаток в разрыве.
  Я умышленно не говорю ничего о математике, лежащей в основе алгоритмов поиска гомологий. Это нас увело бы слишком далеко. Хочу, однако, произнести ключевые слова: "динамическое программирование". Это  —  название самого мощного метода, применяемого для оптимизации одномерных систем (а последовательность  —  система именно одномерная),  —  в частности, для оптимизации выравнивания одной последовательности относительно другой.

  Можно ли распознать гомологичность, родственность последовательностей, если их сходство лежит ниже уровня в 30%,  —  т. е. в "сумеречной зоне" или даже ниже ее? Можно  —  но для этого надо сравнивать интересующую нас последовательность со многими последовательностями семейства, и обращать внимание преимущественно на те позиции в цепи, что доказали свою консервативность именно в этом семействе.
  Рисунок 19-2 показывает, что рибонуклеаза Н вируса иммунодефицита человека (HIV) имеет не очень высокое  —  "на уровне шума"  —  сходство с другими рибонуклеазами Н, если рассматривать всю цепь (так, из 60 выровненных остатков у нее есть всего 9 общих  —  15% совпадений  —  с рибонуклеазой Н из RSV). Однако это сходство проявляется именно в тех ключевых районах, где все остальные рибонуклеазы похожи друг на друга. Это резко повышает достоверность такого сходства. А если еще учесть, что эти "ключевые районы" совпадений охватывают все аминокислотные остатки активного центра, и что сходство концентрируется в участках вторичной структуры, и что оно охватывает около 30% (а не 15%) остатков гидрофобных ядер белка,  —  высокая достоверность переходит в уверенность в правильном опознании гомологии.
  Для опознания гомологии "новых" последовательностей также удобно пользоваться "консенсусными последовательностями" (Рис.19-4), выведенными для уже изученных белковых семейств и подчеркивающими их наиболее консервативные черты. Иногда такие консенсусные последовательности (снабженные данными по частотам встречаемости остатков в каждом месте цепи) называют "профилями первичных структур".
 
 
 

  Рис.19-4. Аминокислотный состав различных позиций в N-концевых фрагментах цитохромов c митохондрий эукариот. Самые важные, консервативные остатки цепи определены однозначно. Подчеркнута последовательность "сайта" Cys-X-X-Cys-His, отвечающего за связывание гема в подавляющем большинстве цитохромов (и не только c, и не только эукариот). Выравнивание аминокислотных последовательностей взято из [6].
 
 

  При опознавании функционального сходства белков следует также обращать внимание на уже установленные для многих функций "сайты"  —  более или менее короткие последовательности, обеспечивающие эти функции (см. на Рис.19-4 сайт Cys-X-X-Cys-His, связывающий гем в цитохромах). Такие сайты собраны в библиотеки, и их поиском занимаются специальные программы, из которых PROSITE является наиболее популярной.

  При установлении структуры "нового" белка по его гомологии с уже изученным надо ясно отдавать себе отчет, что сходство пространственных структур может не распространяться на районы, где последовательности сильно разошлись. В основном это (см. Рис.19-2) районы петель, нерегулярных конформаций белковой цепи. Здесь, с весьма переменным пока успехом, приходится прибегать к конформационным расчетам и другим методам гомологического моделирования, на которых я останавливаться не буду.

  Перейдем к методам предсказания пространственной структуры "новых" последовательностей, не имеющих видимой гомологии с уже расшифрованными белками.
  К ним относится около 2/3 "новых" последовательностей. Поэтому о пространственной укладке большинства последовательностей, получаемых в ходе выполнения генетических проектов, мы не можем догадаться по их гомологии с белками уже известными  —  она или слишком слаба для обнаружения, или отсутствует. Тут-то и возникает настоятельная потребность в решении задачи предсказания пространственной структуры  —  а, в перспективе, и функции белка,  —  по его аминокислотной последовательности (Рис.19-5).
 
 

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62