Рис.18-1. Грубое схематическое изображение энергетического ландшафта белковой цепи: на рисунке мы можем изобразить только две координаты (q1 и q2), описывающих конформацию цепи, тогда как реальная конформация белковой цепи описывается сотнями координат. Широкая щель между глобальным энергетическим минимумом и прочими энергетическими минимумами необходима для того, чтобы стабильная укладка цепи разрушалась бы только путем термодинамического перехода типа "все-или-ничего"; это, в свою очередь, обеспечивает надежность функционирования белка, — по принципу "все-или-ничего", как у электрической лампочки.
Я собираюсь показать, что при таких условиях самая стабильная структура небольшого белка или домена автоматически становится центром "быстрых" путей сворачивания, и потому должна сворачиваться за биологически разумное время — секунды или минуты.
Для того чтобы доказать, что самая стабильная белковая структура должна сворачиваться быстро, достаточно показать, что к ней всегда ведет по крайней мере один "быстрый" путь сворачивания. Наличие не одного, а многих путей сворачивания может только ускорить процесс. Напомню, что, в рассматриваемых нами условиях, — вблизи точки термодинамического перехода типа "все-или-ничего" между самой стабильной структурой цепи и клубком, — никакие другие ("полусвернутые") состояния не могут служить ловушками: они не могут "впитать" сворачивающиеся цепи просто в силу малости своей суммарной стабильности. Полезная аналогия здесь, — просачивание воды через трещины в стенке, разделяющей два бассейна: если "емкость" трещин мала, т. е. они не способны впитать всю воду, то каждая новая трещина в стенке может только ускорить наполнение второго бассейна, — так что, рассмотрев просачивание воды через одну трещину, мы оценим минимальную скорость его наполнения.
Чтобы путь был быстр, каждый шаг на этом пути должен проходиться быстро, таких шагов должно быть не слишком много, и — главное! — этот путь не должен преграждаться "барьером" в виде высокой свободной энергии на одной из стадий сворачивания.
Так как время фиксации одного звена мал
(~1 нс., судя по измеренной скорости роста a-спиралей в белковых цепях), — то белок, фиксируя одно свое звено за другим, сворачивался бы мгновенно (100-звенная цепь — за ~100 нс.), если бы при этом он не должен был преодолевать свободно-энергетический барьер.
Итак: главный вопрос, на который надо ответить — высок ли барьер на пути, ведущем к самому стабильному состоянию белковой цепи?
Сворачивание белковой цепи ведет к падению ее энтропии (из-за роста упорядоченности цепи) и энергии (из-за образования в цепи контактов между сближающимися звеньями). Падение энтропии повышает, а падение энергии понижает свободную энергию цепи. Если, по ходу сворачивания, цепь должна очень близко подойти к своей финальной структуре перед тем, как начнут возникать стабилизирующие эту структуру контакты (т. е. цепь должна потерять почти всю свою энтропию перед тем, как начнет выигрываться энергия), — то повышение свободной энергии на первом этапе сворачивания будет пропорциональным числу звеньев в цепи, т. е. очень большим, а сворачивание цепи — страшно медленным (как вы помните, — согласно химической кинетике, время протекания процесса экспоненциально зависит от достигаемого по его ходу максимального повышения свободной энергии). Именно такая картина (проигрыш всей энтропии до начала выигрыша энергии) лежит в основе "парадокса Левинталя", утверждающего, что белковая цепь никак не может — даже за время жизни Вселенной — найти свою самую стабильную структуру.
Напротив, если путь сворачивания таков, что по ходу его падение энтропии практически тут же компенсируется падением энергии, — то он не перекрыт высоким свободно-энергетическим барьером, и сворачивание идет быстро. Именно такая картина, как мы убедимся, и имеет место.
При наличии барьера характерное время протекания процесса оценивается, исходя из классической теории переходного состояния, как
ВРЕМЯ ~ t / exp(-F#/RT) . | (18.1) |
Здесь t ~ 1 нс. — характерное время одного шага процесса сворачивания белка, Т — абсолютная температура, R — газовая постоянная, а F# — высота максимума свободной энергии на пути сворачивания (иными словами, свободной энергии перех
дного состояния) относительно свободной энергии исходного (клубкового) состояния цепи.
Рассмотрим изменение энергии DE, энтропии DS и результирующей свободной энергии DF = DE - TDS по ходу изображенного на Рис.18-2 последовательного сворачивания белка. На каждом шаге этого пути одно звено цепи извлекается из клубка и занимает то положение, в котором оно находится в финальной (самой стабильной) структуре глобулы. Такой процесс может показаться несколько искусственным (откуда звено знает свое место в финальной структуре?). Однако это впечатление исчезает, если заметить, что мы таким образом просто просматриваем "кино" распада стабильной структуры белка в обратном направлении. То есть такой путь сворачивания есть — среди множества других путей сворачивания. И как мы уже договорились, — для минимальной оценки скорости сворачивания, достаточно оценить скорость сворачивания по одному пути.

Рис.18-2. Один из возможных путей последовательного сворачивания белка. Пунктиром показана цепь, остающаяся в неупорядоченном состоянии — "клубке". Выделенная точками область соответствует уже обретшей свою финальную конформацию части белковой глобулы. Жирной линией выделена главная цепь уже свернувшейся глобулы, а ее боковые группы не показаны для упрощения рисунка. Все промежуточные состояния имеют высокую свободную энергию и потому не накапливаются при сворачивании и не могут наблюдаться непосредственно.
По мере роста куска финальной глобулы при ее последовательном сворачивании, — в ней одно за другим восстанавливаются взаимодействия, стабилизирующие финальную структуру. Если растущая структура все время остается более или менее компактной (а именно такого типа пути сворачивания, с изображенными на Рис.18-2 компактными интермедиатами, нас и должны интересовать), то число этих взаимодействий будет расти (а их энергия, соответственно, будет падать) почти пропорционально числу n фиксируемых в глобуле звеньев (Рис.18-3а).

Рис.18-3. Изменение энергии DE (а), энтропии DS (б) и свободной энергии DF=DE-TDS (в) цепи по мере последовательного сворачивания белка (n=0: клубок; n=N: финальная структура) вблизи точки термодинамического равновесия между финальной структурой и клубком. Тонкой линией показана линейная (по n) часть изменения DE(n), DS(n) и DF(n). Полное изменение DE(N) и DS(N) примерно пропорционально N, т. е. числу звеньев в цепи, а максимальное отклонение показанных жирной линией величин DE(n) и DS(n) от линейного (по n) хода относительно мал
, — оно пропорционально всего N 2/3. В результате, так DF(N) и, вместе с ней, линейная часть DF(n) = DE(n) - TDS(n) очень мала вблизи точки равновесия, — то DF#, максимальная величина свободной энергии на пути сворачивания, также пропорциональна всего N 2/3.
Правда, в начале сворачивания падение энергии несколько замедлено, так как прилипание звена к поверхности маленькой глобулы дает, в среднем, меньше контактов, чем прилипание к поверхности большой. В результате, возникает нелинейный поверхностный (т. е. пропорциональный n2/3) член в энергии DE растущей глобулы. Таким образом, максимальное отклонение от линейного падения энергии составляет величину порядка N 2/3, где N — число звеньев в белковой цепи. Это отклонение, очевидно, мало по сравнению с полным падением энергии при сворачивании цепи, которое составляет величину порядка N (точнее — порядка Ne, где e —среднее изменение энергии остатка при его переходе из клубка в нативную глобулу).
Во-вторых, по ходу роста глобулы падает энтропия цепи — примерно пропорционально числу фиксированных в глобуле звеньев (Рис.18-3б). Правда, в начале сворачивания энтропия может падать несколько быстрее из-за образования замкнутых петель, свободно торчащих из растущей глобулы (Рис.18-4). В результате, возникает нелинейный (поверхностный) член в энтропии DS этой растущей глобулы, составляющий (так же, как поверхностный член в DE) величину порядка N 2/3, — что существенно меньше, чем само падение энтропии, составляющее (как и падение энергии) величину порядка N.

Рис.18-4. (а) Компактный интермедиат сворачивания белка с торчащими из него неупорядоченными петлями. Рост интермедиата соответствует смещению границы между фиксированной (глобулярной) и неупорядоченной (клубковой) частями белковой цепи. Успешное сворачивание интермедиата требует правильной заузленности петель в нем: полусвернутая структура с неправильным заузливанием (б) не может прорасти до правильно свернутого белка, ей сперва надо развернуться. Однако в цепи из ~100 звеньев может сформироваться лишь один-два узла, так что перебор интермедиатов с разной заузленностью петель не должен лимитировать скорость сворачивания белков.
Входящие в энтропию DS и энергию DE линейные и нелинейные члены должны войти и в свободную энергию DF=DE-TDS растущей глобулы. Однако, когда мы рассматриваем условия, в которых финальная глобула находится в термодинамическом равновесии с клубком (или почти в равновесии — скажем, когда она всего на пару RT стабильнее клубка), — то в разности DE-TDS большие (пропорциональные n) линейные члены взаимно аннигилируют. В самом деле, в самой точке равновесия DF=0 и в клубке (т. е. при n=0), и в финальной глобуле (т. е. при n=N). Значит, рост энтропии и падение энергии при последовательном сворачивании компенсируют друг друга в главном (линейном по длине свернутой цепи n) члене и, не будь поверхностных эффектов, DF было бы равно 0 на всем рассматриваемом пути сворачивания!
Следовательно, свободно-энергетический барьер связан только с относительно малыми нелинейными поверхностными эффектами. Значит, высота барьера на любом пути последовательного сворачивания (типа того, что изображен на Рис.18-2) пропорциональна не числу звеньев N (как то, фактически, полагал Левинталь), а всего лишь N 2/3 (Рис.18-3в).
В результате время достижения самой стабильной структуры растет с числом звеньев цепи N не "по Левинталю" (т. е. не как 10N и вообще не как экспонента от N), а всего лишь как exp(lN 2/3), — причем здесь наиболее важно то, что N 2/3 существенно меньше, чем N. В то же время тщательная оценка коэффициента l показывает, что l=1±0.5, причем конкретная величина l зависит как от формы укладки цепи в глобулу, так и от распределения сильно и слабо притягивающихся аминокислотных остатков в ней.
Причина того, что самая стабильная структура белка достигается всего за
ВРЕМЯ ~ exp(N 2/3) наносекунд, | (18.2) |
— в том, что падение энтропии по ходу последовательного сворачивания почти тут же компенсируется энергией возникающих взаимодействий.
Отметим, что на рассмотренном нами пути глобулярный зародыш белковой структуры не перестраивается по ходу сворачивания (на что потребовалось бы гигантское время), а все перестройки происходят только в рыхлом клубке (и потому — быстро).
Примечание. Не следует забывать, что мы рассмотрели сейчас только один из возможных сценариев сворачивания, и что не исключено, что рассмотрение других путей сворачивания белка может существенно понизить (но никак не повысить!) оценку времени его сворачивания, даваемую формулой (18.2). Кроме того, наша оценка относится к точке термодинамического равновесия клубка и нативной структуры белка, где экспериментально наблюдаемое время сворачивания этой структуры максимально, — оно может превосходить время сворачивания в нативных условиях на несколько порядков (см. ниже, Рис.18-6). Поэтому оценка (18.2) носит не столько количественный, сколько принципиальный характер, — она решает парадокс Левинталя и объясняет, почему белковая цепь может найти свою самую стабильную структуру не за астрономически огромное, а за биологически-разумное время.
Как бы то ни было, полученная оценка показывает, что цепь из 100 — 150 аминокислотных остатков должна находить свою самую стабильную структуру за секунды или минуты. Она объясняет также, почему большие белки состоят (согласно старому принципу "разделяй и властвуй") из отдельно сворачивающихся стабильных доменов — или, как теперь говорят в данном случае, "фолдонов" (от слова "fold" — "укладка"): иначе их сворачивание было бы слишком медленным.
Для очень длинных цепей, состоящих из многих тысяч звеньев, лимитирующим фактором мог бы стать "квази-Левинталевский" перебор по-разному заузленных интермедиатов — ведь узел в петле (ср. Рис.18-4а и 18-4б) нельзя распустить, не разрушив глобулярную часть интермедиата. Однако столь больших белков в природе нет (может быть, "потому и нет"), а в доменах — цепях из сотни-другой звеньев — много узлов быть не может (компьютерные эксперименты показали, для образования одного узла нужно порядка сотни звеньев цепи), так что перебор по-разному заузленных конформаций увеличит время достижения стабильной структуры домена всего в несколько раз.
До сих пор мы рассматривали сворачивание белковой цепи вблизи точки фазового перехода, когда только одна ("нативная") ее структура сравнима по стабильности с клубком, а все прочие, даже взятые вместе, нестабильны (Рис.18-5а).

Рис.18-5. Сворачивание белка при разных условиях. Тонкие линии показывают уровни свободной энергии клубка (U), самой стабильной ("нативной") укладки цепи (N), и прочих ("misfolded", конкурирующих с самой стабильной) глобулярных структур (М). Точечные пунктирные линии показывают изменение свободной энергии по ходу сворачивания. Относительно небольшая их шероховатость (см. график DF на Рис.18-3) на данном рисунке не показана. Высшие точки этих пунктирных линий соответствуют свободным энергиям переходных состояний на соответствующих путях сворачивания. Основные сценарии процесса сворачивания: (а) Самая стабильная структура цепи N стабильнее клубка U, а все конкурирующие с ней структуры M в сумме менее стабильны, чем клубок. Быстрое и безошибочное сворачивание самой стабильной структуры. (б) Помимо структуры N, многие свернутые структуры M более стабильны, чем клубок U. Идет быстрое сворачивание многих "неправильных" структур с их последующим, очень медленным частичным разворачиванием и переходом в нативную структуру N. Стрелки показывают главное русло процесса самоорганизации стабильной пространственной структуры белка.
Что произойдет со скоростью самоорганизации цепи при удалении от точки фазового перехода? Нас, естественно, интересует случай, когда стабильность нативной структуры растет (когда ее стабильность падает — эта структура просто не образуется).
Рост стабильности нативной глобулы (например, при понижении температуры или при разбавлении раствора денатуранта водой) приводит сперва к увеличению скорости достижения нативной структуры, так как свободная энергия интермедиатов ее сворачивания падает, а конкурирующие с нативной структурой укладки цепи все еще остаются нестабильными (Рис.18-5а). Такое ускорение, действительно, наблюдается (см. подъем графика на Рис.18-6, слева) — до определенного предела (см. плечо графика на левом краю Рис.18-6). По-видимому, максимальная скорость сворачивания должна достигаться, когда конкурирующие с нативной структурой "неправильные" компактные укладки цепи (а их стабильность тоже растет при понижении температуры и разбавлении денатуранта) как раз сравниваются по стабильности с клубком.

Рис.18-6. Зависимость скорости ренатурации и денатурации белка (лизоцима куриного яйца) от концентрации гуанидингидрохлорида. Экспериментальные точки изображают величину kapp = ku®N + kN®u, видимой характерной скорости приближения к равновесию между нативной и развернутой формами белка. Заполненные кружки получены при разбавлении раствора GdmCl, в котором изначально находился денатурированный белок, т. е. при полной или частичной ренатурации белка. При этом kapp » ku®N. Пустые кружки получены при добавлении GdmCl к изначально нативному белку, т. е. при полной или частичной его денатурации. При этом kapp » kN®u. Пунктир показывает экстраполяцию величин ku®N и kN®u в области излома шеврона. Загиб обеих линий экспериментальных точек в нижней части графика (при »4.5 М GdmCl) соответствует области термодинамического равновесия нативной и развернутой форм белка. В этих условиях время ренатурации составляет ~104 сек, — при том, что в "почти чистой" воде, при 0.6 М GdmCl (верхняя левая часть кривой), оно приближается к всего 0.1 сек. Картинка, с небольшими изменениями (добавлены экстраполяционные пунктиры) взята из T. Kiefhaber Proc. Natl. Acad. Sci. USA (1995) 92:.
Область наиболее быстрого сворачивания исследовалась Шахновичем и его сотрудниками на простых компьютерных моделях белковых цепей. Эти работы как бы моделировали сворачивание белка в "нативных условиях". Они показали, что характерное время максимально быстрого сворачивания растет с длиной цепи много медленнее, чем то следует из формулы (18.2), оценивающей время сворачивания в точке термодинамического равновесия нативного и развернутого белка. А именно, компьютерный эксперимент показал, что время максимально быстрого сворачивания растет с числом звеньев цепи N вовсе не как exp(N 2/3), как то должно быть в точке равновесия, а как N 6 для "случайных" цепей и даже как N 4 для цепей, усиленно отобранных на предмет максимально быстрого сворачивания (и обладающих поэтому очень большой щелью между энергией самой стабильной структуры и энергиями прочих компактных укладок цепи).
Все это еще раз подчеркивает обсуждавшуюся на прошлой лекции сильную зависимость времени сворачивания белка от условий опыта, и прежде всего от стабильности нативной и конкурирующих с ней структур белка.
Продолжим качественное обсуждение изменения скорости сворачивания с повышением стабильности глобулярной структуры. Предположим, что изменение внешних условий (температуры или состава растворителя) повышает стабильность глобул — всех глобул, "правильно" и "неправильно" свернутых, а на только нативной — по сравнению с развернутым состоянием цепи.
Если первоначальный рост стабильности глобул относительно клубка ускоряет сворачивание самой стабильной структуры, так как ее стабильность растет, а ее конкуренты все еще остаются нестабильными относительно исходного, развернутого состояния цепи, — то дальнейший рост стабильности глобул делает уже не одну только самую стабильную из них, но и многие из компактных, но "неправильно свернутых" форм более стабильными, чем развернутое состояние цепи (Рис.18-5б): появляются метастабильные "ловушки", способные удержать цепь и замедлить ее попадание в нативную структуру. При этом барьеры на путях, ведущих к некоторым "ловушкам", могут быть ниже, чем на путях, ведущих к самой стабильной структуре; тогда возможно быстрое скатывание к метастабильной структуре (или структурам) глобулы — и очень медленный переход к истинно стабильной структуре.
Стоит отметить, что метастабильные "ловушки" перехватывают сворачивание к стабильной структуре тем эффективнее, чем меньше энергетическая щель между нативной структурой и прочими (метастабильными) укладками цепи. Это еще раз подчеркивает, что быстро находить свою стабильную структуру может только такая цепь, у которой стабильная пространственная структура возникает путем фазового перехода первого рода, — т. е. цепь, у которой энергия ее самой стабильной укладки отделена достаточно большой щелью от энергий конкурирующих с ней структур.
Хочу отметить, что сходство термодинамики самоорганизации белков с фазовыми переходами первого рода экспериментально установлено в работах , а сходство кинетических аспектов этих явлений — в компьютерных экспериментах и .
Здесь у вас естественно возникает вопрос: — Что будет, если у цепи не одна структура отделена от прочих большой энергетической щелью, — а, скажем, две?
Ответ: — Если обе эти структуры стабильны по сравнению с клубком — первой из них свернется та, к которой идет лучший (с немного более низким барьером) путь сворачивания. Однако, если эта структура хоть немного менее стабильна, чем другая, — последует очень медленный (так как по пути придется разворачивать метастабильную структуру, см. Рис.18-5б) переход в наиболее стабильную форму. Этот переход похож на полиморфные переходы в кристаллах (вспомним "оловянную болезнь" — переход белого олова в серое: эта "болезнь" порой уничтожала, при наступлении холодов, целые склады оловянных пуговиц). По-видимому, таких "полиморфных" белков должно быть мало (теоретические оценки показывают, что аминокислотные последовательности, кодирующие одну выделенную стабильную укладку цепи, — редки, а кодирующие сразу две такие укладки — редки в квадрате).
Однако есть основания полагать, что некоторые белки — серпины (есть такие ингибиторы сериновых протеаз) и, возможно, прионы (они вызывают "бешенство коров") — ведут себя именно так. В последнем случае полиморфизм осложнен агрегацией (слипанием), — агрегацией, которой способствует — или которой наводится — "новая", b-структурная форма белка. При агрегации растет эффективная длина цепи фолдона (N), что (согласно сделанным выше оценкам) делает возникновение новой фазы очень медленным. Но зато раз возникший зародыш новой формы агрегированного белка втягивает в агрегат и переводит в эту новую форму все остальные белковые молекулы (по существу — так же, как при "оловянной чуме"). Эта-то агрегация прионов в клетках мозга и приводит в конце концов к летальному исходу при "коровьем бешенстве", почесухе и родственных им болезням с огромным инкубационным периодом. Говорят, к таким болезням относится и старческий маразм...
Впрочем, есть и более простой, "мирный" и хорошо изученный лабораторный пример того же рода: водорастворимый аминокислотный полимер поли(лизин) в пробирке, при рН<10 и температуре 20-50ОС, быстро (за миллисекунды) переходит из клубка в a-спираль, а потом — гораздо медленнее — из a-спирали в b-структуру. Последний переход сопровождается агрегацией и может занимать часы, недели и более, — его время экспоненциально растет с падением стабильности b-структуры; об этом мы уже говорили, обсуждая кинетику образования b—листов.
В заключение обратимся еще раз к энергетическому ландшафту белковой цепи (Рис.18-1) и посмотрим, как самая стабильная структура автоматически пролагает к себе быстрые, преодолевающие парадокс Левинталя пути сворачивания.
Через очень холмистый (скорее — даже скалистый) ландшафт (Рис.18-1) от каждого энергетического минимума широко расходится "воронка" (или, точнее, сеть) более или менее гладких "дорожек", соответствующих разным путям последовательного (Рис.18-2) сворачивания структуры, соответствующей рассматриваемому минимуму. На всех этих путях не происходит перестройки уже свернувшейся части глобулы, и потому на них нет больших ухабов (а маленькие — не помеха, если температура не слишком низка). Двигаясь по этим дорожкам к энергетическому минимуму, молекула выигрывает энергию, но, одновременно, фиксируя свою укладку, — теряет энтропию (Рис.18-3). Чем глубже энергетический минимум — тем круче ведущие к нему дорожки, тем легче преодолевать, идя по ним, "энтропийное сопротивление", возникающее при фиксации укладки скатывающейся в энергетический минимум цепи. Сила этого сопротивления — поскольку оно энтропийное — пропорциональна температуре. При очень высокой температуре оно выталкивает цепь из всех энергетических минимумов, так что цепь не сворачивается вообще. При очень низкой температуре энтропийное сопротивление мало — цепь скатывается в любой ближайший минимум, долго из него выбирается, снова куда-то скатывается, — и никак не может дойти до глобального энергетического минимума (Рис.18-5б). И, наконец, при оптимальной для сворачивания температуре — энтропийное сопротивление преодолевается на путях только к одному, самому глубокому минимуму — куда цепь и попадает достаточно быстро (Рис.18-5а).
Все изложенные соображения о компенсации энергией энтропии по пути самоорганизации и о том, что это решает парадокс Левинталя, применимы и к образованию нативной структуры белка из расплавленной глобулы. Но там сделать какие-либо количественные оценки гораздо сложнее. К тому же хочу подчеркнуть, что эксперимент не показывает принципиального, многопорядкового ускорения самоорганизации белка при образовании расплавленных глобул. Поэтому я и ограничился только более простым случаем образования нативной структуры прямо из клубка.
Лекция 19
С тех пор как стало понятно, что аминокислотная последовательность белковой цепи определяет ее пространственную структуру — возникла проблема предсказания этой структуры по последовательности аминокислотных остатков в белковой цепи.
Чем вызвана потребность в предсказании белковых структур, — кроме чисто интеллектуального интереса: удастся это сделать или нет? Тем, что экспериментально пространственную структуру белка определить куда труднее, чем его аминокислотную последовательность. А понимание механизма действия белка, подбор искусственных ингибиторов или активаторов к нему, — и часто даже просто определение того, чем он занимается в клетке, — настоятельно требует знания его пространственной структуры...
И — конечно же! — интерес к предсказанию пространственных структур белков подогревается воспоминанием о том, какое решающее значение имело предсказание строения двойной спирали ДНК для понимания всего генетического механизма.
Сейчас известно уже порядка сотни тысяч белковых последовательностей. Но "всего" для нескольких тысяч из них, т. е. всего для нескольких процентов определены, рентгеном или ЯМР, их пространственные структуры. При этом многие из недавно определенных последовательностей просто считаны с ДНК или РНК, т. е. никто не определил на опыте, чем занимаются сделанные из них белки.
Что же можно сказать о трехмерных структурах тех последовательностей (я их буду называть "новыми"), для которых эксперимент — рентген или ЯМР — еще не сказал своего слова?
Прежде всего возникает мысль о предсказании трехмерной структуры "новой" последовательности на основании родственного сходства — или, как говорят, "гомологии" ее первичной структуры с какими-то из "старых" последовательностей, пространственное строение коих уже расшифровано. Опыт показывает, что даже не очень сильного сходства последовательностей достаточно для очень хорошего сходства пространственных структур: как говорят, пространственная структура более консервативна, чем аминокислотная последовательность.
Установление гомологии первичных структур — действительно, очень мощный метод выяснения родства структур (причем не только белков, а и фрагментов ДНК и РНК — но я буду говорить о белках).
Однако надежно он работает, надежно устанавливает сходство первичных пространственных структур только на достаточно близких последовательностях. Этот случай иллюстрируется Рис.19-1.

Рис.19-1. Гомологичные аминокислотные последовательности N-концевых фрагментов цитохромов c различных митохондрий и хлоропластов эукариотов. Жирным шрифтом выделены остатки, идентичные оным в человечьем (human) белке, подчеркнуты — сходные с ними. Выравнивание аминокислотных последовательностей взято из [6].
Хуже обстоит дело, когда белки в семействе сильно варьируют (Рис.19-2).
В этом случае на помощь приходит компьютер. Разработано множество программ, ищущих гомологии; с ними можно работать по Интернет. Назову только самые популярные из этих программ: BLAST и PSI-BLAST. Все они строят выравнивание (alignment) последовательностей, добиваясь наибольшего сходства между ними. При этом за повышение сходства часто приходится платить "разрывом" последовательностей (см. знаки "-" на Рис.19-2).

Рис.19-2. Аминокислотные последовательности N-концевых фрагментов рибонуклеаз Н бактерии (E. coli), эукариота (дрожжи, yeast), и трех разных вирусов. Множественное выравнивание делалось так, чтобы не допустить разрывов последовательностей (см. "- - -") внутри a - и b-структурных участков. Жирным шрифтом выделены остатки, идентичные в трех и более из этих пяти последовательностей. Черными точками отмечены остатки активного центра, пустыми кружками и ромбами — остатки, вовлеченные в два гидрофобных ядра этого белка. Внизу отмечены остатки, совпадающие ( = ) и сходные ( : ) у последовательностей из RSV и HIV (помещенных в двух нижних строках выравнивания), а также указана вторичная структура рассматриваемых белков. Картинка, с небольшими изменениями, взята из [7].
Разные программы по-разному оценивают, чего стоит совпадение остатков, чего — сходство, чего — несовпадение, чего — начало разрыва, чего — каждый дополнительный остаток в разрыве. Все эти оценки оптимизируются авторами так, чтобы удовлетворительно выделять белки, сходство которых уже известно из других данных, и потом "зашиваются" в программу. Пользуясь программой, люди ("пользователи") обычно даже не знают, что "хорошо" согласно этой программе, что "плохо", а просто говорят: "установлено, что гомология последовательностей составляет 25%" — имея в виду, что 25% выровненных остатков совпали друг с другом.
Встает вопрос — свидетельствуют ли эти 25% о сходстве последовательностей? Для ответа на этот вопрос необходимо сравнить, пользуясь той же программой, заведомо несходные последовательности. И тут выясняется, что "гомология" несходных белков (Рис.19-3) обычно составляет 10-15%, иногда — 20%, и порой — даже 25%!

Рис.19-3. Выравнивание аминокислотных последовательностей непохожих, негомологичных белков [в данном случае — a-спирального РНК-связывающего белка (rop) и b-структурного белка холодового шока (mjc)] часто дает 10-15% совпадающих аминокислотных остатков [в данном примере — 10 остатков (см. жирный шрифт) из 69, т. е. 14.5%]. Выравнивание сделано программой BLAST.
Эти цифры меняются от программы к программе. Однако накопленный опыт показывает, что тогда, когда "хорошая" (по общему мнению) программа дает совпадение свыше 30-35% остатков, — то выявленной гомологии можно смело доверять (с оговоркой: при длине сравниваемых последовательностей свыше 50, а лучше — 100 остатков). Правда, надо учитывать что 30 — 35% гомологии между последовательностями, верно (как правило) свидетельствуя об их родстве, позволяют правильно наложить друг на друга только 70-80% их пространственных структур, давая неверное предсказание о сходстве остальных 20-30%. А для того, чтобы верно проследить структуру 95% главной цепи "нового" белка, нужно, чтобы его гомология с белком с известной структурой достигала 40 — 50%.
Если же сходство пары последовательностей не превышает 10-15% — то их родство обычно нельзя обнаружить: такое сходство находится на уровне шума (что, однако, не является доказательством, что белки не похожи, не гомологичны — я к этому еще вернусь). А от 15 до 25 и даже до 30% простирается "сумеречная зона": кажется, что белки гомологичны, — но кто поручится?...
К сожалению, все эти цифры не вполне одинаковы у разных программ (и у разных режимов их работы), а к программе они, эти цифры, обычно не прилагаются (они есть в исходных статьях, но кто их читает...), — так что я бы рекомендовал, прежде чем доверяться любой такой программе, проверить ее (именно ее, и именно в используемом Вами режиме) на известных вам белках примерно той же длины (и сходных, и несходных) и понять, "что такое хорошо и что такое плохо" (другой вариант: прочесть исходную статью...).
Больше всего все эти оценки достоверности и недостоверности найденного сходства "плавают" от программы к программе из-за того, что разные авторы по-разному оценивают "штраф" за разрыв последовательности. Если его положить нулевым, то есть позволить делать любые разрывы "бесплатно", — случайно выбранные белковые (и вообще 20-буквенные) последовательности дают сходство на уровне 30-35% (а ДНКовые, 4-буквенные — на уровне 65%)!
Опыт показывает, что оптимальное отделение "похожих" от "непохожих" белковых последовательностей достигается, когда начало разрыва последовательности штрафуется в цену двух или трех дополнительных совпадений аминокислотных остатков, а за удлинение разрыва платится примерно 1/20 — 1/100 этой цены за каждый дополнительный остаток в разрыве.
Я умышленно не говорю ничего о математике, лежащей в основе алгоритмов поиска гомологий. Это нас увело бы слишком далеко. Хочу, однако, произнести ключевые слова: "динамическое программирование". Это — название самого мощного метода, применяемого для оптимизации одномерных систем (а последовательность — система именно одномерная), — в частности, для оптимизации выравнивания одной последовательности относительно другой.
|
Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 |


