УДК 541.62/.636
Взаимосвязанные статистические модели для оценки констант равновесия и кислотности таутомеров
© 1, Маджидов1+* Тимур Исмаилович, 1, 1, 1, 2, 3*
1 Кафедра органической химии, Химический институт им. . Казанский (Приволжский) федеральный университет. . г. Казань, 420008. Республика Татарстан, Россия. Тел.: (843) 233-73-71. E-mail: timur. *****@***ru
2 Физический факультет. Московский государственный университет им. . Ленинские горы, ?, г. Москва, 119991. Россия.
Тел.: (495) 939-1013. E-mail: *****@***com
3 Laboratory of Chemoinformatics, University of Strasbourg. B. Pascal, 4. Strasbourg, France.
Phone: (843) 233-73-71. E-mail: *****@***fr
_______________________________________________
*Ведущий направление; +Поддерживающий переписку
Ключевые слова: моделирование «структура-свойство», гребневая регрессия, таутомерия, кислотность, константа равновесия, хемоинформатика, машинное обучение.
Аннотация
Логарифм константы прототропной таутомерии может быть выражен через разность в значениях показателей кислотностей соответствующих таутомеров. Для использования данной зависимости в предсказании константы таутомерного равновесия была предложена модификация метода гребневой регрессии, которая позволяет проводить минимизацию ошибки предсказания одновременно двух моделируемых свойств: константы равновесия реакций прототропной таутомерии и констант кислотности таутомеров, принимающих участие в равновесии.
На основе данного метода были построены модели совместного предсказания константы равновесия реакций прототропной таутомерии и показателей кислотности соответствующих таутомеров. В качестве обучающих выборок были использованы данные по 800 константам равновесия реакций прототропной таутомерии, взятые из опубликованных статей, а также данные по ~1300 константам кислотности органических молекул в различных растворителях, которые были нами специально собраны из литературы. Для построения моделей использовались локальные (помеченные) атом-центрированные фрагментные дескрипторы. Атомы, которые в молекулах таутомеров являются кислотными центрами, были выявлены с использованием подхода Конденсированного графа реакции. Также были использованы дескрипторы, описывающие условия протекания реакций таутомерии и условия измерения кислотности органических молекул.
В ходе исследования с помощью процедуры перекрестного контроля с использованием значения коэффициента детерминации отобраны оптимальные модели совместного обучения. Для сравнения использовались индивидуальные модели, в которых константы кислотности (и константа таутомерного равновесия) предсказывалась с использованием модели, полученной при использовании только данных по константам кислотности (таутомерного равновесия, соответственно) в обучении. Показано, что совместное обучение позволяет построить модель, которая предсказывает константы кислотности не хуже, чем индивидуальные модели, а константы таутомерного равновесия – даже лучше. В отличие от использования индивидуальных моделей, построенная совместная модель обеспечивает корректное соотношение значений предсказываемых свойств.
Введение
Явление, при котором химическое соединение может находиться в нескольких изомерных формах, которые существуют в состоянии динамического равновесия, называется таутомерией. Прототропной таутомерией называют таутомерные превращения, сопровождающиеся переносом протона от одного атома к другому. Таутомерия характерна для многих классов химических соединений. Например, показано [1], что из 103.5 млн химических структур, зарегистрированных в базе данных Национального института рака (США), для 2/3 из них возможно существование различных таутомерных форм.
Явление таутомерии приводит к неоднозначности в представлении структуры соединения, что приводит к проблемам при хранении и обработке химических данных, построении моделей, связывающих структуру и свойства. По этой причине неоднократно подчеркивалась важность учета таутомерных превращений при регистрации соединений, компьютерном дизайне новых лекарственных препаратов и поиске молекул с заданными свойствами [1–6]. В свою очередь это привело к разработке вычислительных подходов, позволяющих проводить генерацию возможных таутомеров химических соединений [7–15], а также оценивать содержание таутомерных форм при равновесии в растворе [3,16–18].

Рисунок 1. Таутомерные превращения между двумя нейтральными таутомерами через их общие анион и катион.
В случае, если две таутомерные формы имеют общий анион (рис. 1), константа таутомерного равновесия может быть выражена через значения констант кислотности соответствующих таутомеров [19]:
| (1) |
Аналогично, константу равновесия можно выразить через константы основности соединений, если его таутомеры имеют общую протонированную форму. Уравнение (1) используется при оценке константы таутомерного равновесия в коммерчески доступных инструментах предсказания содержания таутомерных форм в воде [20,21]. В своих работах [22,23] мы показали, что прямое предсказание констант таутомерного равновесия позволяет добиться большей точности. Недостатком использования уравнения (1) при оценке константы таутомерного равновесия является тот факт, что измерить кислотность всех таутомерных форм исключительно сложно, такие данные весьма немногочисленны. По этой причине в обучении модели кислотности могут использоваться данные по практически неионизирующимся молекулам, и поэтому предсказание константы таутомерного равновесия с использованием уравнения (1) подвержено большой ошибке.
В данной работе мы предложили при построении модели, предсказывающей константы кислотности, использовать уравнение (1) так, чтобы разность этих констант для таутомеров, находящихся в химическом равновесии, как можно точнее соответствовала константе таутомерного равновесия. Метод гребневой регрессии с использованием L2 регуляризации и минимизации квадратов ошибок, который широко используется в моделировании «структура-свойство», позволяет найти аналитическое выражение для модели совместного обучения.
Предположим, требуется построить линейную модель, которая способна предсказывать кислотность некоторого соединения на основе значений дескрипторов объектов обучающей выборки, заданной в виде матрицы ![]()
:
| (2) |
В данном случае вектор регрессионных коэффициентов ![]()
можно найти минимизацией суммы квадратов отклонений предсказанных значений кислотности от экспериментальных ![]()
:
| (3) |
В случае таутомерных равновесий, значения логарифмов констант равновесия вычисляются в соответствии с уравнением (1) как разница кислотности таутомеров правой и левой части уравнения, для удобства называемых нами продуктом и реагентом:
| (4) |
где ![]()
— экспериментальные значения логарифма константы таутомерии для данных реакций, X2 — матрица дескрипторов продукта, X1 — матрица дескрипторов реагента. Оптимальные значения регрессионных коэффициентов ![]()
нужно искать минимизацией ошибки предсказания логарифма константы таутомерии:
| (5) |
Можно отметить, что для оценки константы таутомерного равновесия и кислотности требуются один и тот же набор регрессионных коэффициентов w. Последний можно искать таким образом, чтобы значения регрессионных коэффициентов были оптимальны относительно предсказания обоих величин сразу, то есть регрессионные коэффициенты соответствовали минимуму функционала ошибки предсказания и константы таутомерного равновесия, а также можно ввести L2 регуляризацию на значения коэффициентов для увеличения стабильности расчетов:
| (6) |
где ? — коэффициент регуляризации. Параметр ? принимает значения от 0 до 1 и играет роль коэффициента, управляющего вкладами от ошибок предсказания константы таутомерии и кислотности соединений. Значение ? = 1 соответствует минимизации только функционала ошибки предсказания константы таутомерии (5), значение ? = 0 – минимизации только функционала ошибки предсказания кислотности (3). Значения ? между 0 и 1 соответствует моделям, которые обучаются одновременно как на данных реакций таутомерии, так и на данных по кислотности органических молекул.
Дифференцирование ![]()
по w и приравнивание производной к нулю позволяет найти выражение для расчета оптимального вектора регрессионных коэффициентов w, обеспечивающего минимум функционала (6) в аналитическом виде:
|
Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 |



