| (7) |
Найденный таким образом вектор регрессионных коэффициентов w может быть использован для одновременного предсказания констант кислотности и константы таутомерного равновесия с использованием формул (2) и (4) соответственно. Стоит отметить, что для значения ? = 0 и ? = 1 формула для расчета регрессионных коэффициентов (7) становится идентична классической гребневой регрессии [24] для предсказания кислотности и константы таутомерного равновесия с соответствующей матрицей дескрипторов:
- для ? = 0
![]()
- для ? = 1
![]()
Модели со значениями ? = 0 и ? = 1 в данной работе названы индивидуальными, а модели со значением ? между 0 и 1 — моделями совместного обучения.
Как недостаток предложенного подхода нужно отметить, что, вследствие вычитания из матрицы дескрипторов продукта матрицы дескрипторов реагента ![]()
, при использовании информации о растворителе и температуре в качестве отдельных дескрипторов их вклад обнуляется, и поэтому данные модели становятся принципиально не способны описывать зависимость значения logKT от условий проведения реакции. На практике это означает, что экспериментальные данные по константам таутомерного равновесия и константам кислотности должны быть измерены либо приведены к одинаковым условиям.
Экспериментальная часть
Набор экспериментальных данных по константам таутомерного равновесия был взят из статьи [22] и состоял из 575 реакций, относящихся к 10 разным типам прототропной таутомерии. К ним были добавлены данные, собранные в группе М. Никлауса и опубликованные на сайте https://cactus. nci. nih. gov/download/tautomer/. Нами были оставлены только бинарные равновесия с известной температурой, растворителем и процентным содержанием таутомеров. В результате из последнего набора осталось 67 реакций. Примеры кольчато-цепной таутомерии из обоих наборов данных были удалены, так как для них неприменимо соотношение (1). Таким образом общий набор данных по константам таутомерного равновесия составил 642 реакции. Отдельно нами был собран набор данных по кислотности 1366 органических молекул, измеренных в различных растворителях, а также водно-органических смесях. В полученных наборах данных констант таутомерного равновесия и кислотности измерения проведены в 24 и 13 различных растворителях, соответственно.
Для оценки предсказательной способности модели из работы [22] была взята внешняя контрольная выборка (TEST2 в работе [22]), состоящая из 22 реакций, не встречавшихся в обучающей выборке.

Рисунок 2. Распределение значений logKT набора данных реакций таутомерии

Рисунок 3. Распределение значений рКа набора данных кислотности органических соединений
Атомы, которые являются кислотными центрами в молекулах, были специально помечены. Для набора данных по кислотности соединений это было сделано вручную при сборе данных. В случае процесса таутомеризации молекул необходимо было пометить как кислотный центр атома, от которого отрывается протон для перехода в другой таутомер. Для автоматического определения кислотных центров в реагенте и продукте уравнения реакции таутомерного превращения был использован подход Конденсированного графа реакции (КГР) [25], Рис. 4. Для этого в молекуле были явно указаны все атомы водорода и проведено атом-атомное отображение атомов. Далее структуры были сконвертированы в КГР, который позволяет определить разрывающиеся и образующиеся в ходе реакции связи. В молекуле первого таутомера атом, от которого отрывается протон, был помечен как кислотный центр реагента, а атом в молекуле второго таутомера, к которому данный протон присоединился, является кислотным центром продукта, Рис. 4. Данная процедура определения кислотных центров проводилась для каждой реакции таутомерии, представленной в исходном наборе данных.

Рисунок 4. Схема определения кислотных центров реагента и продукта. Черной точкой отмечены образующиеся связи, а разрывающиеся связи отмечены чертой. Звездочкой (*) были помечены атомы кислотного центра соответствующего таутомера.
Структуры полученных молекул были стандартизованы с использованием утилиты ChemAxon Standardizer [26]: функциональные группы (нитро-, сульфо - и иные) были приведены к стандартному виду, структуры Кекуле переведены в ароматические структуры, если отвечали правилу Хюккеля. Также наборы данных были визуально проинспектированы на наличие ошибок в данных. Для создания атом-атомного отображения использовался консенсусный подход [27] c использованием программ ChemAxon Standardizer [26] и GGA Indigo [28].
Фрагментные дескрипторы для молекул (включая реагент и продукты реакции таутомеризации) были рассчитаны с использованием программы ISIDA Fragmenter [29]. Вектор фрагментных дескрипторов рассчитывается путем подсчета числа вхождений определенного подграфа в молекулярный граф. Программа ISIDA Fragmenter имеет множество опций фрагментации, отвечающих за топологию фрагментов (цепочки или атом с ближайшим окружением), минимальная и максимально допустимая длина фрагментов. При генерации дескрипторов генерировались все возможные фрагменты заданной топологии, при этом если в фрагмент входил помеченный атом, это учитывалось в спецификации фрагмента (стратегия работы с помеченными атомами МА3 в работе [30]). Такой подход позволяет отличить обычные атомы и кислотные центры, при этом полноценно описывает молекулу. В качестве дескрипторов использовались атом-центрированные фрагменты, включающие от 1 до 3 атомов. Такой способ генерации дескрипторов показали хорошие результаты в предыдущей работе по моделированию константы таутомерного равновесия [23].
Вектор дескрипторов для каждой молекулы был получен путем конкатенации вектора фрагментных дескрипторов и дескрипторов, описывающих свойства растворителя и дескриптора температуры. Вектор дескрипторов экспериментальных условий включал 13 дескрипторов рассчитанных для каждого растворителя, описывающих такие свойства как полярность, поляризуемость, способность к образованию водородной связи с растворенной молекулой: константы Каталана SPP [31], SA [32], SB [33], константы Камлета-Тафта ? [34], ? [35], ?* [36], четыре функции от диэлектрической проницаемости ? (функция Борна ![]()
и Кирквуда ![]()
, ![]()
, ![]()
), 3 функции от показателя преломления ![]()
(![]()
, ![]()
, ![]()
. Кроме того был добавлен один дескриптор температуры 1/T, где Т – температура проведения реакции в Кельвинах. Поскольку в ряде случаев использовались водно-органические смеси в качестве растворителя, также использовался дескриптор, значением которого была мольная доля органического растворителя в смеси (для чистого растворителя – 100%).
Подбор оптимальных значений гиперпараметров модели (? и ?) проводился с использованием 10-кратного скользящего контроля (перекрестного контроля) с 5-кратным перемешиванием данных (5?10-CV). Отбор оптимальных моделей проводился с учетом значения коэффициента детерминации Q2 и среднеквадратичной ошибки предсказания RMSE


Отметим, что величина коэффициента детерминации Q2 достигает единицы для идеальной модели, принимает значение 0 – для «нулевой» модели, когда предсказываемая величина приравнивается среднему значению интересующей характеристики по выборке, и может быть отрицательна, если модель не является предсказательной.
В выборке таутомерных превращений часто встречается несколько измерений константы равновесия, проведенные в разных (иногда в очень схожих) условиях для одной и той же реакции. При оценке качества модели в ходе процедуры скользящего контроля возможно, что таутомерные превращения, проведенные в одних условиях, окажутся в обучающей выборке, и точно такие же превращения в других условиях окажутся в контрольной выборке. Если при расчете RMSE и Q2 модели учитывать такие реакции, то полученные значения показателей качества модели оказываются слишком оптимистичными [37]. По этой причине, в ходе скользящего контроля при предсказании констант равновесия для каждой молекулы из контрольной выборки проводилась проверка, присутствовала ли данная структура в обучающей выборке. Если она имелась, то полученные предсказания не учитывались в расчете RMSE и Q2. Для предсказания кислотности такой эффект тоже может наблюдаться, но поскольку случаев измерения кислотности в разных условиях было мало, такой проверки не проводилось.
|
Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 |


