Для оценки области применимости модели использовался подход контроля фрагментов. Если вектор фрагментных дескрипторов реагента или продукта реакции из внешней тестовой выборки содержал хотя бы один фрагмент, который никогда не встречался в обучающей выборке, то полагалась что данная молекула не принадлежит области применимости модели. В данном случае предсказания модели нельзя считать надежными.

Результаты и их обсуждение

Выражение (7) было применено для поиска оптимальных значений регрессионных коэффициентов. Для представления молекул был использован подход помеченного атома. Атомы, от которых отрываются протон в ходе кислотно-основного равновесия или при переходе от одного таутомера к другому, были помечены. Далее, был рассчитан вектор фрагментных дескрипторов для всех молекул. Если для молекулы были известны значения кислотности при определенных условиях, то вектор фрагментных дескрипторов был расширен дескрипторами условий. В результате была составлена матрица признаков X, содержащих полученные вектора дескрипторов для всех молекул выборки данных по кислотности, соответствующие значения кислотности были представлены в виде вектора .  Для таутомерных равновесий аналогичная процедура расчета дескрипторов была применена отдельно для молекул левой и правой части уравнения реакции. Дескрипторы условий соответствовали условиям проведения реакции. Таким образом, были созданы матрицы дескрипторов для реагентов и продуктов реакции и . Обращаем внимание, что матрицы, и имеют одинаковое число и последовательность следования дескрипторов в столбцах, что специальным образом контролировалось. Число строк в матрице совпадает с числом имеющихся данных по кислотности, в матрицах и – с числом имеющихся таутомерных равновесий.

НЕ нашли? Не то? Что вы ищете?

Для поиска оптимальных параметров линейной модели w необходимо также подобрать значения гиперпараметров модели ? и ?. Это осуществлялось поиском по сетке из возможных комбинаций ? и ?. Рассматривались значения ? от 0 до 1 с шагом 0.1 и значения , где n изменялся от 1 до 10 с шагом 1. Последние 10 значений были взяты, поскольку обнаружено, что оптимум значения ? при предсказании таутомерии находится близко к единице, но не равен ей. Заметим, что поскольку значения  ? = 0 и 1 входит в диапазон варьирования, то индивидуальные модели константы кислотности и константы таутомерного равновесия также рассматриваются. Рассматриваемые значения коэффициента регуляризации ? были {0.001, 0.003, 0.01, 0.03, 0.1, 0.3, 1, 3, 10}. Тесты показали, что большие и меньшие значения ? не требуются, и оптимум находится в области 0.001-10. Таким образом, было протестировано 189 комбинаций гиперпараметров модели. Точность модели, полученной с использованием данных гиперпараметров, оценивалась с помощью процедуры скользящего контроля.

В диапазоне значений коэффициента регуляризации ? от 0.001 до 0.03 точность предсказания logKT с использованием индивидуальной модели (? =  1)  почти не изменяется и достигает максимума Q2=0.69, а со значения 0.1 начинает закономерно уменьшаться. В тоже время точность предсказания рКа органических молекул по индивидуальной модели (? = 0) повышается с увеличением коэффициента регуляризации ? и достигает своего максимума Q2=0.86  при значении ?=1.0, уменьшаясь при больших значениях ?. Заметим, что индивидуальная модель для предсказания кислотности не способна предсказать константу таутомерного равновесия. Согласно Табл. 1, в этом случае качество предсказаний намного ниже, чем у нулевой модели (значение Q2 отрицательно). Это подтверждает невозможность предсказывать константу таутомерного равновесия с использованием соотношения (1), если модель для предсказания pKa обучалась только на данных по кислотности. По этой причине в работах [20,21] использовались модификации соотношения (1), но, согласно данным работы [22], качество предсказаний и в этом случае остается недостаточно высоким.

Для моделей, использующих одновременно как данные по реакциям таутомерии, так и данные органических молекул, можно выделить несколько случаев. Так, например, лучшая совместная модель относительно качества предсказания logKT характеризуется чуть более высокой точностью предсказания (Q2=0.71), чем индивидуальная модель (Q2=0.69), использующая только данные по реакциям таутомерии. Таким образом, наличие данных по кислотности при обучении модели предсказания таутомерного равновесия позволяет немного улучшить предсказания. В то же время, значения рКа органических соединений данная модель предсказывает заметно хуже индивидуальной модели по кислотности, Табл. 1. Тем не менее, для случая предсказания рКа совместное обучение не дает преимущества в точности предсказаний по сравнению индивидуальной моделью предсказания показателя кислотности. Это не является удивительным, поскольку кислотность молекулы не определяется ее способностью к таутомеризации, уравнение (1) не может быть использовано для нахождения кислотности. Кроме того, была обнаружена комбинация гиперпараметров, с помощью которой была простроена модель, лишь незначительно уступающая в качестве индивидуальным моделям предсказания показателя кислотности и константы таутомерного равновесия (названная компромиссной моделью). Данные гиперпараметры максимизирует среднее значение Q2 предсказания константы таутомерного равновесия и кислотности. Компромиссная модель предсказывает кислотность почти на уровне индивидуальной модели по кислотности и при этом разность кислотностей таутомеров с достаточно высокой точностью воспроизводят экспериментальные значения константы таутомерного равновесия, как это следует из соотношения (1).

Таблица 1. Значения Q2 и RMSE полученные после процедуры скользящего контроля 5?10-CV


Модель

Обучающая выборка

Гиперпараметры

logKT

pKa

RMSE

Q2

RMSE

Q2

Индивидуальная

(logKT)

Реакции таутомерии

?=0.001-0.03

?=1

1.36

0.69

12.02

-6.19

Индивидуальная

(pKa)

Кислотность

?=1.0

?=0

9.54

-14.41

1.67

0.86

Лучшая совместная для logKT

Реакции таутомерии и кислотность

?=0.1

?=0.99688

1.31

0.71

2.45

0.70

Лучшая совместная для pKa

Реакции таутомерии и кислотность

?=1.0

?=0.2

1.56

0.59

1.67

0.86

Компромиссная (предсказание logKT и pKa одновременно)

Реакции таутомерии и кислотность

?=0.001

?=0.99922

1.38

0.68

1.76

0.85


Было интересно понять, насколько кислотность таутомеров, полученная с использованием предложенного подхода, соответствует экспериментальным данным. Для этого в обучающей выборке были идентифицированы молекулы, для которых были известны константы кислотности и которые входили в левую или правую части уравнения таутомерного превращения (соответственно, была известна константа равновесия). Таких случаев было только 3 (приведены на Рис. 5), а для некоторых случаев имелись измерения констант равновесия или кислотности при  различных условиях (на Рис. 5 приведено только одно). Все эти точки были исключены из обучающей выборки. Полученный набор данных использовался для построения модели с использованием значений гиперпараметров, полученных для компромиссной модели. На Рис.5 приведено сравнение разности кислотности таутомеров со значением константы таутомерного равновесия. Кроме того, предсказанное значение кислотности таутомера сравнивалось с экспериментальным значением рКа для той же молекулы, если она была найдена в наборе данных по кислотности органических молекул. При этом предсказания кислотности брались для условий максимально близких к условиям проведения реакции таутомеризации (рис. 5). Как показывает Рис. 5, ошибка предсказания кислотности таутомера находится в пределах 0.4 – 2.3 единиц рКа, что близко к RMSE модели. Таким образом, предсказанные значения константы таутомерии и кислотности соответствующих таутомеров для рассмотренных случаев хорошо согласуются с экспериментом.

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4