Для оценки области применимости модели использовался подход контроля фрагментов. Если вектор фрагментных дескрипторов реагента или продукта реакции из внешней тестовой выборки содержал хотя бы один фрагмент, который никогда не встречался в обучающей выборке, то полагалась что данная молекула не принадлежит области применимости модели. В данном случае предсказания модели нельзя считать надежными.
Результаты и их обсуждение
Выражение (7) было применено для поиска оптимальных значений регрессионных коэффициентов. Для представления молекул был использован подход помеченного атома. Атомы, от которых отрываются протон в ходе кислотно-основного равновесия или при переходе от одного таутомера к другому, были помечены. Далее, был рассчитан вектор фрагментных дескрипторов для всех молекул. Если для молекулы были известны значения кислотности при определенных условиях, то вектор фрагментных дескрипторов был расширен дескрипторами условий. В результате была составлена матрица признаков X, содержащих полученные вектора дескрипторов для всех молекул выборки данных по кислотности, соответствующие значения кислотности были представлены в виде вектора ![]()
. Для таутомерных равновесий аналогичная процедура расчета дескрипторов была применена отдельно для молекул левой и правой части уравнения реакции. Дескрипторы условий соответствовали условиям проведения реакции. Таким образом, были созданы матрицы дескрипторов для реагентов и продуктов реакции ![]()
и ![]()
. Обращаем внимание, что матрицы![]()
, ![]()
и ![]()
имеют одинаковое число и последовательность следования дескрипторов в столбцах, что специальным образом контролировалось. Число строк в матрице ![]()
совпадает с числом имеющихся данных по кислотности, в матрицах ![]()
и ![]()
– с числом имеющихся таутомерных равновесий.
Для поиска оптимальных параметров линейной модели w необходимо также подобрать значения гиперпараметров модели ? и ?. Это осуществлялось поиском по сетке из возможных комбинаций ? и ?. Рассматривались значения ? от 0 до 1 с шагом 0.1 и значения ![]()
, где n изменялся от 1 до 10 с шагом 1. Последние 10 значений были взяты, поскольку обнаружено, что оптимум значения ? при предсказании таутомерии находится близко к единице, но не равен ей. Заметим, что поскольку значения ? = 0 и 1 входит в диапазон варьирования, то индивидуальные модели константы кислотности и константы таутомерного равновесия также рассматриваются. Рассматриваемые значения коэффициента регуляризации ? были {0.001, 0.003, 0.01, 0.03, 0.1, 0.3, 1, 3, 10}. Тесты показали, что большие и меньшие значения ? не требуются, и оптимум находится в области 0.001-10. Таким образом, было протестировано 189 комбинаций гиперпараметров модели. Точность модели, полученной с использованием данных гиперпараметров, оценивалась с помощью процедуры скользящего контроля.
В диапазоне значений коэффициента регуляризации ? от 0.001 до 0.03 точность предсказания logKT с использованием индивидуальной модели (? = 1) почти не изменяется и достигает максимума Q2=0.69, а со значения 0.1 начинает закономерно уменьшаться. В тоже время точность предсказания рКа органических молекул по индивидуальной модели (? = 0) повышается с увеличением коэффициента регуляризации ? и достигает своего максимума Q2=0.86 при значении ?=1.0, уменьшаясь при больших значениях ?. Заметим, что индивидуальная модель для предсказания кислотности не способна предсказать константу таутомерного равновесия. Согласно Табл. 1, в этом случае качество предсказаний намного ниже, чем у нулевой модели (значение Q2 отрицательно). Это подтверждает невозможность предсказывать константу таутомерного равновесия с использованием соотношения (1), если модель для предсказания pKa обучалась только на данных по кислотности. По этой причине в работах [20,21] использовались модификации соотношения (1), но, согласно данным работы [22], качество предсказаний и в этом случае остается недостаточно высоким.
Для моделей, использующих одновременно как данные по реакциям таутомерии, так и данные органических молекул, можно выделить несколько случаев. Так, например, лучшая совместная модель относительно качества предсказания logKT характеризуется чуть более высокой точностью предсказания (Q2=0.71), чем индивидуальная модель (Q2=0.69), использующая только данные по реакциям таутомерии. Таким образом, наличие данных по кислотности при обучении модели предсказания таутомерного равновесия позволяет немного улучшить предсказания. В то же время, значения рКа органических соединений данная модель предсказывает заметно хуже индивидуальной модели по кислотности, Табл. 1. Тем не менее, для случая предсказания рКа совместное обучение не дает преимущества в точности предсказаний по сравнению индивидуальной моделью предсказания показателя кислотности. Это не является удивительным, поскольку кислотность молекулы не определяется ее способностью к таутомеризации, уравнение (1) не может быть использовано для нахождения кислотности. Кроме того, была обнаружена комбинация гиперпараметров, с помощью которой была простроена модель, лишь незначительно уступающая в качестве индивидуальным моделям предсказания показателя кислотности и константы таутомерного равновесия (названная компромиссной моделью). Данные гиперпараметры максимизирует среднее значение Q2 предсказания константы таутомерного равновесия и кислотности. Компромиссная модель предсказывает кислотность почти на уровне индивидуальной модели по кислотности и при этом разность кислотностей таутомеров с достаточно высокой точностью воспроизводят экспериментальные значения константы таутомерного равновесия, как это следует из соотношения (1).
Таблица 1. Значения Q2 и RMSE полученные после процедуры скользящего контроля 5?10-CV
Модель | Обучающая выборка | Гиперпараметры | logKT | pKa | ||
RMSE | Q2 | RMSE | Q2 | |||
Индивидуальная (logKT) | Реакции таутомерии | ?=0.001-0.03 ?=1 | 1.36 | 0.69 | 12.02 | -6.19 |
Индивидуальная (pKa) | Кислотность | ?=1.0 ?=0 | 9.54 | -14.41 | 1.67 | 0.86 |
Лучшая совместная для logKT | Реакции таутомерии и кислотность | ?=0.1 ?=0.99688 | 1.31 | 0.71 | 2.45 | 0.70 |
Лучшая совместная для pKa | Реакции таутомерии и кислотность | ?=1.0 ?=0.2 | 1.56 | 0.59 | 1.67 | 0.86 |
Компромиссная (предсказание logKT и pKa одновременно) | Реакции таутомерии и кислотность | ?=0.001 ?=0.99922 | 1.38 | 0.68 | 1.76 | 0.85 |
Было интересно понять, насколько кислотность таутомеров, полученная с использованием предложенного подхода, соответствует экспериментальным данным. Для этого в обучающей выборке были идентифицированы молекулы, для которых были известны константы кислотности и которые входили в левую или правую части уравнения таутомерного превращения (соответственно, была известна константа равновесия). Таких случаев было только 3 (приведены на Рис. 5), а для некоторых случаев имелись измерения констант равновесия или кислотности при различных условиях (на Рис. 5 приведено только одно). Все эти точки были исключены из обучающей выборки. Полученный набор данных использовался для построения модели с использованием значений гиперпараметров, полученных для компромиссной модели. На Рис.5 приведено сравнение разности кислотности таутомеров со значением константы таутомерного равновесия. Кроме того, предсказанное значение кислотности таутомера сравнивалось с экспериментальным значением рКа для той же молекулы, если она была найдена в наборе данных по кислотности органических молекул. При этом предсказания кислотности брались для условий максимально близких к условиям проведения реакции таутомеризации (рис. 5). Как показывает Рис. 5, ошибка предсказания кислотности таутомера находится в пределах 0.4 – 2.3 единиц рКа, что близко к RMSE модели. Таким образом, предсказанные значения константы таутомерии и кислотности соответствующих таутомеров для рассмотренных случаев хорошо согласуются с экспериментом.
|
Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4 |


