Партнерка на США и Канаду по недвижимости, выплаты в крипто

  • 30% recurring commission
  • Выплаты в USDT
  • Вывод каждую неделю
  • Комиссия до 5 лет за каждого referral

Для оценки области применимости модели использовался подход контроля фрагментов. Если вектор фрагментных дескрипторов реагента или продукта реакции из внешней тестовой выборки содержал хотя бы один фрагмент, который никогда не встречался в обучающей выборке, то полагалась что данная молекула не принадлежит области применимости модели. В данном случае предсказания модели нельзя считать надежными.

Результаты и их обсуждение

Выражение (7) было применено для поиска оптимальных значений регрессионных коэффициентов. Для представления молекул был использован подход помеченного атома. Атомы, от которых отрываются протон в ходе кислотно-основного равновесия или при переходе от одного таутомера к другому, были помечены. Далее, был рассчитан вектор фрагментных дескрипторов для всех молекул. Если для молекулы были известны значения кислотности при определенных условиях, то вектор фрагментных дескрипторов был расширен дескрипторами условий. В результате была составлена матрица признаков X, содержащих полученные вектора дескрипторов для всех молекул выборки данных по кислотности, соответствующие значения кислотности были представлены в виде вектора .  Для таутомерных равновесий аналогичная процедура расчета дескрипторов была применена отдельно для молекул левой и правой части уравнения реакции. Дескрипторы условий соответствовали условиям проведения реакции. Таким образом, были созданы матрицы дескрипторов для реагентов и продуктов реакции и . Обращаем внимание, что матрицы, и имеют одинаковое число и последовательность следования дескрипторов в столбцах, что специальным образом контролировалось. Число строк в матрице совпадает с числом имеющихся данных по кислотности, в матрицах и – с числом имеющихся таутомерных равновесий.

НЕ нашли? Не то? Что вы ищете?

Для поиска оптимальных параметров линейной модели w необходимо также подобрать значения гиперпараметров модели ? и ?. Это осуществлялось поиском по сетке из возможных комбинаций ? и ?. Рассматривались значения ? от 0 до 1 с шагом 0.1 и значения , где n изменялся от 1 до 10 с шагом 1. Последние 10 значений были взяты, поскольку обнаружено, что оптимум значения ? при предсказании таутомерии находится близко к единице, но не равен ей. Заметим, что поскольку значения  ? = 0 и 1 входит в диапазон варьирования, то индивидуальные модели константы кислотности и константы таутомерного равновесия также рассматриваются. Рассматриваемые значения коэффициента регуляризации ? были {0.001, 0.003, 0.01, 0.03, 0.1, 0.3, 1, 3, 10}. Тесты показали, что большие и меньшие значения ? не требуются, и оптимум находится в области 0.001-10. Таким образом, было протестировано 189 комбинаций гиперпараметров модели. Точность модели, полученной с использованием данных гиперпараметров, оценивалась с помощью процедуры скользящего контроля.

В диапазоне значений коэффициента регуляризации ? от 0.001 до 0.03 точность предсказания logKT с использованием индивидуальной модели (? =  1)  почти не изменяется и достигает максимума Q2=0.69, а со значения 0.1 начинает закономерно уменьшаться. В тоже время точность предсказания рКа органических молекул по индивидуальной модели (? = 0) повышается с увеличением коэффициента регуляризации ? и достигает своего максимума Q2=0.86  при значении ?=1.0, уменьшаясь при больших значениях ?. Заметим, что индивидуальная модель для предсказания кислотности не способна предсказать константу таутомерного равновесия. Согласно Табл. 1, в этом случае качество предсказаний намного ниже, чем у нулевой модели (значение Q2 отрицательно). Это подтверждает невозможность предсказывать константу таутомерного равновесия с использованием соотношения (1), если модель для предсказания pKa обучалась только на данных по кислотности. По этой причине в работах [20,21] использовались модификации соотношения (1), но, согласно данным работы [22], качество предсказаний и в этом случае остается недостаточно высоким.

Для моделей, использующих одновременно как данные по реакциям таутомерии, так и данные органических молекул, можно выделить несколько случаев. Так, например, лучшая совместная модель относительно качества предсказания logKT характеризуется чуть более высокой точностью предсказания (Q2=0.71), чем индивидуальная модель (Q2=0.69), использующая только данные по реакциям таутомерии. Таким образом, наличие данных по кислотности при обучении модели предсказания таутомерного равновесия позволяет немного улучшить предсказания. В то же время, значения рКа органических соединений данная модель предсказывает заметно хуже индивидуальной модели по кислотности, Табл. 1. Тем не менее, для случая предсказания рКа совместное обучение не дает преимущества в точности предсказаний по сравнению индивидуальной моделью предсказания показателя кислотности. Это не является удивительным, поскольку кислотность молекулы не определяется ее способностью к таутомеризации, уравнение (1) не может быть использовано для нахождения кислотности. Кроме того, была обнаружена комбинация гиперпараметров, с помощью которой была простроена модель, лишь незначительно уступающая в качестве индивидуальным моделям предсказания показателя кислотности и константы таутомерного равновесия (названная компромиссной моделью). Данные гиперпараметры максимизирует среднее значение Q2 предсказания константы таутомерного равновесия и кислотности. Компромиссная модель предсказывает кислотность почти на уровне индивидуальной модели по кислотности и при этом разность кислотностей таутомеров с достаточно высокой точностью воспроизводят экспериментальные значения константы таутомерного равновесия, как это следует из соотношения (1).

Таблица 1. Значения Q2 и RMSE полученные после процедуры скользящего контроля 5?10-CV


Модель

Обучающая выборка

Гиперпараметры

logKT

pKa

RMSE

Q2

RMSE

Q2

Индивидуальная

(logKT)

Реакции таутомерии

?=0.001-0.03

?=1

1.36

0.69

12.02

-6.19

Индивидуальная

(pKa)

Кислотность

?=1.0

?=0

9.54

-14.41

1.67

0.86

Лучшая совместная для logKT

Реакции таутомерии и кислотность

?=0.1

?=0.99688

1.31

0.71

2.45

0.70

Лучшая совместная для pKa

Реакции таутомерии и кислотность

?=1.0

?=0.2

1.56

0.59

1.67

0.86

Компромиссная (предсказание logKT и pKa одновременно)

Реакции таутомерии и кислотность

?=0.001

?=0.99922

1.38

0.68

1.76

0.85


Было интересно понять, насколько кислотность таутомеров, полученная с использованием предложенного подхода, соответствует экспериментальным данным. Для этого в обучающей выборке были идентифицированы молекулы, для которых были известны константы кислотности и которые входили в левую или правую части уравнения таутомерного превращения (соответственно, была известна константа равновесия). Таких случаев было только 3 (приведены на Рис. 5), а для некоторых случаев имелись измерения констант равновесия или кислотности при  различных условиях (на Рис. 5 приведено только одно). Все эти точки были исключены из обучающей выборки. Полученный набор данных использовался для построения модели с использованием значений гиперпараметров, полученных для компромиссной модели. На Рис.5 приведено сравнение разности кислотности таутомеров со значением константы таутомерного равновесия. Кроме того, предсказанное значение кислотности таутомера сравнивалось с экспериментальным значением рКа для той же молекулы, если она была найдена в наборе данных по кислотности органических молекул. При этом предсказания кислотности брались для условий максимально близких к условиям проведения реакции таутомеризации (рис. 5). Как показывает Рис. 5, ошибка предсказания кислотности таутомера находится в пределах 0.4 – 2.3 единиц рКа, что близко к RMSE модели. Таким образом, предсказанные значения константы таутомерии и кислотности соответствующих таутомеров для рассмотренных случаев хорошо согласуются с экспериментом.

Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4