Рисунок 5. Экспериментальные и предсказанные значения logKT и рКа таутомеров компромиссной модели для случаев кето-енольной и нитро-аци таутомерии

Предсказательная способность моделей была также оценена на внешней тестовой выборке, состоящей из 22 реакций (табл. 2). Однако большая часть из них не входили в область применимости модели, в которую вошли только 8 реакций. По данным Табл.2 можно отметить, что качество предсказания для реакций, даже включая те, что находятся вне домена применимости, неплохое, хоть и несколько хуже опубликованной ранее модели c использованием метода SVM [22]. Видимое ухудшение качества совместных моделей по сравнению с индивидуальной обусловлено бoльшим разбросом для точек, находящихся вне домена применимости, Рис. 6. Является ли это недостатком метода обучения или случайностью выяснить в настоящий момент не представляется возможным. На реакциях, находящихся в области применимости модели, ошибка предсказания константы таутомерного равновесия совместной и компромиссной моделью достаточно низкая и близка к таковой для индивидуальных моделей, в том числе и опубликованных нами ранее с использованием нелинейных методов моделирования (SVM и GTM) [23]. На Рис. 6 можно отметить что все модели предсказывают эти точки практически одинаково.

Таблица 2. Значения R2 и RMSE моделей полученные на внешней тестовой выборке


Модель

Все равновесия

Равновесия в области применимости модели

RMSE

R2

RMSE

R2

Индивидуальная

(logKT)

2.00

0.67

0.84

0.92

Лучшая совместная для logKT

2.37

0.53

0.83

0.92

Компромиссная (предсказание logKT и pKa одновременно)

2.70

0.40

0.83

0.92


НЕ нашли? Не то? Что вы ищете?

Рисунок 6. Предсказанные и экспериментальные значения logKT для внешней тестовой выборки. Черные квадраты и белые треугольники обозначают предсказания, находящиеся внутри и вне области применимости модели, соответственно. Предсказания получены:

(а) — индивидуальной моделью для logKT, (б) — лучшей совместной моделью для предсказания logKT, (в) — компромиссной моделью.

Выводы

В рамках данной работы нами предложен подход к совместному моделированию и предсказанию двух линейно связанных величин на примере константы кислотности и константы прототропного таутомерного равновесия, см. уравнение (1). Показано, что с использованием метода множественной линейной регрессии с L2 регуляризацией (гребневой регрессии) возможно получение аналитического выражения для расчета регрессионных коэффициентов – выражения (7). При построении данной модели используются одновременно данные по константам равновесия реакций таутомерии и данные по кислотности органических молекул. При этом регрессионные коэффициенты подбираются таким образом, чтобы, с одной стороны, максимально точно воспроизводился показатель кислотности соединений, а с другой, чтобы разность кислотности таутомеров равнялась константе таутомерного равновесия, как того требует уравнение (1).

       Было показано, что обучение модели только на данных по кислотности соединений с последующим применением уравнения (1) не может быть использовано для предсказания константы таутомерного равновесия – полученная модель намного хуже нулевой по данным скользящего контроля. Использование же предложенного подхода совместного обучения позволяет даже достигнуть некоторого увеличения в точности предсказания logKT по сравнению с моделью, которая для обучения использует только данные по реакциям таутомерии. При этом полученная модель способна предсказывать кислотности всех таутомеров и разность кислотности будет подчиняться уравнению (1), что требуется термодинамическим циклом, приведенным на Рис. 1. С использованием имеющихся данных по экспериментальному измерению констант кислотности отдельных таутомеров было показано, что предсказанные значения pKa таутомеров согласуются с экспериментальными данными. Качество предсказаний подтверждается с использованием внешней тестовой выборки. При учете области применимости моделей с помощью контроля фрагментов модели совместного обучения и индивидуальные модели демонстрируют одинаковую точность предсказания константы таутомерного равновесия. 

Предложенный подход обладает несколькими преимуществами по сравнению с ранее опубликованными нами работами [20–23]. Он способен одновременно предсказывать кислотность соединений, в том числе различных таутомерных форм, и константу таутомерного равновесия практически без потери качества. Он основан на теоретически обоснованном уравнении (1) и поэтому разность кислотности таутомеров равна константе таутомерного равновесия. С его использованием можно оценить процентное содержание таутомерных форм для сложных равновесий с участием молекул, имеющих множество (более 2) таутомеров. С использованием достаточно простых подходов, следующих из термодинамических циклов превращений таутомеров и их кислотности, можно оценивать влияние рН среды на процентное содержание форм без необходимости перестройки модели.

Как существенное ограничение разработанного нами подхода, можно отметить то, что зависимость кислотности от дескрипторов условий (растворителя и температуры) полагается линейной. Вследствие этого построенная модель не описывает в явном виде влияние среды (температуры, растворителя), и поэтому экспериментальные данные, используемые для построения модели, должны быть получены в одинаковых условиях. Для моделирования влияния среды требуется использование нелинейных методов, что является объектом дальнейших исследований.

       

Благодарности

Исследования выполнены при поддержке Российского научного фонда (соглашение №14-43-00024). Авторы благодарят компанию ChemAxon за предоставление академической лицензии на программное обеспечение JChem.

Литература

[1]        M. Sitzmann, W.-D. Ihlenfeldt, M. C. Nicklaus. Tautomerism in large databases. put. Aided. Mol. Des. 2010. Vol. 24., No. 6–7. P. 521–551.

[2]        P. Pospisil, P. Ballmer, L. Scapozza, G. Folkers. Tautomerism in computer-aided drug design. J Recept Signal Transduct Res. 2004/02/03. 2003. Vol. 23., No. 4. P. 361–371.

[3]        T. Clark. Tautomers and reference 3D-structures: the orphans of in silico drug design. put. Aided. Mol. Des. Springer Netherlands, 2010. Vol. 24., No. 6–7. P. 605–611.

[4]        W. Warr. Tautomerism in chemical information management systems. put. Aided. Mol. Des. Springer Netherlands, 2010. Vol. 24., No. 6–7. P. 497–520.

[5]        R. A. Sayle. So you think you understand tautomerism? put. Aided. Mol. Des. 2010. Vol. 24., No. 6–7. P. 485–496.

[6]        A. R. Katritzky, C. D. Hall, B. E.-D. M. El-Gendy, B. Draghici. Tautomerism in drug discovery. put. Aided. Mol. Des. Springer Netherlands, 2010. Vol. 24., No. 6–7. P. 475–484.

[7]        Advanced Chemistry Development Inc. ACD/Tautomers. :version 15.01. Advanced Chemistry Development, Inc., Toronto, ON, Canada. www. , 2015.

[8]        ChemAxon. JChem Calculator Plugins 15.8.3. :15.8.3.

[9]        Molecular Networks GmbH Computerchemie. MN Tautomer. . Molecular Networks GmbH, Germany and Altamira, LLC, USA. https://www. .

[10]        Schrodinger LLC. LigPrep tautomeriser. . Schrodinger, LLC. https://www. /ligprep.

[11]        Xemistry GmbH. CACTVS. . Xemistry GmbH. http://www. .

[12]        OpenEye Scientific Software. QUACPAC. . OpenEye Scientific Software. https://www. /quacpac.

[13]        BIOVIA. BIOVIA Pipeline Pilot. . BIOVIA, USA. http:///products/collaborative-science/biovia-pipeline-pilot.

[14]        M. Haranczyk, M. Gutowski. Quantum Mechanical Energy-Based Screening of Combinatorially Generated Library of Tautomers. TauTGen: A Tautomer Generator Program. J. Chem. Inf. Model. 2007. Vol. 47., No. 2. P. 686–694.

[15]        N. T. Kochev, V. H. Paskaleva, N. Jeliazkova. Ambit-Tautomer: An Open Source Tool for Tautomer Generation. Mol. Inform. 2013. Vol. 32., No. 5–6. P. 481–504.

[16]        J. R. Greenwood, D. Calkins, A. llivan, J. C. Shelley. Towards the comprehensive, rapid, and accurate prediction of the favorable tautomeric states of drug-like molecules in aqueous solution. put. Aided. Mol. Des. Springer Netherlands, 2010. Vol. 24., No. 6–7. P. 591–604.

[17]        P. Pospisil, P. Ballmer, L. Scapozza, G. Folkers. Tautomerism in Computer?Aided Drug Design. J. Recept. Signal Transduct. 2003. Vol. 23., No. 4. P. 361–371.

[18]        F. Oellien et al. The Impact of Tautomer Forms on Pharmacophore-Based Virtual Screening †. J. Chem. Inf. Model. 2006. Vol. 46., No. 6. P. 2342–2354.

[19]        S. J. Angyl, C. L. Angyal. 268. The tautomerism of N-hetero-aromatic amines. Part I. J. Chem. Soc. 1952. P. 1461.

[20]        J. Szegezdi, F. Csizmadia. Tautomer generation. pKa based dominance conditions for generating dominant tautomers. The 234th ACS National Meeting, Boston, MA, August 19-23, 2007. Boston, 2007.

[21]        F. Milletti et al. Tautomer enumeration and stability prediction for virtual screening on large chemical databases. J. Chem. Inf. Model. 2009. Vol. 49., No. 1. P. 68–75.

[22]        T. R. Gimadiev et al. Assessment of tautomer distribution using the condensed reaction graph approach. put. Aided. Mol. Des. 2018. Vol. 32., No. 3. P. 401–414.

[23]        M. Glavatskikh et al. Visualization and Analysis of Complex Reaction Data: the Case of Tautomeric Equilibria. Mol. Inform. Wiley-Blackwell, 2018. Vol. 0., No. 0.

[24]        , , . Введение в хемоинформатику: учеб. пособие. Ч. 4. Методы машинного обучения. . Казань: Изд-во Казан. ун-та, 2016. 330 p.

[25]        A. Varnek, D. Fourches, F. Hoonakker, V. P. Solov’bstructural fragments: an universal language to encode reactions, molecular and supramolecular structures. put. Aided. Mol. Des. Springer Netherlands, 2005. Vol. 19., No. 9–10. P. 693–703.

[26]        ChemAxon Standardizer. :15.8.3.0. 2015.

[27]        T. I. Madzhidov et al. Consensus approach to atom-to-atom mapping in chemical reactions. Butlerov Commun. 2015. Vol. 44., No. 12. P. 170–176.

[28]        Indigo. . https:///ggasoftware/indigo, 2015.

[29]        F. Ruggiu, G. Marcou, A. Varnek, D. Horvath. ISIDA Property-labelled fragment descriptors. Mol. Inform. 2010. Vol. 29., No. 12. P. 855–868.

[30]        R. Fiorella et al. Individual Hydrogen?Bond Strength QSPR Modelling with ISIDA Local Descriptors: a Step Towards Polyfunctional Molecules. Mol. Inform. Wiley-Blackwell, 2014. Vol. 33., No. 6?7. P. 477–487.

[31]        J. Catalan et al. Progress towards a generalized solvent polarity scale: The solvatochromism of 2-(dimethylamino)-7-nitrofluorene and its homomorph 2-fluoro-7-nitrofluorene. Liebigs Ann. WILEY-VCH Verlag, 1995. Vol. 1995., No. 2. P. 241–252.

[32]        J. Catalan, C. Diaz. A Generalized Solvent Acidity Scale: The Solvatochromism of o-tert-Butylstilbazolium Betaine Dye and Its Homomorph o, o?-Di-tert-butylstilbazolium Betaine Dye. Liebigs Ann. WILEY-VCH Verlag, 1997. Vol. 1997., No. 9. P. 1941–1949.

[33]        J. Catalan et al. A Generalized Solvent Basicity Scale: The Solvatochromism of 5-Nitroindoline and Its Homomorph 1-Methyl-5-nitroindoline. Liebigs Ann. WILEY-VCH Verlag, 1996. Vol. 1996., No. 11. P. 1785–1794.

[34]        T. Yokoyama, R. W. Taft, M. J. Kamlet. The solvatochromic comparison method. 3. Hydrogen bonding by some 2-nitroaniline derivatives. J. Am. Chem. Soc. 1976. Vol. 98., No. 11. P. 3233–3237.

[35]        M. J. Kamlet, R. W. Taft. The solvatochromic comparison method. I. The. beta.-scale of solvent hydrogen-bond acceptor (HBA) basicities. J. Am. Chem. Soc. American Chemical Society, 1976. Vol. 98., No. 2. P. 377–383.

[36]        M. J. Kamlet, J. L. Abboud, R. W. Taft. The solvatochromic comparison method. 6. The. pi.* scale of solvent polarities. J. Am. Chem. Soc. American Chemical Society, 1977. Vol. 99., No. 18. P. 6027–6038.

[37]        P. Polishchuk et al. Structure–reactivity modeling using mixture-based representation of chemical reactions. put. Aided. Mol. Des. 2017. Vol. 31., No. 9. P. 829–839.


Из за большого объема этот материал размещен на нескольких страницах:
1 2 3 4