От символической записи углеводов к атомным координатам
a, b
студент a; кандидат химических наук, старший научный сотрудникb
Высший Химический Колледж РАН, Москва, Российская Федерацияa
Институт органической химии им. РАН, Москва, Российская Федерацияa, b
E-mail: *****@***rua, *****@***rub
Ключевые слова: гликоинформатика, символическая запись, молекулярное моделирование, SMILES.
Молекулярное моделирование является одним из наиболее популярных инструментов для разработки лекарств и докинга, и всегда начинается с описания структуры изучаемой системы. В гликомике строение углеводов традиционно описывается с помощью нотаций, базовой единицей которых являются не атомы, а отдельные остатки — моносахариды, аминокислоты, и другие компоненты биогликанов. На данный момент ни одна углеводная нотация не поддерживается популярными пакетами для молекулярного моделирования, что приводит к необходимости конверсии нотаций в популярные химические форматы. Существующие решения позволяют превращать символическую запись углеводов в атомные координаты в формате PDB, однако они применимы лишь для полностью определенных структур (не содержащих неопределённые стереоцентры, и т. п.), состоящих из ограниченного набора моносахаридов.
Для преодоления этой проблемы мы создали REStLESS (REsidues as SMILES, LinkagEs as SMARTS) [Chernyshov, Toukach, 2018] — инструмент, переводящий семантическую углеводную нотацию CSDB Linear [Toukach, 2011] на универсальный химический язык SMILES и создающий оптимизированные атомные координаты. REStLESS построен на платформе базы данных природных углеводов CSDB [Toukach, Egorova, 2016], содержащей данные о ~20 000 структур природных углеводов, включающих ~1 000 различных углеводных и неуглеводных остатков. Лежащий в основе REStLESS алгоритм на первом шаге генерирует SMILES конечной структуры, объединяя SMILES отдельных остатков с помощью реакций конденсации в формате SMARTS, соответствующих связям между остатками. Такой подход позволяет генерировать SMILES для структур с неопределёнными аномерными центрами, часто встречающихся среди природных углеводов. На втором шаге полученные коды SMILES трансформируются в атомные координаты с учетом преимущественных конформаций моносахаридов. Эти координаты пригодны в качестве начальных геометрий для последующего молекулярного моделирования.
Благодаря REStLESS, мы наладили автоматическую генерацию начальных геометрий для расчётов конформационных карт ди - и трисахаридов, которые в дальнейшем будут использоваться для поиска низкоэнергетических конформеров. В перспективе это позволит предсказывать ядерные эффекты Оверхаузера (NOE) для произвольных углеводов, а также использовать полученные атомные координаты для масштабного виртуального скрининга. До настоящего времени это было невозможно из-за высокой ресурсоемкости предварительного изучения конформационного пространства каждой системы.
Разработка транслятора семантического языка в SMILES финансировалась Российским фондом фундаментальных исследований (грант 18?04?00094). Расчеты атомных координат и конформационных карт финансировались Российским научным фондом (грант 18?14?00098).
Список литературы
1. Chernyshov I. Yu., Toukach Ph. V., REStLESS: automated translation of glycan sequences from residue-based notation to SMILES and atomic coordinates // Bioinformatics. 2018. URL: https://doi. org/10.1093/bioinformatics/bty168 (date of the application 21.01.2018; epub ahead of print).
2. Toukach Ph. V., Bacterial carbohydrate structure database 3: principles and realization // J. Chem. Inf. Model. 2011. Vol. 51, I. 1. P. 159–170. URL: https://doi. org/10.1021/ci100150d.
3. Toukach Ph. V., Egorova K. S., Carbohydrate structure database merged from bacterial, archaeal, plant and fungal parts // Nucleic Acids Res. 2016. Vol. 44, I. D1. P. D1229–D1236. URL: https://doi. org/10.1093/nar/gkv840 (date of the application 15.06.2015).


