Российские исследователи научили компьютерную программу предсказывать химические свойства молекул

Сотрудник Лаборатории структурной биологии рецепторов, сопряжённых с G белком, МФТИ Сергей Грудинин, аспирантка МФТИ Мария Кадукова и "обученный" ими компьютер.

Сотрудник Лаборатории структурной биологии рецепторов, сопряжённых с G белком, МФТИ Сергей Грудинин, аспирантка МФТИ Мария Кадукова и "обученный" ими компьютер.
Фото пресс-службы МФТИ.

Принцип действия пакета Knodle.

Принцип действия пакета Knodle.
Иллюстрация МФТИ.

Сотрудник Лаборатории структурной биологии рецепторов, сопряжённых с G белком, МФТИ Сергей Грудинин, аспирантка МФТИ Мария Кадукова и "обученный" ими компьютер.
Принцип действия пакета Knodle.
Ученые из Центра исследований молекулярных механизмов старения и возрастных заболеваний МФТИ разработали программный пакет Knodle для определения связей и степени связи в молекулах. Эта компьютерная программа упростит один из этапов разработки новых лекарств.

Ученые из Центра исследований молекулярных механизмов старения и возрастных заболеваний МФТИ разработали программный пакет для определения связей и степени связи в молекулах. Компьютерная программа, получившая название Knodle (от KNOwledge-Driven Ligand Extractor), упростит один из этапов разработки новых лекарств.

Создание препаратов с заранее заданными свойствами называют драг-дизайном. Лекарство, попав в организм человека, должно воздействовать на причину болезни. На молекулярном уровне это нарушение работы каких-то белков и генов их кодирующих (в драг-дизайне они называются мишенью). К примеру, если лекарство противовирусное, то оно должно помешать вирусам встраивать свой геном в человеческий (для дальнейшего воспроизведения). В этом случае мишенью будет какой-то белок вируса. Структура белка встраивающегося вируса известна, и даже известно, какое место у него самое важное – место, или сайт связывания. Если вставить в сайт связывания "затычку" в виде определённой молекулы, белок не сможет “вживиться” в геном человека, и вирус умрет, не достигнув своёй цели.

Но как найти нужные молекулы? Исследователям на помощь приходят огромные базы данных веществ. Для отбора берутся специальные программы, которые, используя приближения квантовой химии, оценивают место и силу, с которой сможет прицепиться молекула-"затычка" к белку. Но оказывается, что в базах есть только формула вещества, а для адекватной оценки этим программам требуется ещё и информация о состоянии всех атомов в молекуле.

Определением этих состояний и занимается разработанная российскими учёными компьютерная система Knodle. С помощью новых технологий можно сузить область поиска с сотен тысяч веществ всего до сотни. Эту сотню уже гораздо реалистичне получить и проверить. Так, например, было создано лекарство ралтегравир, которое с 2011 года активно используется для профилактики ВИЧ.

Со школы все привыкли представлять себе структуру органических веществ как буквы с палочками. Понятно, что на самом деле никаких палочек нет – так обозначаются связи электронов, которые подчиняются законам квантовой химии. В случае одной простой молекулы (как на иллюстрации) опытный химик интуитивно чувствует, какими должны быть гибридизации (со сколькими соседними атомами он соединен), и за несколько часов кропотливой работы со справочниками он сможет восстановить все связи в молекуле.

Принцип действия пакета Knodle.
Иллюстрация МФТИ.

В своей работе аспирантка МФТИ Мария Кадукова и научный сотрудник лаборатории структурной биологии рецепторов, сопряжённых с G белком, МФТИ Сергей Грудинин решили доверить эту интуитивную работу компьютеру, используя технологии машинного обучения.

Сравните определения: "твердый полый предмет с ручкой, отверстием сверху и удлинением сбоку, в конце которого тоже есть отверстие" и "сосуд для приготовления чая". И то, и другое определения достаточно хорошо описывают чайник, но второе объяснение проще. Так же и в машинном обучении: лучший алгоритм — это самый простой из работающих. Поэтому исследователи выбрали нелинейный метод опорных векторов (SVM), который себя зарекомендовал в распознавании рукописного текста и изображений. На вход ему давали расположения соседних атомов, а на выходе получали данные по гибридизации.

Хорошее обучение требует множества примеров, и учёные составили их из 7605 соединениям с известной структурой и состояниями атомов.

"В этом кроется решающая сила разработанного пакета, так как при обучении на большей базе результат распознавания лучше. Сейчас Knodle находится на шаг впереди подобных себе программ: он допускает всего 3.9% ошибок, тогда как ближайший конкурент 4.7%", — объясняет Мария Кадукова.

И это не единственное преимущество. Программный комплекс легко изменять под конкретную задачу. Например, в данный момент Knodle не работает с веществами, содержащими атомы металлов, потому что эти соединения относительно редки. Но если окажется, что, например, лекарство от болезни Альцгеймера будет заметно эффективнее, если в нём будет присутствовать металл, то для адаптации программы потребуется лишь изучить базу с металлическими соединениями.

Поэтому остаётся только догадываться, для какой неизлечимой на данный момент болезни найдут лекарство, используя этот инструмент.

Подробнее о разработке рассказывает научная статья, опубликованная в журнале Chemical Information and Modeling.