Прогнозирование геометрии молекул с помощью нейросетей

Инновационный подход с использованием нейросетей для прогнозирования геометрии молекул обеспечивает точные результаты энергий молекул, минимизируя объем необходимых данных. Фреймворк GOLF позволяет поэтапно улучшать модель, делая ее применимой в сложных научных областях
Новости 2024 07 14

Прогнозирование геометрии молекул с помощью нейросетей

Команда Института искусственного интеллекта AIRI занимается применением методов глубокого обучения в различных областях наук о жизни. Основные направления работы включают поиск новых лекарственных препаратов, дизайн материалов и анализ растворимости молекул.

Команда не занимается синтезом молекул в лаборатории и не является химиками. Вместо этого используются нейронные сети для прогнозирования свойств молекул с помощью вычислительных методов. Этот подход позволяет значительно ускорить процесс исследований по сравнению с традиционными химическими методами.

Процесс моделирования молекул

Современные подходы к прогнозированию свойств молекул основаны на работе с конформациями молекулярных систем. Каждая конформация определяется положением атомов в пространстве и их типами. Для определения потенциальной энергии конформации используются точные, но сложные методы, например, теория функционала плотности (DFT). Динамичность молекулярных систем приводит к постоянным изменениям положения атомов под воздействием межатомных сил. Такой подход позволяет точно моделировать молекулы и предсказывать их свойства, что имеет большое значение в областях поиска новых лекарственных препаратов и дизайна материалов.

Оптимизация геометрии молекул

Для анализа молекул-кандидатов на новые лекарства наиболее энергетически выгодные конформации молекулярной системы требуется решать задачу релаксации или оптимизации геометрии. В равновесных условиях вероятность принятия определенной конформации атомами определяется их потенциальной энергией: чем ниже энергия конформации, тем выше вероятность, что атомы займут такое расположение в пространстве. Применение нейронных сетей для предсказания и оптимизации конформаций молекул позволяет значительно ускорить процесс исследований, сократив затраты на вычисления и получив точные результаты.

Недостатки традиционных методов

Традиционные методы оптимизации молекулярных систем имеют свои ограничения из-за использования межатомных сил в качестве анти-градиента. Этот подход требует значительных вычислительных ресурсов для работы с точными физическими симуляторами, например, DFT, сложность которых увеличивается экспоненциально с числом электронов в системе. Сложные симуляторы ограничивают масштабирование методов оптимизации на больших системах, так как требуют значительных вычислительных мощностей и времени. В связи с этим возникает необходимость в разработке более эффективных и быстрых подходов к оптимизации геометрии молекул, которые позволят работать с более крупными молекулярными системами и улучшат точность предсказаний.

Преимущества нейронных потенциалов

Замена физических симуляторов на нейронные потенциалы представляет значительные преимущества в прогнозировании геометрии молекул. Наши эксперименты показали, что использование нейронных оракулов способно ускорить процесс оптимизации в 2000 раз по сравнению с DFT-симуляторами. Это означает значительное временное сокращение при решении задач молекулярного моделирования, что открывает новые возможности для более эффективного и быстрого исследования в области химических наук.

Проблема и решение с distribution shift

Нейронные потенциалы, обученные на общедоступных наборах данных (nablaDFT, SPICE), сталкиваются с distribution shift, что приводит к ошибкам при приближении к локальным минимумам энергии. Для решения этой проблемы предложено добавлять в обучающую выборку оптимизационные траектории, полученные с использованием физических симуляторов. Этот подход позволяет улучшить качество прогнозов и избежать неправильных конформаций при оптимизации молекулярных систем.

Конфигурации для обучения

Было проведено обучение нейронных потенциалов на различных наборах данных с количеством конформаций от 10 000 до 500 000. Результаты исследования показали, что увеличение числа оптимизационных траекторий существенно уменьшает ошибку в предсказании межатомных сил. Однако сбор и обработка дополнительных 500 000 конформаций потребовали приблизительно 9 CPU-лет вычислений, что становится невозможным для более сложных систем, таких как молекулы в растворе или белки.

Активное обучение как решение

Метод активного обучения представляет собой эффективный подход к сокращению требуемого объема данных для обучения моделей. Мы предлагаем использовать суррогатный оракул на основе модели молекулярных силовых полей для выявления ошибок моделирования межатомных сил. Путем оценки изменения потенциальной энергии на каждом шаге оптимизации, мы определяем случаи, когда нейронная сеть недостаточно точно предсказывает силы между атомами. Это позволяет нам тонко настраивать обучающую выборку, добавляя в нее только те конформации, которые вызывают увеличение ошибки. Таким образом, активное обучение с использованием суррогатного оракула позволяет повысить качество обучения моделей, сократив при этом время и вычислительные ресурсы, необходимые для дообучения.

Результаты и перспективы

Новый подход, разработанный командой исследователей из AIRI и других учреждений, под названием GOLF, позволяет значительно уменьшить объем данных, необходимых для обучения моделей оптимизации конформаций молекул. Этот метод сократил время обучения в 50 раз, что открывает возможности для эффективного обучения моделей в более сложных сценариях, таких как молекулы в растворах или взаимодействия белков с лигандами. Результаты исследования были представлены на конференции ICLR 2024 в Вене, а код доступен на GitHub для интересующихся.

Поиск