Ускорить открытие лекарств ИИ позволили уникальные данные
Ученые из Инженерного колледжа Университета Карнеги-Меллона решили использовать большой объем немаркированных молекул для построения моделей машинного обучения. Такие уникальные данные обеспечивают предсказания лучше, чем у известных моделей.
Исследователи создали самообучающийся ИИ, названный MolCLR с помощью графовых нейронных сетей (GNNS).
Амир Барати Фаримани, профессор кафедры машиностроения: «MolCLR значительно повышает производительность моделей машинного обучения, так как использует примерно 10 млн немаркированных данных о молекулах».
Чтобы объяснить как работают маркированные и немаркированные данные, следует представить 2 набора фотографий собак и кошек. В одном наборе каждое животное помечено названием своего вида, а в другом — изображения не сопровождаются надписями.
Для человека разница между этими двумя типами животных может быть очевидной, но для модели машинного обучения — нет. Этот факт означает, что не маркированные данные не всегда могут правильно обучить модель. Если же применить данную аналогию к миллионам не помеченных молекул, на идентификацию которых вручную у людей могут уйти десятилетия, становится понятно, что проблему нужно решать как-то иначе.
Исследовательская группа учила свою структуру MolCLR тому, как использовать немаркированные данные, — нужно сравнить положительные и отрицательные пары из расширенного графа молекул. Графики, преобразованные из одной и той же молекулы, считаются положительной парой, а графики, преобразованные из разных молекул, — это отрицательная пара. Поэтому похожие молекулы остаются близко друг к другу, а остальные отодвигаются далеко.
Во время тестов модель машинного обучения работала эффективнее других и смогла различать, какие химические вещества представляют наиболее серьезную угрозу для здоровья человека.
Источник: https://hightech.fm/
7.03.2022