Надіслати статтю
вул. Інститутська 11, м. Хмельницький, 29016

МЕТОД МЕТА-НАВЧАННЯ ДЛЯ ВИЗНАЧЕННЯ МОЛЕКУЛЯРНОЇ СПОРІДНЕНОСТІ

METHOD SUPER LEARNING FOR DETERMINATION OF MOLECULAR RELATIONSHIP

Сторінки: 14-24. Номер: №2, 2022 (307) 
 Автори:
Гурбич О.В.
Національний університет “Львівська політехніка”
https://orcid.org/0000-0002-6821-3390
e-mail: oleksandr.v.hurbych@lpnu.ua
GURBYCH A.V.
Lviv Polytechnic National University
 DOI: https://www.doi.org/10.31891/2307-5732-2022-307-2-14-24

Анотація мовою оригіналу

У цій роботі застосований принцип мета-навчання для передбачення молекулярної спорідненості між рецептором (велика біомолекула) та лігандами (малі органічні молекули). Мета-моделі вивчають оптимальну комбінацію окремих базових моделей у двох послідовних ансамблях – класифікаційному та регресійному. Кожен із ансамблів містить по шість моделей машинного навчання, які поєднуються методом стекінгу. Базові моделі включають в себе метод опорних векторів, випадковий ліс, градієнтний бустинг, графові нейронні мережі та нейронні мережі прямого поширення, а також трансформери. Перший ансамбль прогнозує імовірність зв’язування та класифікує усі молекули-кандидати до обраного рецептору на активні та неактивні. Ліганди, які перший ансамбль визнав активними, подаються у другий ансамбль, який передбачає ступінь їхню спорідненості до рецептору у вигляді коефіцієнту енгібіювання (Ki). Особливістю методу є відмова від використання координат атомів окремих молекул та їхніх комплексів – у такий спосіб нівелюються експериментальні похибки під час підготовки зразків та вимірювання координат атомів, а також уможливлюється застосування методу для визначення спорідненості біомолекул із невідомими просторовими конфігураціями. Показано, що мета-навчання збільшує відгук (Recall) класифікаційного ансамблю на 34,9% та коефіцієнт детермінації (R2) регресійного ансамблю на 21% у порівнянні із середніми значеннями. У цій роботі показано, що ансамбль з мета-стекінгом є асимптотично оптимальною системою для навчання. Розглядається особливість Super Learning’у для використання перехресної перевірки (k-fold cross-validation) для формування передбачень «першого рівня», на яких виконується навчання моделей другого рівня – або мета-моделей, – які комбінують моделі першого рівня оптимальним чином. Досліджується здатність передбачати молекулярну спорідненість шести моделей машинного навчання, а також покращення ефективності унаслідок поєднання моделей у ансамблі методом стекінгу. Показані моделі, які поєднані у два послідовні ансамблі.
Ключові слова: мета-навчання, машинне навчання, методи ансамблювання, молекулярна спорідненість, трансформери, бустинг, стекінг, коефіцієнт енгібіювання.
 

 Розширена анотація англійською  мовою

This paper uses the Super Learning principle to predict the molecular affinity between the receptor (large biomolecule) and ligands (small organic molecules). Meta-models study the optimal combination of individual basic models in two consecutive ensembles – classification and regression. Each costume contains six models of machine learning, which are combined by stacking. Base models include the reference vector method, random forest, gradient boosting, neural graph networks, direct propagation, and transformers. The first ensemble predicts binding probability and classifies all candidate molecules to the selected receptor into active and inactive. Ligands recognized as involved by the first ensemble are fed to the second ensemble, which assumes the degree of their affinity for the receptor in the form of an inhibition factor (Ki). A feature of the method is the rejection of the use of atomic coordinates of individual molecules and their complexes – thus eliminating experimental errors in sample preparation and measurement of nuclear coordinates and the method to determine the affinity of biomolecules with unknown spatial configurations. It is shown that meta-learning increases the response (Recall) of the classification ensemble by 34.9% and the coefficient of determination (R2) of the regression ensemble by 21% compared to the average values. This paper shows that an ensemble with meta-stacking is an asymptotically optimal system for learning. The feature of Super Learning is to use k-fold cross-validation to form first-level predictions that teach second-level models — or meta-models — that combine first-level models optimally. The ability to predict the molecular affinity of six machine learning models is studied, and the efficiency improvement is due to the combination of models in the ensemble by the stacking method. Models that are combined into two consecutive ensembles are shown.
Keywords: Super Learning, machine learning, ensemble methods, molecular affinity, transformers, boosting, stacking, inhibition coefficient.

References

  1. Beck D., Haffari, G., Cohn, T. Graph-to-sequence learning using gated graph neural networks // Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics. Vol. 1. Association for Computational Linguistics, Melbourne, Australia. – 2018. – Р. 273–283. https://doi.org/10.18653/v1/P18- 1026.
  2. Beck B., Shin B., Choi Y., Park S., Kang K. Predicting commercially available antiviral drugs that may act on the novel coronavirus (sars-cov-2) through a drug-target interaction deep learning model. Comput. Struct. Biotechnol. J. 2020. – 784–790. https://doi.org/10.1016/j.csbj.2020.03.025.
  3. Breiman L. Random forests. Mach. Learn. 45 (1).- 2010. – P. 5–32. https://doi.org/10.1023/ A:1010933404324.
  4. Chen Y.-C. Beware of docking! Trends Pharmacol. Sci. 36 (2). – 2015. – P. 78–95. https://doi. org/10.1016/j.tips.2014.12.001.
  5. Chen J.-Q., Chen H.-Y., Dai W.-j., Lv Q.-J., Chen C.-C. Artificial intelligence approach to find lead compounds for treating tumors. J. Phys. Chem. Lett. 10 (15). – 2019. – P. 4382–4400. https://doi.org/10.1021/acs.jpclett.9b01426.
  6. Chupakhin V., Marcou G., Baskin I., Varnek A., Rognan D. Predicting ligand binding modes from neural networks trained on protein-ligand interaction fingerprints. 53 (4). – 2016. – P. 763–772. https://doi.org/10.1021/ ci300200r.
  7. Davis M., Hunt J., Herrgard S., Ciceri P., Wodicka L., Pallares G., Hocker M., Treiber D., Zarrinkar P. Comprehensive analysis of kinase inhibitor selectivity. Nat. Biotechnol. 29. – 2010. – P. 1046–1051. https://doi.org/10.1007/978-1-4939-9752-7.
  8. Devlin J., Chang M.-W., Lee K., Toutanova K. BERT: pre-training of deep bidirectional transformers for language understanding. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1. Association for Computational Linguistics, Minneapolis, Minnesota. – 2019. – P. 4171–4186. https://doi.org/10.18653/v1/N19-1423.
  9. Ellingson S., Davis B., Allen J. Machine learning and ligand binding predictions: a review of data, methods, and obstacles. Biochim. Biophys. Acta (BBA) – General Subj. 1864 (6), – P. 129-545. https://doi.org/10.1016/j.bbagen.2020.129545.
  10. Gao K., Nguyen D., Chen J., Wang R., Wei G.-W. Repositioning of 8565 existing drugs for COVID-19. 11 (13). – 2020. – P. 5373–5382. https://doi.org/ 10.1021/acs.jpclett.0c01579.
  11. Hartshorn M., Verdonk M., Chessari G., Brewerton S., Mooij W., Mortenson P., Murray C. Diverse, high-quality test set for the validation of protein-ligand docking performance. J. Med. Chem. 50 (4). – 2007. – P. 726–741. https://doi.org/10.1021/ jm061277y.
  12. He T., Heidemeyer M., Ban F., Cherkasov A., Ester M. SimBoost: a read-across approach for predicting drug-target binding affinities using gradient boosting machines. 9. – 2017. – P. https://doi.org/10.1186/s13321-017-0209-z.
  13. Heck G., Pintro V., Pereira R., de Avila M., Levin N., de Azevedo Jr. W. Supervised machine learning methods applied to predict ligand-binding affinity. Curr. Med. Chem. 24 (23). – 2017. – P. 2459–2470. https://doi.org/10.2174/ 0929867324666170623092503.
  14. Kim S., Chen J., Cheng T., Gindulyte A., He J., He S., Li Q., Shoemaker B., Thiessen P., Yu B., Zaslavsky L., Zhang J., Bolton E. PubChem 2019 update: improved access to chemical data. Nucleic Acids Res. – 2019. – P. 1102–1109.
  15. Kowalewski J., Ray A. Predicting novel drugs for sars-cov-2 using machine learning from a >10 million chemical space. Helion 6, e04639. – 2020.https://doi.org/ 10.1016/j.heliyon.2020.e04639.
  16. Kundu I., Paul G., Banerjee R. A machine learning approach towards the prediction of protein-ligand binding affinity based on fundamental molecular properties. RSC Adv. 8. – 2018. – P. 12127–12137. https://doi.org/10.1039/C8RA00003D.
  17. Kwon Y., Shin W.-H., Ko J., Lee J. Ak-score: accurate protein-ligand binding affinity prediction using an ensemble of 3d-convolutional neural networks. Int. J. Mol. Sci. 21 (22). – 2020. – P. https://doi.org/10.3390/ijms21228424.

 

Post Author: Горященко Сергій

Translate