Matrix Convolution of Multiple Docking Energy Spectrum for Neural Network Modeling of Multi-Target Pharmacological Activity of Chemical Compounds

Cover Page

Cite item

Full Text

Abstract

An algorithm for matrix convolution of the energy spectrum of multiple docking of ligands into relevant target proteins is presented. Using anxiolytic activity as an example, a matrix convolution of the energy spectrum of multi-target multiple docking into 22 convolutional variables was performed. Using the methods of ANOVA, discriminant analysis and neural network analysis, high statistical significance of using the obtained convolutional variables for assessing the integral multi-target affinity of ligands to a set of relevant biotargets was shown. As a result, a new method for constructing convolutional neural networks for in silico search for pharmacologically active substances based on matrix convolution of the energy spectra of multi-target multiple docking was developed.

Full Text

Методы машинного обучения и искусственных нейронных сетей широко применяются мировым научным сообществом в поиске фармакологически активных веществ [1]. При этом обычно используются общепринятые архитектуры нейронных сетей, в частности, сверточные нейронные сети, разработанные для распознавания зрительных образов [2].

Однако при нейросетевом моделировании фармакологических соединений физический смысл и внутренняя структура химико-биологических данных значительно отличаются от таковых для изображений. В связи с этим создание новых методов построения нейросетевых моделей, описывающих зависимости между фармакологической активностью и структурой химических соединений, является актуальной и научно востребованной задачей.

В наших работах [3–5] было показано, что использование метода множественного докинга для построения нейросетевых моделей зависимостей между системными видами фармакологической активности и спектром энергий множественного докинга химических соединений в релевантные биомишени позволяет создавать высокоточные и статистически очень достоверные прогнозные модели.

Следует отметить, что обработка спектров энергий мультитаргетного множественного докинга, вычисленных для совокупности нескольких биомишеней, значительно увеличивает размерность признакового пространства, и поэтому для использования подобных данных в нейросетевом моделировании необходимо разработать валидные методы свертки.

ЦЕЛЬ РАБОТЫ

Доказательство методами многомерной статистики и нейросетевого моделирования валидности использования матричной свертки спектров энергий мультитаргетного множественного докинга как статистически высоко достоверной метрики аффинности химических соединений к совокупности фармакологически релевантных биомишеней.

МЕТОДИКА ИССЛЕДОВАНИЯ

Основная гипотеза. Совокупность значений энергии докинга, рассчитанная для множества пространств нескольких релевантных биомишеней и обработанная с помощью предлагаемой процедуры матричной свертки, позволяет адекватно моделировать воздействие множества молекул лиганда на совокупность нескольких белков-мишеней в целом и с высокой статистической достоверностью отражает системную мультитаргетную фармакологическую активность химических соединений, что позволяет с высокой точностью прогнозировать уровень этой активности.

Задачи исследования. Для достижения поставленной цели необходимо было решить следующие задачи:

  1. Разработать алгоритм матричной свертки спектра энергий мультитаргетного множественного докинга.
  2. Сформировать верифицированную обучающую выборку по уровню активности и спектрам энергий мультитаргетного множественного докинга известных соединений, испытанных на модельную фармакологическую активность.
  3. Провести матричную свертку спектров энергий мультитаргетного множественного докинга.
  4. Выполнить однофакторный дисперсионный анализ, устанавливающий статистическую значимость уровня модельной активности известных соединений от параметров матричной свертки спектров энергий мультитаргетного множественного докинга.
  5. Провести с помощью дискриминантного анализа оценку точности прогноза активности известных соединений с использованием в качестве независимых переменных параметров матричной свертки спектров энергий мультитаргетного множественного докинга.
  6. Выполнить обучение нейронных сетей на указанных сверточных переменных и для лучшей построенной нейросети произвести оценку точности прогноза модельной фармакологической активности.

Алгоритм матричной свертки мультитаргетного спектра энергий множественного докинга

Алгоритм матричной свертки основан на построении матрицы попарных расстояний между значениями переменных и последующем вычислении определителя полученной матрицы. Достоинством алгоритма является отсутствие ограничений на число сворачиваемых переменных, так как он основан на геометрическом подходе. Для одной биомишени и одного соединения k-спектр рассчитанных в результате множественного докинга 135 значений ΔE можно рассматривать как координаты точки в многомерном пространстве. В соответствии с этим, матрица расстояний Хэмминга между парами значений переменных i и j может быть определена следующим образом:

Dk={Dkij}={|ΔEik-ΔEjk|}, i,j=1...M, ij, k=1...N, (1)

где Dkij – расстояние Хэмминга между энергиями ΔEi и ΔEj, i≠j;

ΔEik – значение энергии i для соединения k, k=1...N;

ΔEjk – значение энергии j для соединения k, k=1...N;

M – число сворачиваемых значений энергии, равно 135;

N – число соединений.

Для соединения k значение свертки 135 энергий множественного докинга для одной биомишени вычисляется как определитель матрицы Dk.

Wk=detDk, k=1...N. (2)

В результате матричной свертки мультитаргетный множественный аффинитет каждого соединения в отношении L-релевантных биомишеней будет представлен L-сверточными переменными.

По смыслу, определитель матрицы равен ориентированному объему многомерного параллелепипеда, заданного векторами в виде столбцов матрицы. В соответствии с формулой (1), элементы матрицы расстояний Dk характеризуют вариативность значений множественного докинга ΔE. Таким образом, если соединение k связывается со всеми пространствами данного белка-мишени с примерно одинаковой интенсивностью, показатель матричной свертки Wk будет близок к нулю. Если же соединение k связывается c пространствами данного белка-мишени с разной интенсивностью, показатель матричной свертки Wk будет принимать тем бóльшие значения, чем больше различия в значениях ΔE. Фактически это означает, что в этом белке имеются «особые» области связывания, с которыми рассматриваемое соединение взаимодействует с гораздо бóльшей интенсивностью, чем с остальными.

Описанный алгоритм был реализован на языке Borland Delphi в виде программы MatrConv v06.11.24.

Формирование обучающей выборки

В качестве модельной фармакологической активности была выбрана анксиолитическая активность, системный характер которой определяется мультитаргетным воздействием соединений на достаточно большое число биомишеней. Исходная верифицированная обучающая выборка по анксиолитической активности и спектрам энергий мультитаргетного множественного докинга 537 известных соединений в 22 релевантных белка-мишени была сформирована ранее в работе [5] и включала 457 активных и 80 неактивных соединений. Каждое соединение характеризовалось 135·22 = 2 970 значениями ΔE.

Матричной свертке было подвергнуто 135·22·537 = 1 594 890 значений ΔE, в результате чего была получена матрица сверточных параметров спектров энергий мультитаргетного множественного докинга размером 22 переменных на 537 наблюдений.

Однофакторный дисперсионный анализ

Для показателя наличия/отсутствия анксиолитической активности с помощью программы Statistica 7 [6] был выполнен однофакторный дисперсионный анализ (ANOVA) [7] зависимости указанного фактора от многомерной матрицы значений сверточных переменных спектров энергий мультитаргетного множественного докинга, полученных в результате матричной свертки. Рассчитаны величины критерия лямбда Уилкса Λ, соответствующего ему критерия Фишера F, и определена статистическая достоверность p используемых сверточных переменных.

Дискриминантный анализ

С целью оценки точности прогноза наличия/отсутствия анксиолитической активности с помощью программы Statistica 7 [6] был выполнен дискриминантный анализ [8], в котором независимыми переменными также служили показатели, полученные в результате матричной свертки спектров энергий мультитаргетного множественного докинга. По результатам прогноза на объединенной обучающей выборке были рассчитаны общая точность прогноза Acc и, по данным ROC-анализа, площадь под кривой AUCROC. С помощью биномиального критерия z [9] оценена статистическая достоверность p точности прогноза.

Нейросетевое моделирование

Выполняли с помощью программы Statis-tica 7 [6]. В качестве архитектуры нейронной сети был выбран двухслойный перцептрон MLP k‑m‑2 с узким горлом. Здесь k – число входных нейронов, в данном случае 22; m – число скрытых нейронов, устанавливается программой от 3 до 21, поскольку 2 < m < k. При обучении нейросетей для скрытого слоя использовались активационные функции Identity, Logictic, Tanh, Exponential, выбор которых производился программой.

Для выходных нейронов использовалась активационная функция Softmax, которая является наиболее эффективной при обучении классификационных нейронных сетей [10]. При формировании обучающих и тестовых подвыборок использовался метод Монте-Карло.

С целью достижения наилучшего результата обучения, число моделируемых сетей было установлено в 4 000, из которых программой автоматически отбирались 400. После окончания обучения из 400 лучших отобранных программой нейросетей по совокупности характеристик точности вручную отбирали одну наилучшую. Как и в случае дискриминантного анализа, для лучшей построенной нейросети по результатам прогноза на объединенной обучающей выборке были рассчитаны общая точность прогноза Acc и по данным ROC-анализа – площадь под кривой AUCROC. С помощью биномиального критерия z [9] оценена статистическая достоверность p точности прогноза.

РЕЗУЛЬТАТЫ ИССЛЕДОВАНИЯ И ИХ ОБСУЖДЕНИЕ

Результаты однофакторного дисперсионного анализа анксиолитической активности показывают, что совокупность параметров матричной свертки спектров энергий мультитаргетного множественного докинга является статистически высоко достоверной интегральной метрикой аффинности химических соединений к релевантным белкам-мишеням.

Вычисленные критерий лямбда Уилкса Λ = 0,914, соответствующий ему критерий Фишера F(22,514) = 2,202 и статистическая достоверность используемых сверточных переменных p = 1,38·10-3 доказывают, что предлагаемый сверточный метод можно применять в поиске in silico фармакологически активных соединений.

В таблице приведено сравнение результатов прогноза анксиолитической активности методом дискриминантного анализа и с помощью сверточной нейросетевой модели.

 

Точность прогноза анксиолитической активности с помощью дискриминантного анализа и с использованием сверточной нейросетевой модели

Показательточности прогноза

Значение для метода прогноза

Дискриминантный анализ

Нейронная сеть1

Acc, %2

84,0

87,9

AUCROC, %3

62,9

65,8

z4

4,21

5,16

p5

1,26·10-5

1,22·10-7

Примечание.

1 Архитектура лучшей нейронной сети MLP 22-6-2 (Exponential, Softmax).

2 Общая точность прогноза на объединенной обучающей выборке.

3 Площадь под кривой по данным ROC-анализа.

4 Биномиальный критерий [9].

5 Статистическая достоверность точности прогноза по биномиальному критерию [9].

 

Показательно, что по результатам как дискриминантного, так и нейросетевого анализа совокупность параметров матричной свертки спектров энергий мультитаргетного множественного докинга является статистически высоко достоверным способом представления интегральной аффинности химических соединений к релевантным белкам-мишеням при прогнозе фармакологической активности. В дискриминантном анализе статистическая достоверность точности прогноза составила p = 1,26·10-5, а при нейросетевом моделировании статистическая достоверность точности прогноза составила p = 1,22·10-7.

Приведенные в таблице результаты дискриминантного и нейросетевого анализов полностью согласуются с результатами дисперсионного анализа и подтверждают вывод о том, что предлагаемый метод матричной свертки спектров энергий мультитаргетного множественного докинга химических соединений к релевантным белкам-мишеням можно эффективно применять в поиске in silico фармакологически активных веществ. Таким образом, на примере анксиолитической активности, с использованием двух методов многомерной статистики – однофакторного дисперсионного анализа и дискриминантного анализа, и технологии искусственных нейронных сетей, доказано, что матричная свертка спектров энергий мультитаргетного множественного докинга является статистически высоко достоверным валидным методом оценки интегральной аффинности химических соединений к совокупности фармакологически релевантных биомишеней.

ЗАКЛЮЧЕНИЕ

  1. Разработан алгоритм матричной свертки спектра энергий множественного докинга лигандов в релевантные белки-мишени.
  2. Методами многомерной статистики и нейросетевого моделирования доказана валидность использования матричной свертки спектров энергий мультитаргетного множественного докинга как статистически высоко достоверной метрики аффинности химических соединений к совокупности фармакологически релевантных биомишеней.
  3. Как итог создан новый метод построения сверточных нейронных сетей для поиска in silico фармакологически активных веществ на основе матричной свертки спектров энергий мультитаргетного множественного докинга.

Работа выполнена в рамках государственного задания Министерства здравоохранения Российской Федерации № 23022400009-9 «Разработка методологии компьютерного поиска мультитаргетных фармакологически активных соединений на основе множественного докинга и технологии сверточных нейронных сетей различной архитектуры».

×

About the authors

Pavel M. Vasilyev

Volgograd State Medical University; Research Center of Innovative Drugs

Author for correspondence.
Email: pvassiliev@mail.ru
ORCID iD: 0000-0002-8188-5052

Doctor of Biological Sciences, Senior Researcher VAK (Associate Professor), Head of the Laboratory of Information Technologies in Pharmacology and Computer Modeling of Drugs, Professor of the Department of Pharmacology and Bioinformatics

Russian Federation, Volgograd; Volgograd

Arina V. Golubeva

Volgograd State Medical University; Research Center of Innovative Drugs

Email: arina_arina_golubeva@mail.ru
ORCID iD: 0000-0001-8268-8811

Junior Researcher of the Laboratory of Information Technologies in Pharmacology and Computer Modeling of Drugs, Assistant of the Department of Pharmacology and Bioinformatics

Russian Federation, Volgograd; Volgograd

Maxim A. Perfiliev

Volgograd State Medical University; Research Center of Innovative Drugs

Email: maxim.firu@yandex.com
ORCID iD: 0000-0002-5326-3299

Junior Researcher of the Laboratory of Information Technologies in Pharmacology and Computer Modeling of Drugs, Assistant of the Department of Pharmacology and Bioinformatics

Russian Federation, Volgograd; Volgograd

Andrey N. Kochetkov

Research Center of Innovative Drugs

Email: akocha@mail.ru
ORCID iD: 0000-0003-3077-1837

System Administrator, Software Engineer at the Laboratory of Information Technologies in Pharmacology and Computer Modeling of Drugs

Russian Federation, Volgograd

References

  1. Sarkar C., Das B., Rawat V. S. et al. Artificial Intelligence and Machine Learning Technology Driven Modern Drug Discovery and Development. International Journal Molecular Sciences. 2023;24(3):2026.
  2. Leijnen S., Van Veen F. The Neural Network Zoo. Proceedings. 2020;47(4):9.
  3. Vassiliev P. M., Kochetkov A. N., Spasov A. A., Perfilev M. A. The energy spectrum of multiple docking as a multidimensional metric of the affinity of chemical compounds to pharmacologically relevant biotargets. Volgogradskiy nauchno-meditsinskiy zhurnal = Volgograd Journal of Medical Research. 2021;3:57–61. (In Russ.).
  4. Vassiliev P. M., Kochetkov A. N., Perfilev M. A. Neural network modeling of the dependence of GABAA agonistic activity of chemical compounds on the spectrum of multiple docking energies. Vestnik Volgogradskogo gosudarstvennogo meditsinskogo universiteta = Journal of Volgograd State Medical University. 2022; 19(4):88–93. (In Russ.).
  5. Vassiliev P. M., Perfilev М. A., Golubeva A. V. et al. Multi-target neural network model of anxiolytic activity of chemical compounds based on correlation convolution of energy spectra of multiple docking. XXX symposium "Bioinformatics and computer-aided drug discovery": Proceedings book. Moscow: Institute of Biomedical Chemistry. 2024. 46 р.
  6. Hilbe J. M. Statistica 7: an overview. The American Statistician. 2007;61(1):91–94.
  7. Arens H., Loyter Y. Multivariate Analysis of Variance. Moscow: Finance and Statistics, 1985. 230 p. (In Russ.).
  8. Kim J.-O., Mueller C. W., Klekka W. R. et al. Factor, discriminant, and cluster analysis. Moscow: Finance and Statistics, 1989. 215 p. (In Russ.).
  9. Glotov N. V., Zhivotovskiy L. A., Khovanov N. V., Khromov-Borisov N. N. Biometrics. Leningrad: Leningrad University Publishing House, 1982. 264 p. (In Russ.).
  10. Dubin U. Cross-Entropy Method: Theory with Applications. Chisinau (Moldova): LAMBERT Academic Publishing, 2013. 148 p.

Supplementary files

Supplementary Files
Action
1. JATS XML

Copyright (c) 2024 Vasilyev P.M., Golubeva A.V., Perfiliev M.A., Kochetkov A.N.

Creative Commons License
This work is licensed under a Creative Commons Attribution 4.0 International License.