UDK УДК 004.738 Doi: 10.31772/2712-8970-2022-23-2-148-155
Применение методов тематического моделирования для идентификации групп интернет-ресурсов с целью снижения риска киберугроз
Донцов Д. Ю., Исаев С. В.
Институт вычислительного моделирования СО РАН Российская Федерация, 660036, Красноярск, Академгородок, 50, стр. 44
Безопасность внутренней сети является важным аспектом успешного предприятия. Существуют различные средства для предотвращения киберугроз и анализа посещаемых интернет-ресурсов, но их быстродействие и возможность применения сильно зависит от объема входных данных. В статье рассматриваются существующие методы определения сетевых угроз с помощью анализа журналов прокси-сервера и предлагается метод кластеризации интернет-ресурсов, направленный на снижение объема входных данных путем исключения групп безопасных интернет-ресурсов или выбором только подозрительных интернет-ресурсов. Предложенный метод состоит из 3-х этапов: предобработка данных, анализ данных и интерпретация полученных результатов. Исходными данными для него являются записи журнала прокси-сервера. На первом этапе из исходных данных выбираются полезные для анализа данные, после чего непрерывный поток данных делится на небольшие сессии при помощи метода ядерной оценки плотности. На втором этапе выполняется мягкая кластеризация посещенных интернет-ресурсов путем применения метода тематического моделирования. Результатом второго этапа являются неразмеченные группы интернет-ресурсов. На третьем этапе, с помощью эксперта, происходит интерпретация полученных результатов путем анализа наиболее популярных интернет-ресурсов в каждой группе. Метод имеет множество настроек на каждом этапе, что позволяет сконфигурировать его под любой формат и специфику входных данных. Его область применения никак не ограничивается. Полученный метод может быть использован в качестве дополнительного шага предобработки с целью снижения количества входных данных.
Ключевые слова: тематическое моделирование, кибербезопасность, анализ данных.
References

1. Mouna J., Latifa B., Latifa B. R., Anis A. Classification of security threats in information systems. // Procedia Computer Science. 2014. Vol. 32. P. 489–496.

2. Дерендяев Д. А., Гатчин Ю. А., Безруков В. А. Определение влияния человеческого фактора на основные характеристики угроз безопасности // Кибернетика и программирование. 2019, № 3. С. 38–42.

3. Gyorodi R., Cornelia G., Pecherle G., Radu L. Network Security Using Firewalls // Journal of Computer Science and Control Systems, 2008. Vol. 1.

4. Kao D. Y., Wang S. J., Huang F. Dataset Analysis of Proxy Logs Detecting to Curb Propagations in Network Attacks // Intelligence and Security Informatics. 2008. P. 245–250.

5. Marshall B., Chen, H. Using Importance Flooding to Identify Interesting Networks of Criminal Activity. // Lecture Notes in Computer Science. 2006. Vol. 3975. P. 14–25.

6. Mukkamala S., Sung A. Identifying significant features fornetwork forensic analysis using artificial techniques // InternationalJournal of Digital Evidence. 2003. Vol. 1, no 4. P. 67–74.

7. Blei D. M. Probabilistiс topiс models // Communiсations of the ACM. 2012. Vol. 55, No. 4. P. 77–84.

8. Analysis of Web Proxy Logs / B. Fei, J. Eloff, M. Oliver, H. Venter // IFIP International Conference on Digital Forensics. Orlando, 2006. Vol. 222. P. 247–258.

9. Scott D. W. Multivariate Density Estimation. Theory. Practice and Visualization: Second edition. New York, 2015.

10. Using kernel density estimation to understand the influence of neighbourhood destinations on BMI / T. L. King, R. J. Bentley, L. E. Thornton et al. // BMJ Open, 2016, Vol. 6.

11. Kalinic M., Krisp J. Kernel Density Estimation (KDE) vs. Hot-Spot Analysis – Detecting Criminal Hot Spots in the City of San Francisco // Lund, Sweden, 2018.

12. Воронцов К. В. Вероятностное математическое моделирование: теория, модели, алгоритмы и проект BigFRTM. Москва : МАИ, 2021. 112 с.

13. Albalawi R., Yeap T., Benyoucef M. Using Topic Modeling Methods for Short-Text Data:
A Comparative Analysis. // Frontiers in Artificial Intelligence. 2020. Vol. 3.

14. Jelodar H., Wang Y., Yuan, Ch., Xia, F. Latent Dirichlet Allocation (LDA) and Topic modeling: models, applications, a survey. 2017.

15. Tharwat A., Gaber T., Ibrahim A., Hassanien A. E. Linear discriminant analysis: A detailed tutorial // Ai Communications. 2017. Vol. 30. P. 169–190.


Донцов Денис Юрьевич – аспирант, Институт вычислительного моделирования СО РАН. E-mail: denis.dontsov96@gmail.com.

Исаев Сергей Владиславович – кандидат технических наук, доцент, заведующий отделом информационно-телекоммуникационных технологий; Институт вычислительного моделирования СО РАН. E-mail: si@icm.krasn.ru.



  Применение методов тематического моделирования для идентификации групп интернет-ресурсов с целью снижения риска киберугроз