Семантичний аналіз і класифікація шкідливого програмного забезпечення для UNIX-подібних систем з використанням методів машинного навчання

Main Article Content

Maksym V. Mishchenko
Mariia S. Dorosh

Анотація

Стаття зосереджена на класифікації шкідливих програм на основі семантичного аналізу кодів операцій дизасембльованих секцій бінарних виконуваних файлів з використанням n-грам, індикатора TF-IDF і алгоритмів машинного навчання. Метою дослідження є вдосконалення та розширення наявних методів ідентифікації шкідливих програм, розроблених для UNIXподібних операційних систем. Завданням дослідження є створення алгоритму, який може ідентифікувати типи загроз у шкідливих бінарних файлах для UNIX-подібних систем за допомогою n-грам, індикатора TF-IDF і алгоритмів машинного навчання. Процес класифікації шкідливих програм може базуватися на статичних або динамічних сигнатурах. Статичні сигнатури можуть бути представлені у вигляді послідовностей байт-коду, двійкових інструкцій або імпортованих бібліотек. Динамічні сигнатури можна представити як послідовність дій шкідливого ПЗ. Ми будемо використовувати стратегію статичних сигнатур для семантичного аналізу та класифікації шкідливих програм. У цій статті ми будемо працювати з двійковими файлами ELF, які є найпоширенішим типом виконуваних файлів для UNIX-подібних операційних систем. Для цілей цього дослідження було зібрано набір даних із 2999 зразків шкідливих ELF файлів, використовуючи дані із сайтів VirusShare та VirusTotal, а також 959 нешкідливих програмних файлів з директорії /usr/bin в операційній системі Linux. Шкідливі файли представляють одне з 3 сімейств шкідливих програм: Gafgyt, Mirai та Lightaidra, які є поширеними загрозами для UNIXподібних систем. У отриманому наборі даних для кожного ELF файлу було проставлено мітку відподвідно до його типу. Запропонований алгоритм класифікації складається з кількох етапів підготовки: дизасемблювання кожного бінарного ELF файлу із набору даних і семантична обробка та векторизація інструкцій зі кожної з секцій файлу. Для встановлення порогу класифікації використовується поліноміальна модель Байєса. Використовуючи поріг класифікації, ми визначаємо розмір n-грам і секцію файлу, які дадуть найкращі результати класифікації. В результаті було виявлено, що найкраща точність класифікації отримана для n-gram розміру 4 та секції rodata. Щоб отримати найкращу точність, буде використано декілька моделей машинного навчання разом із оптимізацією гіперпараметрів. Як метрика точності розробленого алгоритму використовується середня точність і зважена оцінка F1. Стохастичний градієнтний спуск для моделі SVM було обрано як найкращу модель ML на основі отриманих експериментальних результатів. Експериментально підтверджено ефективність розробленого алгоритму для класифікації шкідливих програм для UNIX-подібних операційних систем. Результати були проаналізовані та використані для висновків та пропозицій для подальшої роботи.

Downloads

Download data is not yet available.

Article Details

Тематика

Розділ

Комп’ютерні системи та кібербезпека

Автори

Біографії авторів

Maksym V. Mishchenko, Національний університет «Чернігівська політехніка» вул. Шевченка, 95. Чернігів, 14035, Україна

аспірант, кафедра Інформаційних технологій та програмної інженерії

Mariia S. Dorosh, Національний університет «Чернігівська політехніка», вул. Шевченка, 95. Чернігів, 14035, Україна

доктор технічних наук, професор кафедри Інформаційних технологій та програмної інженерії

Scopus Author ID: 56912183600

Схожі статті

Ви також можете розпочати розширений пошук схожих статей для цієї статті.