Гібридне виявлення нечітких текстів-дублікатів: косинусна подібність та трансформери

Main Article Content

Tetiana M. Zabolotnia
Nazarii V. Kozynets

Анотація

Cтаття розглядає проблему виявлення текстів, які мають однаковий зміст, але відрізняються лексикою та побудовою. Такі «нечіткі дублікати» дедалі частіше зустрічаються в контенті, створеному користувачами, медійних статтях та академічних матеріалах. Традиційні методи на основі TF-IDF із косинусною подібністю дозволяють швидко обробляти дані, проте часто оминають глибші семантичні нюанси, особливо в мовах із вільним порядком слів та складною морфологією (наприклад, слов’янські мови, такі як українська чи болгарська, та аглютинативні мови, як угорська). Повністю нейронні рішення (наприклад, трансформери) зазвичай забезпечують вищу точність, але можуть працювати повільно та вимагати значних обчислювальних ресурсів. Щоб вирішити ці проблеми, ми пропонуємо гібридний підхід, який інтегрує спрощений нейронний компонент із класичною косинусною подібністю. Робочий процес включає нормалізацію варіантів тексту (виправлення орфографічних помилок та форм словозмін), перетворення їх на семантичні вектори за допомогою полегшеної моделі трансформера, а потім застосування динамічного механізму порогів, налаштованого під конкретний жанр тексту (наприклад, новинні матеріали проти публікацій у соціальних мережах). Експерименти на наборах даних українською мовою свідчать, що запропонований метод більш ефективно збалансовує точність та швидкість порівняно з повністю нейронним пайплайном. Запропонований підхід є новаторським завдяки поєднанню доменоспецифічної попередньої обробки та полегшених нейронних вбудовувань для виявлення нечітких дублікатів у тексті, що дозволяє досягти приблизно на десять-дванадцять відсотків вищої точності виявлення порівняно з відомими рішеннями при збереженні більш швидкого часу обробки, ніж повна модель BERT. Попередні тести в редакційному середовищі та при перевірці на плагіат показали, що система більш надійно ідентифікує перефразований контент порівняно з чисто статистичними методами, тим самим знижуючи навантаження на ручну перевірку. Загалом, гібридний дизайн пропонує практичний компроміс між продуктивністю виявлення та обчислювальними вимогами, що є особливо корисним для застосувань із обмеженими ресурсами в мовах із багатою морфологією, таких як українська або інші слов’янські мови. Подальші дослідження будуть спрямовані на розширення морфологічного охоплення з метою подальшого підвищення надійності.

Downloads

Download data is not yet available.

Article Details

Тематика

Розділ

Комп’ютерні науки та інженерія програмного забезпечення

Автори

Біографії авторів

Tetiana M. Zabolotnia, Національний технічний університет України “Київський політехнічний інститут імені Ігоря Сікорського”, пр. Берестейський, 37. Київ, 03056, Україна

кандидат технічних наук, доцент кафедри Програмного забезпечення комп'ютерних систем

Scopus Author ID: 6507406568

Nazarii V. Kozynets, Національний технічний університет України “Київський політехнічний інститут імені Ігоря Сікорського”, пр. Берестейський, 37. Київ, 03056, Україна

магістр кафедри Програмного забезпечення комп'ютерних систем

Схожі статті

Ви також можете розпочати розширений пошук схожих статей для цієї статті.