VacancySBERT - підхід до представлення назв посад та навичок для семантичного пошуку в домені підбору персоналу

Main Article Content

Maiia Y. Bocharova
Eugene V. Malakhov
Vitaliy I. Mezhuyev

Анотація

Стаття присвячена алгоритмам семантичного пошуку з глибоким навчанням, що застосовуються у сфері управління персоналом. Метою дослідження є вдосконалення та розширення різноманітних підходів до нормалізації назв, написаних у вільній формі, для зіставлення із заздалегідь визначеною стандартною таксономією. Завдання дослідження - запропонувати нову навчальну задачу для великої мовної моделі та навчити її відображати назви посад у вільній формі та навички, які пов'язані із назвою посади, у векторний простір таким чином, щоб назви посад, які мають спільне значення, знаходилися близько один до одного. Процес нормалізації назв посад може ґрунтуватися або на класифікації, або на порівнянні схожості. У той час як алгоритми класифікації намагаються віднести вибірку до заздалегідь визначеного набору категорій, алгоритми пошуку подібності застосовують більш гнучкий підхід, оскільки вони призначені для пошуку зразків, схожих на задану вибірку запиту, не вимагаючи заздалегідь визначених класів і міток. Враховуючи це, для пошуку кандидатів на нормалізацію назв посад ми будемо використовувати пошук за семантичною схожістю. Попередньо навчена мовна модель адаптується під час навчання для зіставлення назв посад і навичок на основі інформації про спільні входження. Для цього дослідження було зібрано близько 50 мільйонів пар "назва посади-опис" для навчання моделі та 33 тисячі триплетів "назва посадиопис-нормалізована назва посади" для тестування, де нормалізована назва посади була підібрана вручну укладачем оголошення про роботу. В якості базових моделей використано FastText, BERT, SentenceBert та JobBert. Як метрику точності розробленого алгоритму використано показник Recall у 3, 5 та 10 найкращих пропозиціях моделі. Показано, що нова мета навчання дозволяє досягти значного покращення порівняно з іншими загальними та специфічними кодувальниками тексту. Результати проаналізовано та використано для формулювання висновків та пропозицій щодо подальшої роботи. Датасет, який використовувався для тестування моделей оприлюднено задля сприяння подальшим дослідженням у цій галузі.

Downloads

Download data is not yet available.

Article Details

Тематика

Розділ

Інженерія програмного забезпечення та системний аналіз

Автори

Біографії авторів

Maiia Y. Bocharova, Одеський національний університет імені І. І. Мечникова, вул. Дворянська, 2. Одеса, 65082, Україна

аспірант, кафедра Математичного забезпечення компʼютерних систем

Eugene V. Malakhov, Одеський національний університет імені І. І. Мечникова, вул. Дворянська, 2. Одеса, 65082, Україна

доктор технічних наук, професор, завідувач кафедри Математичного забезпечення компʼютерних систем

Scopus Author ID: 56905389000

Vitaliy I. Mezhuyev, Университет прикладних наук FH JOANNEUM. Капфенберг, Австрія

доктор технічних наук, професор Інституту промислового менеджменту

Scopus ID: 24468383200

Схожі статті

Ви також можете розпочати розширений пошук схожих статей для цієї статті.