Формування масиву чисельних ознак для класифікації авторства програмних кодів із використанням символьних крос-зв’язків між словами

Голуб С.В.; Немов Р.Г.

doi:10.34121/1028-9763-2026-2-70-78

Автор(и)

Голуб С.В. https://orcid.org/0000-0002-5523-6120 , Черкаський державний технологічний університет
Немов Р.Г. https://orcid.org/0009-0006-3219-450X , Черкаський державний технологічний університет

DOI:

https://doi.org/10.34121/1028-9763-2026-2-70-78

Ключові слова:

атрибуція коду, класифікація текстів, словник ознак, масив вхідних даних, межа інформативної достатності, крос-звʼязки між словами, інтелектуальний моніторинг, МГУА

Анотація

Розглянуто задачу автоматичної атрибуції авторства програмних кодів як складову інформаційної технології інтелектуального моніторингу. Існуючі підходи до атрибуції коду спираються переважно на синтаксичні ознаки конкретної мови програмування (абстрактні синтаксичні дерева, токени, лексичні конструкції) і тому не переносяться між мовами, тоді як реальні автори часто пишуть код різними мовами, зберігаючи характерний стиль. Як альтернативу використано методологію формування масиву вхідних даних (МВД) школи С.В. Голуба, розроблену в дисертаційному дослідженні М.С. Голуб для класифікації україномовних текстів, з імовірнісним критерієм інформативності та межею інформативної достатності (МІД). Запропоновано новий тип ознак — символьні крос-зв’язки між словами, які розширюють словник школи С.В. Голуба та характеризують парні комбінації суфіксів і префіксів ідентифікаторів коду в межах вікна фіксованої довжини. Формалізовано крос-звʼязки трьох рангів (1×1, 2×2, 3×3) як частоти появи впорядкованих пар k-символьних рядків при переборі всіх упорядкованих пар слів у вікні. Експериментально досліджено ефективність підходу на датасеті з 12 авторів (10 людей і дві генеративні моделі штучного інтелекту — ChatGPT та ClaudeCode) у чотирьох мовах програмування (Java, JavaScript, TypeScript, Python), 119 програмних класів і 641 вікно. У внутрішньомовному сценарії отримано 89,8–100 % правильно класифікованих вікон; у крос-мовному сценарії запропонований метод забезпечив 100% правильно класифікованих вікон при розмірі вікна 500 знаків, що відповідає перевазі методу до +1,30 %. Крос-звʼязки активно долають поріг МІД і становлять до 77 % обсягу адаптивного словника, що свідчить про їх високу інформативність як нового мовно-незалежного типу ознак для задач атрибуції авторства програмних кодів. Табл.: 3. Бібліогр.: 12 назв.

Посилання

1. Голуб М.С. Формування масиву вхідних даних при класифікації текстів у технології інформаційного моніторингу. Математичні машини і системи. 2018. № 1. С. 59–66.

2. Голуб М.С. Формування масиву чисельних ознак для класифікації україномовних текстів в інформаційній технології інтелектуального моніторингу: дис. канд. техн. наук: 05.13.06 / Черкаський державний технологічний університет. Черкаси, 2018. 137 с.

3. Ивахненко А.Г. Индуктивный метод самоорганизации моделей сложных систем. Киев: Наукова думка, 1981. 296 с.

4. Голуб С.В., Жирякова І.А., Куницька С.Ю., Авраменко В.П. Методи розвитку моніторингових інтелектуальних систем. Інформація, комунікація, суспільство 2019: матеріали 8-ї Міжнар. наук. конф. ICS-2019. Львів: Видавництво Львівської політехніки, 2019. С. 65–67.

5. Голуб М.С. Дисперсійний метод формування точок спостереження в інформаційній технології класифікації текстів. Вісник інженерної академії України. 2017. № 3. С. 38–42.

6. Немов Р.Г., Голуб С.В. Агентне програмування інтелектуального аналізу кодів програм. 13 міжнародна наукова конференція ІКС-2024. Львів, 2024. С. 133–135.

7. Немов Р.Г., Голуб С.В., Немченко В.В. Структурна динаміка програмного агента інформаційного моніторингу. ІТСМ. Івано-Франківськ, 2023. С. 91–94.

8. Голуб М.С. Вибір ознак у процесі інтелектуальної обробки текстових повідомлень. Інформація, комунікація, суспільство 2014: матеріали 3-ї Міжнар. наук. конф. ICS-2014. Львів: Видавництво Львівської політехніки, 2014. С. 148–149.

9. Голуб С.В., Константиновська О.В., Голуб М.С. Формування показників масиву вхідних даних для ідентифікації авторства текстових повідомлень. Системи обробки інформації: зб. наук. праць. Харків: Харківський університет повітряних сил імені Івана Кожедуба, 2014. Вип. 2 (118). С. 89–92.

10. Голуб М.С. Формування словника ознак для класифікації україномовних текстів в інформаційній технології багаторівневого інтелектуального моніторингу. Інформація, комунікація, суспільство 2019: матеріали 8-ї Міжнар. наук. конф. ICS-2019. Львів: Видавництво Львівської політехніки, 2019. С. 68–70.

11. Голуб С.В., Мартинова Г.І., Голуб М.С. Моделювання діалектного тексту в технології багаторівневого інформаційного моніторингу. Математичні машини і системи. 2016. № 4. С. 76-83.

12. Немов Р.Г., Голуб С.В. Агентне програмування інтелектуального аналізу кодів програм. I Міжнародна науково-практична конференція. Харків-Яремче, 2025. С. 218–220.

Формування масиву чисельних ознак для класифікації авторства програмних кодів із використанням символьних крос-зв’язків між словами

Автор(и)

DOI:

Ключові слова:

Анотація

Посилання

Завантаження

Опубліковано

Номер

Розділ

Ліцензія

Як цитувати

Мова

Інформація