Исследование возможностей системы «антиплагиат, который ВУЗ» для обнаружения заимствований

Появление компьютерных технологий и Интернета, генеративных текстов GPT привело к появлению огромных объемов доступной информации. Многочисленные каталоги, библиотеки и архивы содержат огромные объемы данных, доступных для общего использования. Эта доступность облегчила использование всей доступной информации в различных отчетах, статьях, курсовых, ВКР, книгах и диссертациях, часто без изменений или надлежащего указания первоисточников. Недавние громкие скандалы подчеркивают актуальность проблемы выявления заимствований, обычно называемых плагиатом. Вторая проблема - статус "Внимание, документ подозрительный: в документе присутствует сгенерированный текст".

Некогда заслуживающим внимания решением в области выявления заимствований является система «Антиплагиат ВУЗ», действующая с 2005 года. Многие образовательные учреждения используют эту систему для выявления разделов текста, заимствованных из различных источников. Система «Антиплагиат ВУЗ» облегчает поиск по обширному массиву коллекций, включая рефераты, тесты, учебники и загружаемые пользователем документы, хранящиеся в ее собственной базе данных.

Несмотря на широкую популярность, сохраняются сомнения относительно эффективности системы в точном выявлении заимствований. Для оценки возможностей системы были собраны тестовые образцы, состоящие из текстов, взятых с различных интернет-сайтов. Анализ в системе «Антиплагиат ВУЗ» показал ее умение выявлять тексты, тиражированные из рефератов и учебников. Однако тексты из энциклопедий и Википедии не распознавались стабильно, а информация с региональных, тематических и новостных сайтов практически не учитывалась системой. Примечательно, что значительное количество заимствований происходит из таких источников.

Такое поведение имеет простое объяснение: система Антиплагиат осуществляет поиск исключительно в своей предопределенной базе данных. Хотя это значительно ускоряет процесс обнаружения заимствований, одновременно снижается общее качество проверки на плагиат.

Дополнительное ограничение системы связано с наложенным ограничением на размер проверяемого текста, установленным на уровне 3000 или 5000 символов (доступно после регистрации). Это ограничение является стратегической мерой, оно не направленно на ускорение работы алгоритмов поиска, которые имеют тенденцию испытывать существенное замедление при увеличении размера текста, а способствует заработку сервиса.

Учитывая преобладающую в учебных заведениях практику проверки работ на предмет плагиата, заметно возросло применение стратегий по сокрытию случаев заимствования. В этом отношении возникли различные подходы, в том числе:

  1. Изменение родов, чисел и времен слов в тексте, часто влекущее за собой такие изменения, как замена «выполнено» на «выполнено» или «выполнено», а «я» на «мы» и другие.
  2. Постепенные изменения заимствованного текста, включающие изменения по одному слову в предложении.
  3. Сокращение заимствованного текста путем пропуска слов, предложений, абзацев, изображений, формул и т.п.
  4. Перестановка частей текста, абзацев и предложений.
  5. Уклонение от систем обнаружения плагиата путем замены русских букв их визуально аналогичными английскими аналогами и другие подобные приемы.
  6. Замена знаков препинания, например преобразование "." на "," и наоборот, либо заменяя "," на "." и т. д.
  7. Замена пробелов невидимыми буквами (написанными, например, белым цветом).
  8. 8. Ручная или автоматическая синонимизация текста и другие аналогичные методы.

Ну и самый главный могильщик любого сервиса антиплагиат – это генеративные возможности GPT,

Для оценки эффективности системы Антиплагиат была разработана серия тестов. Были выбраны тексты, которые система последовательно идентифицировала как 100% плагиат и впоследствии модифицировали с использованием каждого из вышеупомянутых подходов. Все тесты имели приблизительную длину 2000 символов и содержали в среднем 400 слов, в результате чего было составлено по 10 тестов для каждого типа модификации.

По итогам проверки тестов, проведенных с использованием системы «Антиплагиат ВУЗ», было сделано несколько ключевых выводов:

  1. Система продемонстрировала неспособность обнаружить изменения в роде, числах и временах слов в тексте.
  2. Незначительные изменения в заимствованном тексте не были последовательно выявлены, причем обнаружение зависело от близости измененных слов друг к другу.
  3. Система продемонстрировала способность определять сокращение заимствованного текста путем удаления слов, предложений и абзацев.
  4. Перестановка разделов, абзацев и предложений текста также успешно распознавалась системой.
  5. Система смогла выявить замену русских букв на визуально похожие английские аналоги в текущей версии.
  6. Замена знаков препинания не повлияла на работу системы, что указывает на то, что знаки препинания не могут учитываться при анализе.
  7. Хотя замену пробелов невидимыми буквами можно было обнаружить визуально при вставке текста в окно проверки, сама система Антиплагиат не выявила подобные замены автономно.
  8. Синонимизация текста системой не обнаружена.

Таким образом, результаты исследования показывают, что система Антиплагиата ограничена в своих возможностях выявлять различные подходы, используемые для сокрытия случаев заимствования текста. В сочетании с отсутствием поддержки поиска в Интернете эти ограничения существенно снижают эффективность проверки текста и снижают точность обнаружения заимствований. Следовательно, несмотря на свою широкую популярность, система «Антиплагиат ВУЗ» лучше всего подходит для поверхностного анализа текста. Для более комплексной проверки текстов на предмет заимствований следует использовать альтернативные системы, предназначенные для проверки текстов.