Что такое перплексия и как она помогает антиплагиат обнаруживать генеративные тексты

В святая святых научного поиска на факультете вычислительной математики и кибернетики Московского государственного университета (МГУ), опытными учеными разработан современный метод. Этот метод направлен в первую очередь на выявление автогенерированных (генеративных) текстов и может использоваться в антиплагиат детекторах.

Центральное место в этой разработке заняла модель ruRoBERTa - творение команды SberDevices, постоянно совершенствующей свои навыки работы с письменными данными, характерными для русского языка. Наряду с этой моделью создатели исследовали возможности, которые открываются при использовании другой модели, построенной на основе архитектуры LSTM, или, как ее еще называют в научных кругах, долговременной памяти. Отличительной особенностью LSTM является характерная схема организации, решение разработано для нейронных сетей.

Для оценки эффективности метода в реальных условиях научными исследователями было проведено обширное тестирование, включающее критический анализ 20 тыс. Интернет-отзывов. Эти отзывы представляли собой смесь реальных пользовательских материалов и текстов, сгенерированных искусственным интеллектом, причем часть из них была взята со страниц товаров на широко известных платформах онлайн-маркетов.

В подтверждение рабочей гипотезы модель ruRoBERTa смогла отделить текст, созданный человеком, от текста, синтезированного нейронными сетями, с впечатляющей точностью 86%. LSTM, однако, оказалась чуть менее эффективной, обеспечив точность 82%. Было замечено, что львиная доля неверных распознаваний в обоих методах приходится на посты небольшой длины, не превышающие 40 символов.

По мнению Н. Ефремовой, ассистента кафедры алгоритмических языков ВМК МГУ, причиной такого расхождения может быть высокая распространенность повторяющихся клишированных фраз в данных обучающих материалов. Эти клишированные фразы при подаче и воспроизведении генеративной моделью часто создают препятствия в процессе распознавания.

Эксперты МГУ отметили, что, несмотря на некоторые препятствия, обе методики, реализованные в RoBERTa и LSTM, показали удовлетворительную производительность при распознавании текстовых результатов. Поэтому они считаются их достаточно перспективными для использования в качестве инструмента для решения практических задач. Возможной альтернативой этим основным моделям может стать модель, основанная на архитектуре глубокой нейронной сети "Трансформатор". К сожалению, развертывание такой модели требует существенных вычислительных мощностей.

Вероятно данное исследование взяло на вооружение показатель перплексии. Перплексия  — это метрика, используемая для оценки качества модели, чем ниже этот показатель, тем точней текст генерации. Ниже приведены примеры текстов с разными перплексиями:

Перплексия  = 1

Ученые ТюмГУ успешно определили идеальные условия, необходимые для превращения навоза в высокоэнергетический горючий газ. Полученные ими результаты свидетельствуют о том, что термическая обработка отходов животноводства с помощью микроволнового излучения позволяет получить экологически чистое топливо со значительным содержанием водорода. Эти важные результаты были опубликованы в журнале Biomass Conversion and Biorefinery.

Исследователи подчеркнули, что переход от ископаемого топлива к возобновляемым источникам энергии, таким как биомасса, является эффективным решением экологических проблем, связанных с производством энергии.

Они обратили внимание на один конкретный вид биомассы - отходы животноводства, в частности, навоз крупного рогатого скота. При естественном разложении на открытом воздухе это сырье выделяет парниковые газы, такие как метан и оксиды углерода. Таким образом, использование этого сырья в качестве источника энергии позволяет значительно сократить выбросы парниковых газов. 

Перплексия  = 50

Ученые ТюмГУ успешно определили точные параметры, при которых навоз может быть превращен в топливный газ с высокой калорийностью. В основе процесса, как показали исследования, лежит термическая обработка отходов животноводства с применением микроволнового излучения, в результате которой получается энергетически богатое, экологически чистое топливо с повышенным содержанием водорода. Показательные результаты этого исследования нашли место в издании "Biomass Conversion and Biorefinery".

В ней отмечается неоценимый переход от использования ископаемого топлива к использованию возобновляемых источников энергии, причем биомасса является весьма жизнеспособной альтернативой. Этот переход рассматривается как потенциальный ключ к решению экологических проблем, связанных с получением топлива, которые в настоящее время стоят перед нашим энергетическим сектором.

В своей аргументации они указывают на целесообразность использования отходов животноводства, в частности навоза крупного рогатого скота, в качестве жизнеспособного источника биомассы. В процессе естественного хранения и разложения это сырье становится значительным источником выбросов парниковых газов, в первую очередь метана и оксидов углерода. Переработка его в жизнеспособный источник энергии позволяет перенаправить этот экологический ущерб на получение экологических выгод.