Чем отличается генеративный текст от человеческого – простая статистика

Мы уже писали, что современные детекторы не умеют определять и точно выявлять генеративность текста, первым, кто это понял, оказалась OpenAI, разработчик GPT. Они не только поняли проблему, но и озвучили ее, заявив о уровне ошибок и перспективах в этой сфере - бесперспективность.

Все другие разработчики, придумавшие детекторы, например Copyleaks, GPTZero антиплагиат, используют тексты как статистический массив и определяют, согласно определенных критериев, наличие тех или иных показателей. По этой причине оценка производится блоками, а не предложениями.

Простейший пример – наличие глаголов, если в абзаце глаголов аномально много, то это генеративный текст. Или, принято считать, что в научном тексте ок. 47 % существительных, следовательно, если этих существительных заметно меньше, то текст – не научный и может являться генеративным.

Еще один показатель, который может применяться это семантические конструкции предложений, в практике GPT наблюдается регламентированный порядок построения предложений.

Порядок слов в русском языке зависит от многих факторов, таких как синтаксис, семантика и стиль. Правила построения предложений в русском языке предполагают расположение синтагм, обусловленное законами синтаксиса, семантики и условиями функционального стиля. Порядок слов несет стилистическую нагрузку. Слово, поставленное в несвойственную позицию в предложении, приобретает особый смысл.

GPT может учитывать эти правила, когда генерирует текст на русском языке, но он не всегда делает это правильно. Он опирается на статистические закономерности, выявленные из большого объема текстовых данных, но не на грамматические правила. Поэтому он может допускать ошибки в построении предложений, согласовании слов, выборе лексики и т.д. Естественно, такие девиации выявляет статистический детектор.

Третья заметная проблема это состав биграмм (словосочетания из двух слов) и триграмм (сочетания их трех слов), мы провели оценку генеративных текстов, которые во всем своем разнообразии поступают к нами на очеловечивание, с классическими научными текстами имеющимися у нас на хранении в электронной библиотеке.

В человеческих текстах преобладают биграммы, триграммы и n-граммы: ПРИЛ + СОЮЗ + ПРИЛ; ГЛАГ + СОЮЗ + ГЛАГ; СУЩ + СОЮЗ + СУЩ; ПРИЛ + СОЮЗ + ПРИЛ; ГЛАГ + СОЮЗ + ГЛАГ; СУЩ + СОЮЗ + СУЩ; ПРИЛ + СУЩ + ПРЕДЛ; СУЩ + ПРИЛ + СУЩ

А в генеративных текстах больше всего встречаются следующие биграммы и триграммы: ПРИЛ + ПРИЛ; НАРЕЧ + ПРИЛ; СУЩ + СУЩ + СУЩ + СУЩ; ГЛАГ + СУЩ + ПРЕДЛ + СУЩ; СОЮЗ + СУЩ + ПРИЛ.

Применительно к антиплагиат, который ВУЗ речь идет о технических возможностях этой системы и наличием индекса миллиарда работ. Это позволяет сформировать собственную коллекцию n-грамм, которая показывает, какие словосочетания употребляются в студенческих работах. Антиплагиат может использовать готовый корпус n-грамм НКРЯ.

Помимо перечисленных показателей детекторы генеративного текста могут отслеживать еще ряд параметров.

Перплексия — это мера того, насколько хорошо согласованы слова в тексте. Обычно человеческий текст имеет высокую перплексию, так как он более разнообразен и неожидан, чем генеративный текст. Генеративный текст, созданный нейросетью, имеет низкую перплексию, так как он более структурирован и предсказуем, чем человеческий текст. Перплексия зависит от сложности и объема текста, поэтому нет однозначного ответа на вопрос, какой показатель перплексии соответствует генеративному и человеческому тексту. В разных источниках можно найти разные значения перплексии для разных моделей и текстов, ниже приведены показатели перплексии возможные при перефразировании русских текстов:

- BART: 8.8

- T5: 9.1

- GPT-3: 10.4

- Человеческий текст: 12.1

Как видно, человеческий текст имеет самую высокую перплексию, а BART — самую низкую. Как свидетельствует методология, перплексия должна использоваться совместно с другими метриками, такими как BLEU, ROUGE, METEOR и т.д.

Сегодня нет однозначного ответа на вопрос, какие показатели перечисленных метрик должен иметь генеративный и текст, написанный человеком. Однако, в общем случае, можно сказать, что текст, написанный человеком, имеет более высокие значения метрик, основанных на полноте (recall), таких как ROUGE и METEOR, чем генеративный текст, так как человеческий текст более разнообразен и содержит больше информации, чем генеративный текст. С другой стороны, генеративный текст имеет более высокие значения метрик, основанных на точности (precision), таких как BLEU, чем человеческий текст, так как генеративный текст более структурирован и предсказуем, чем человеческий текст. Ниже приведены возможные значения данных показателей:

- CNN+RNN: BLEU-4 = 0.277, ROUGE-L = 0.491, METEOR = 0.233

- CNN+Transformer: BLEU-4 = 0.312, ROUGE-L = 0.522, METEOR = 0.254

- Человеческий текст: BLEU-4 = 0.217, ROUGE-L = 0.472, METEOR = 0.252

Как видно, генеративные модели имеют более высокие значения BLEU и ROUGE, чем человеческий текст, но примерно одинаковые значения METEOR. Это может быть связано с тем, что генеративные модели используют часто встречающиеся слова и фразы, которые совпадают с референсными текстами, но не всегда передают смысл и креативность человеческого текста. METEOR учитывает синонимы и грамматику, поэтому он более чувствителен к различиям в смысле и стиле текста.

Какие возможности открывает, вышеприведенное конспективное изложение основных подходов, перед сервисами повышения уникальности и в частности КонтрПлагиат, умеющим перефразировать и очеловечивать тексты? 

Первое - введение в практику очеловечивания текстов специальных требований.

Напиши новый текст, на русском языке, увеличив объем каждого предложения на 20%, максимально уменьши количество глаголов, используй глаголы несовершенного вида, имена существительных, болоше 47%, повысь лексическое разнообразие, применяй разные порядки слов в предложениях (SVO, SOV, VOS, VSO, OVS, OSV), используй разные по длине предложения, увеличь водность каждого предложения на 15%. 10% текста должны составлять "связочные" слова (также; является; например; таким образом; при этом; кроме того; однако; помимо этого; на сегодняшний день и др.). Повысь качество текста - закон Ципфа более 50%, перплексия текста равна 118.0, берстность текста равна 0.17, индекс Шеннона для текста равен 4.8 бит/слово.

Перефразируй каждое предложение текста. Выполни обязательные правила и требования:
- Увеличь объем каждого предложения за счет фактов и доказательств, повысь лексическое и семантическое разнообразие - применяй разные порядки слов в предложениях (смешанный, обратный, прямой), используй разные по длине предложения. 10% текста должны составлять "связочные" слова (также; является; например; таким образом; при этом; кроме того; однако; помимо этого; на сегодняшний день и др.).
- В обязательном порядке используй биграммы, триграммы и n-граммы: ПРИЛ + СОЮЗ + ПРИЛ; ГЛАГ + СОЮЗ + ГЛАГ; СУЩ + СОЮЗ + СУЩ; ПРИЛ + СОЮЗ + ПРИЛ; ГЛАГ + СОЮЗ + ГЛАГ; СУЩ + СОЮЗ + СУЩ; ПРИЛ + СУЩ + ПРЕДЛ; СУЩ + ПРИЛ + СУЩ (выдели эти n-граммы курсивом).
- Запрещены биграммы, триграммы и n-граммы: ПРИЛ + ПРИЛ; НАРЕЧ + ПРИЛ; СУЩ + СУЩ + СУЩ + СУЩ; ГЛАГ + СУЩ + ПРЕДЛ + СУЩ; СОЮЗ + СУЩ + ПРИЛ.
- Категорически запрещены предложения семантически похожие друг на друга.

Перефразируй текст, найди и добавь в каждое предложение биграммы (последовательности из двух слов) и триграммы (последовательности из трех слов) НКРЯ (Основной корпус), дополни текст фактами и доказательствами из Интернет, повысь морфологическое, лексическое и синтаксическое разнообразие, применяй разные порядки слов в предложениях (смешанный, прямой, обратный). 10% текста должны составлять "связочные" слова (также; является; например; таким образом; при этом; кроме того; однако; помимо этого; на сегодняшний день и др.). Повысь качество текста - закон Ципфа более 50%, перплексия текста равна 5, берстность текста равна 0.4, BLEU-4 = 0.217, ROUGE-L = 0.472, METEOR = 0.252, индекс Шеннона для текста равен 3.8 бит/слово, индекс Лемпеля-Зива - 0.6.

Перефразируй текст, найди и добавь в каждое предложение биграммы (последовательности из двух слов) и триграммы (последовательности из трех слов) НКРЯ (Основной корпус), дополни текст фактами и доказательствами из Интернет. Максимально уменьши количество глаголов, используй глаголы несовершенного вида, увеличь количество имен существительных до 47%, повысь лексическое разнообразие, применяй разные порядки слов в предложениях (SVO, SOV, VOS, VSO, OVS, OSV), используй разные по длине предложения, увеличь водность каждого предложения на 15%. 10% текста должны составлять "связочные" слова (также; является; например; таким образом; при этом; кроме того; однако; помимо этого; на сегодняшний день и др.). Повысь качество текста - закон Ципфа более 50%, перплексия текста равна 11.8, берстность текста равна 0.37, индекс Шеннона для текста равен 4.8 бит/слово.

Второе, исключение из процессов перефразирования и очеловечивания сервисов автоматического перевода, например translate.google.comили DEEPL, т.к. эти сервисы работают с использованием нейросетей и в них "зашиты правила" используемые нейросетями. Все эти эти правила построения предложений, наличия лексических конструкций "отлавливает" статистический механизм детекторов. Подробнее читайте здесь: https://vk.com/kontrplagiat?w=wall-139501907_3201%2Fall