Как заставить ChatGPT написать человеческий текст и избежать статуса - Внимание, документ подозрительный: в документе присутствует сгенерированный текст

Качество контента, генерируемого искусственным интеллектом (AI, ИИ), достигло беспрецедентного уровня, генеративные тексты почти на всех сайтах, вторая проблема заключена в том, что студенты постоянно экспортируют такой текст в свои работы, потом получают статус антиплагиата: «Внимание, документ подозрительный: в документе присутствует сгенерированный текст». «Высокотехнологичные инструменты», используемые для идентификации генеративных текстов, часто дают сбои, ошибочно выдавая написанный человеком текст за творение сложной вычислительной нейросетевой системы. Если быть точней, то программы детекторы не ошибаются в 20-50% случаев. А если быть еще точней и говорить например о Антиплагиат ВУЗ, то не умеет этого делать на все 100%.

Для того чтобы понять происхождение того или иного текста и определить, является ли он генеративным, то есть созданным машиной, искусственным интеллектом, необходимо глубоко погрузиться в тонкости распознавания генеративных текстов. Человек, наделенный уникальными когнитивными способностями, объединяет, казалось бы, не связанные между собой понятия в осмысленные и связные предложения. Они не ограничивают себя какими-либо общепринятыми рамками (шаблоном), в результате чего длина предложений, написанных человеком, варьируется.

В отличие от них, не имеющий развитой когнитивности механизм ИИ основан на систематической организации и последовательности, что исключает возможность случайности. Любой контент, созданный ИИ, несомненно, будет отличаться определенной структурой, случайными повторениями определенных шаблонов или выбором лексики, что может создать впечатление занудности, механической или автоматизированной речи, которая ничем не отличается от речи рудиментарного робота.

В связи с этими существенными различиями были разработаны современные программы, позволяющие отделять контент, созданный человеком, от контента, созданного искусственным интеллектом, путем детального изучения различных параметров, объединенных в четыре фундаментальные составляющие.

Во-первых, это классификаторы - усовершенствованные алгоритмы, которые относят текст к тому или иному классу на основе таких нюансов, как использование языка, грамматика, стиль повествования и общая тональность. Например, текст с монотонной и однообразной тональностью, большим количеством грамматических ошибок, частым повторением фраз и слов может быть отнесен к классу сгенерированных искусственным интеллектом, а не написанных человеком. По нашему мнению данный признак утрачивает актуальность, т.к. GPT пишет достаточно грамотные тексты.

Второй принцип, который используют сложные программы для анализа происхождения текста, - это встраивание. Утрированно под встраиваниями понимаются числовые характеристики слов и их взаимосвязей, представленные в виде уникальных кодов в многомерном векторном пространстве. Эти коды служат машинным языком, который помогает компьютерным системам понять взаимосвязь между различными словами и контекстом их употребления. Модель машинного обучения постоянно тренируется на выявление закономерностей, характерных только для текстов, созданных ИИ.

Третий параметр - перплексия, текстовая характеристика, измеряющая сложность или запутанность фрагмента текста. Интересно, что человеческие тексты часто демонстрируют высокую степень перплексии, что в значительной степени отсутствует в шаблонном контенте, генерируемом ИИ.

Рассмотрим предложение: "Вчера я посмотрел фильм "Чижик", и это ... фильм". Если такие слова, как "захватывающий", "незабываемый", "захватывающий дух", "необычный" или "удивительный", легко всплывают в вашем сознании, то, вероятнее всего, машина выбрала бы аналогичный вариант. В отличие от этого, человек может выбрать более разговорную или субъективную фразу, отражающую его личные чувства или ожидания, например, "несет совершенно хаотичный опыт" или "совершенно не соответствует моим ожиданиям". Учитывая, что модель ИИ лишена личных предубеждений и ожиданий, она также не способна на громкие субъективные заявления.

Если языковая модель ИИ генерирует контент, который, как представляется, лишен фундаментальной проверки фактов или контроля качества, то это, скорее всего, процесс, который метафорически можно назвать галлюцинацией. В таких случаях результат часто не подкрепляется фактическими данными или строгими рекомендациями, что свидетельствует об основных внутренних ограничениях модели.

Предложения, созданные алгоритмами искусственного интеллекта, зеркально повторяют друг друга по длине и структуре, что свидетельствует об алгоритмической регулярности и линейности, а следовательно, о низкой спонтанности.

Текстовый контент, рожденный человеческим воображением, демонстрирует сочетание форм предложений - как сокращенных, так и удлиненных, человек стремится разрушить привычные шаблоны и одновременно тщательно следит за тем, чтобы повествование не превратилось в монотонную речь. Таким образом, можно утверждать, что такой контент имеет высокую степень спонтанности.

Детекторы искусственного интеллекта, опираясь на эти четыре принципа, обнаруживают контент, созданный машиной. Однако их суждения не являются безошибочными. Эти инструменты, к сожалению, пока не гарантируют 100%-ной точности анализа, но предлагают оценку, основанную на расчете вероятностей. Если говорить более подробно, то оценка 70% означает, что программа-детектор ИИ на 70% уверена в том, что контент является результатом работы алгоритма искусственного интеллекта, и на 30% - в том, что это работа человека. В таких оценках сохраняется вероятность ошибки, поскольку они опираются на доверительные интервалы и вероятностные расчеты.

Что заставляет эти проверочные программы неверно интерпретировать контент, созданный ИИ. Оказывается, основной причиной является сверхскоростной темп развития генеративного искусственного интеллекта. Языковые модели, такие как ChatGPT 4, совершенствуют искусство имитации человекоподобного текста, оптимизируя использование основных параметров - классификаторов, вкраплений, удивления и спонтанности - полученных в результате всестороннего анализа бесчисленных фрагментов человеческих текстов.

ИИ-детекторы, как и их аналоги-генераторы, требуют всестороннего обучения на большом объеме данных для повышения квалификации в области классификации контента. Нехватка таких обучающих данных приводит к системным ошибкам при анализе конкретных случаев использования, что влечет за собой возможность принятия необъективных решений. Поскольку все учебные данные поступают от людей, они несут в себе скрытый потенциал человеческих предубеждений, часто неосознанных.

Еще одним элементом этого уравнения является разработка специалистами по ИИ и контент-писателями новых стратегий создания контента, что еще больше усугубляет проблему. Они постоянно изобретают новые тактики, позволяющие избежать обнаружения текста программами распознавания ИИ, и тем самым дают подсказки, которыми руководствуются языковые модели вроде ChatGPT при создании текста, который лучше ускользает от проницательного глаза детекторов. Ярким примером этого является создание специализированного плагина, призванного сделать исходный текст ChatGPT более убедительным, имитирующим человеческий стиль.

Как же уменьшить влияние GPT артефактов:

- удалять повторяющиеся слова и фразы, часто связанные с целевыми ключевыми словами, которые придают структуре текста ощущение монотонной однородности.

- изменить общую тональность, прервать шаблонный сценарий, в тексте.

- дополнить фактами содержание, которое имеет поверхностный, общий вид, лишенный практических знаний и опыта.

- исправить логические несоответствия и ошибки, делающие текст ИИ неудобным и сложным для восприятия.

Эволюция генеративного ИИ - это непрерывный процесс, и программы проверки стремятся не отставать от него. Вопрос о победителе в этой гонке остается открытым, но, по нашему мнению, генерация текста более востребована в коммерческом плане, а детектирование интересует очень узкий круг, поэтому генеративные технологии всегда будут опережать детекторы, что показывает Антиплагиат ВУЗ, который не умеет определять генеративные тексты, от слова - ВООБЩЕ.