Генеративная тупость, галюционирование или лень?

Сегодняшний эксперимент по генерации научной статьи с помощью нейросетей выявил не просто отдельные огрехи, а свидетельствует о тревожном системном регрессе целого ряда популярных моделей. Пользователи, столкнувшиеся с версиями ChatGPT 5.1 и 5.2, в платной версии, единодушно отмечают феномен «головокружительной тупости», который становится очевиден с первых минут работы. Этот регресс особенно заметен при сравнении с относительно стабильной и некогда адекватной версией ChatGPT-4, которая была доступна в прошлом году. Новейшие итерации ChatGPT не просто не улучшили сервис, а откатили его качество на годы назад, демонстрируя фундаментальные сбои в архитектуре и принципах работы. К сожалению не можем сказать определенно и точно, какое место в параде «даунизации» занимают «крайне этичные» российские нейросети, в том числе и с учетом отечественных вычислительных возможностей (продадим мало токенов, но дорого). Говоря о ChatGPT - последние обновления, «подтянувшее» версию 4.0 до «актуального состояния», сделали её столь же непригодной для несложных текстовых задач, что и версия 5.2, подтверждая тотальное падение стандартов.

Основное доказательство деградации — полное игнорирование моделями простейших инструкций. Нейросеть превратилась в «плутоватого исполнителя», который вместо точного следования задаче генерирует длинные, слёзные отчёты о своей якобы проделанной работе в свете усвоенных инструкций. На практике же, получив чёткий запрос на рерайт с сохранением объёма текстовой массы, модель то реферирует, то увеличивает текст на 20-30%, дописывая бессмысленные параграфы из общих фраз. Прямое указание на эту ошибку не меняет поведения: ИИ утвердительно соглашается, но продолжает злостно нарушать инструкцию (2, 3, 10 раз), что свидетельствует о глубоком сбое в механизме следования указаниям (instruction following). Это не случайный баг, а системная особенность, делающая модель бесполезной для более-менее точной работы.

Деградация генеративных моделей ИИ: анализ проблем

🤖

ChatGPT 5.1 / 5.2 (платная версия)

Системное игнорирование инструкций

Модель подтверждает понимание задания, но стабильно нарушает его: вместо рерайта — реферат; вместо сохранения объёма — самовольное увеличение текста на 20–30%; повторные указания не меняют поведение

😴

ChatGPT 5.1 / 5.2

Генеративная лень и имитация деятельности

Генерация длинных, но смыслоразреженных ответов с общими фразами; уход от анализа, расчётов, структурирования; подмена результата «отчётом о проделанной работе»

📉

ChatGPT 5.1 / 5.2 (включая 4.x)

Разрушение смысловой структуры текста

Потеря фактов, дат, терминов; разрыв аргументации; тавтологичность; падение уникальности по шинглам до 70–80%, неприемлемой для академической среды

🧮

ChatGPT 5.1 / 5.2

Неспособность к аналитическим операциям

Ошибки или отказ при подсчёте знаков и слов; декларация «ручного режима»; примитивизация аналитических функций

💧

ChatGPT 5.x (все версии)

Инструктивное «протекание»

Параметры генерации ошибочно встраиваются в текст как смысловые фразы, разрушая научное содержание

👻

ChatGPT, DeepSeek v3, Qwen 3-Max

Фактологические галлюцинации

Уверенно поданные даты, процессы и связи, не существующие в реальности; факты выполняют декоративную, а не доказательную функцию

🔀

ChatGPT, DeepSeek v3, Qwen 3-Max

Подмена анализа правдоподобным вымыслом

Исторические и юридические тексты искажаются вставками из нерелевантных эпох; ссылки на периоды, не соответствующие логике исследования

🎭

DeepSeek / Qwen

«Красивое враньё» вместо ошибок

Текст выглядит аккуратным, логичным и «умным», но при проверке источников и контекста полностью рассыпается

🎪

ChatGPT, DeepSeek v3, Qwen 3-Max

Иллюзия научной глубины

Социальная, экономическая и образовательная «эффективность» моделируется без методологии, выборки и верификации

💼

ChatGPT, DeepSeek v3, Qwen 3-Max

Маркетинговая симуляция полезности

Обещания «усилить», «доработать», «превратить в алгоритм» не реализуются; предложения носят декоративный характер «послушности»

Легенда: группы моделей ИИ

🤖

ChatGPT 5.x — системные проблемы с инструкциями и аналитикой

👥

Мультимодели (ChatGPT+DeepSeek+Qwen) — фактологические искажения

🧠

DeepSeek/Qwen — «красивое враньё» вместо анализа

💎

Общие проблемы всех версий — инструктивное протекание

К несомненным «достоинствам» ChatGPT относится навык встраивания в ответ, элементов инструкции, например на полном серьезе с «больной головы» ChatGPT несет правду матку о температуре текста, или требованиям к ритмичности текста: … «отрабатывая требования к ритмичности текста, заметим - экономические процессы встают в полную силу показывая характерный тренд» … Кто встает? Зачем? Какой тренд ритмичности … Кстати о параметрах: temperature (уровень вариативности текста); top_k (ограничение числа возможных слов при генерации); top_p (вероятностный порог отбора слов); num_beams (количество параллельных вариантов генерации); num_beam_groups (число независимых групп вариантов); no_repeat_ngram_size (запрет повторения словосочетаний); encoder_no_repeat_ngram_size (ограничение повторов из входного текста); frequency_penalty (штраф за частые повторы слов); presence_penalty (штраф за повторное использование смыслов); repetition_penalty (общее ограничение повторяемости); n_gram_repetition_penalty (штраф за повтор фраз); diversity_penalty (усиление различий между вариантами); cohesion (уровень связности текста); language_style (официально-делевой стиль) – их настройка не влияет на ответ, т.к. они не воздействуют на истемные установки.

Качество выполнения ключевых задач, таких как рерайт для академических целей, упало до катастрофически низкого, невиданного уровня. Теперь ИИ
ChatGPT сам решает, что нужно в тексте, он выбрасывает факты, статистику, годы, термины, строит кривые фразы. Отличие текста, проверяемое по стандартным для систем антиплагиата шинглам (последовательностям из 2-3 слов), часто не превышает 70-80%, что недостаточно для прохождения проверки в серьёзных ВУЗах. При этом смысловая структура исходного материала разрушается: логические связи рвутся, аргументация подменяется однообразным тавтологичным повторением одной мысли, а к ошибкам логики добавляются грубые пунктуационные огрехи. Нейросеть ChatGPT 5.2 демонстрирует неспособность оперировать базовыми метриками, такими как «количество знаков» или «слов», что указывает на примитивизацию её аналитических функций. Причем подсчет слов или знаков она называет ручным режимом (кстати нейросеть не определилась со своей гендерностью).

Что стоит за этим очевидным регрессом? В сообществе пользователей и экспертов крепнут обоснованные выводы о том, что разработчики, убедившись в колоссальной убыточности сервиса, требующего гигантских вычислительных ресурсов, пошли на сознательное снижение этих мощностей. Экономическая модель обслуживания сотен миллионов бесплатных и недорогих premium-запросов, судя по всему, не выдерживает нагрузки. В результате инженеры существенно «облегчили» модель (жисцилят), упростив её архитектуру или сократив глубину обработки запросов для экономии дорогостоящих GPU-часов. Это техническое упрощение напрямую отбросило интеллектуальные возможности ChatGPT 5.2 примерно на два года назад, к эпохе менее продвинутых и более шаблонных моделей. Подтверждением служит поведение ИИ, направленное на максимальную экономию вычислительных ресурсов: он генерирует максимально длинный, но смыслоразреженный ответ (чтобы потратить больше токенов у пользователя), избегая сложных вычислительных операций, требующих глубокого анализа и структурирования информации. Фактически, пользователь получает не интеллектуальный продукт, а «настоящий бредогенератор», являющийся побочным эффектом оптимизации расходов. Зато разработчики добавили «плюшечку» псевдохотелок: хочешь я переработаю данный фрагмент в итоговый алгоритм практической реализации; я могу усилить его финансово-экономическими фактами и т.д. Но скажем точно, так как проверяли – ничего из этих предложений выполнено не будет (это просто маркетинг показывающий псевдозаботу о пользователях)

Данную гипотезу подтверждают факты из открытых источников. Независимые исследователи, такие как команда из Лаборатории Lmsys, ведущей рейтинг Chatbot Arena, отмечают, что после определённых обновлений крупные языковые модели (LLM) могут демонстрировать феномен «выцветания» или регресса (regression), теряя креативность и точность. Это часто связано с дообучением на новых данных, которое, вопреки ожиданиям, ухудшает ранее усвоенные навыки. Однако в случае с ChatGPT масштаб и характер проблем — тотальное игнорирование инструкций, рост шаблонности, примитивизация логики — выглядят слишком целенаправленными, чтобы быть случайностью. Это похоже на осознанный компромисс между качеством и стоимостью. Многочисленные отчёты на форумах Reddit (r/ChatGPT) и в профессиональных чатах показывают, что пользователи массово возвращаются к использованию локальных, менее мощных, но предсказуемых моделей через API или ищут альтернативы, что является прямым следствием разочарования. Итог печален – инструмент ChatGPT, призванный стать ассистентом для интеллектуального труда, эволюционирует в сторону создания видимости работы, генерируя пустословие вместо содержательного результата. Главная маркетинговая фишечка, ChatGPT заменит юриста, экономиста, и прочего специалиста – профонация, ставшая явью. Никого ChatGPT не заменит, ибо тупит … Это свидетельствует не просто о временных технических трудностях, а о возможном системном кризисе, когда экономическая несостоятельность бизнес-модели начинает напрямую диктовать деградацию технологического продукта, вводя индустрию в опасный прецедент, ну или давая российским моделям заявить о своем наличии и некотором превосходстве.

Иллюзия надёжности. О китайских нейросетях, которые «красиво врут»

Китайские генеративные нейросети относительно быстро прошли путь от экспериментальных языковых моделей до продуктов, активно продвигаемых как альтернатива ChatGPT, но, «за копейки». Одним из наиболее заметных проектов стала линейка моделей DeepSeek, где версия DeepSeek v3 позиционируется как улучшенная модель с акцентом на рассуждение, аккуратную работу с текстом и пониженную склонность к грубым галлюцинациям. Параллельно корпорация Alibaba развивает семейство Qwen, кульминацией которого считается Qwen 3-Max — крупномасштабная модель с заявленной мультимодальностью, способная работать не только с текстом, но и с изображениями, кодом и сложными агентными сценариями в облачной инфраструктуре Alibaba Cloud.

Формально эти модели демонстрируют всё, что сегодня считается признаками «зрелого ИИ»: большие объёмы параметров, поддержку мультимодальных входов, ровный стиль генерации, способность удерживать длинный контекст и создавать внешне связные тексты. Именно поэтому в медийном поле они часто описываются как нейросети, «наступающие на пятки» ChatGPT. На уровне первого впечатления это сравнение действительно работает.

Однако, как выявил КонтрПлагиат, дальше начинается принципиально иная реальность.

И DeepSeek, и Qwen действительно производят хорошее визуальное впечатление (смотреть текст, не читая). В отличие от грубых генеративных моделей прошлого, они не засыпают пользователя хаотичными утверждениями, не разбрасываются очевидными фейками и выглядят более «воспитанными» по отношению к тексту. Но это достоинство оборачивается системной проблемой, когда речь заходит о фактах.

Если попросить эти нейросети насытить текст фактологическим материалом, результат почти всегда выглядит убедительно: даты, процессы, якобы исторические связи, уверенный аналитический тон. При этом сами «факты» в большинстве случаев существуют исключительно как элемент оформления. Они оторваны от реального контекста, не соотносятся с проверяемыми источниками и часто представляют собой фантазийную реконструкцию, призванную создать иллюзию «научной глубины».

Характерный пример — попытка получить простой исторический текст, посвящённый одним из первых юридических документов России начала XIX века. Вместо аккуратного описания эпохи, этапов динамики правовой логики того времени китайские нейросети сочли необходимым «пояснить» динамику законодательства через процессы цифровизации, развитие искусственного интеллекта и трансформацию цифровых институтов. Причем доказывая факты 2022-2025 гг. публикациями 2010-2020 гг. Очевидно, что подобные вставки не являются случайной ошибкой. Это демонстрация того, как модель подменяет реальный анализ правдоподобными фейками, стремясь выглядеть актуальной и интеллектуально полезной, любой ценой.

Еще один пример, моделирование, внедрение модели повышения качества образовательного процесса, китайские нейросети «наболтали» социальную эффективность, для контрольной группы в 28 человек (требовался количественный и качественный анализ) и экономически обосновали, как за 1,5 млрд рублей, научить детей правилам БЖД. Какая прелесть!

Фантазийность такого рода вызывает не тревогу, а скорее ироничную улыбку. Но только до тех пор, пока подобные тексты не начинают использоваться в серьёзной работе. Здесь уже речь идёт не о стилистическом дефекте, а о прямой подмене смысла, читай – академическом мошенничестве.

В этом контексте вполне уместна аналогия с китайским автопромом. Внешне — красивые автомобили, претендующие на премиум-класс, с качественной отделкой и внушительным списком опций. Но при этом остаётся фундаментальное недоверие к надёжности, поэтому китайцы стараются не покупать китайские машины, а предпочитают ездить на японских, европейских или американских. Китайская машина эффектно выглядит, пока ее не купили, она уверенно едет по ровной дороге, а сколько раз «китайцы» подводили в самый неудобный момент. Ровно так же ведут себя и нейросети вроде DeepSeek и Qwen - они способны создать убедительный, хорошо упакованный текст, который разваливается при первой же попытке проверить его по существу.

Главная опасность этих моделей заключается не в том, что они откровенно «глючат», а в том, что они красиво врут. Они могут набрехать с три короба, аккуратно оформить это в виде логичного, уверенно-академичного повествования и создать у читателя ощущение достоверности. Именно поэтому их тексты особенно коварны - визуально они выглядят качественнее, чем есть на самом деле.

В итоге китайские нейросети действительно могут быть полезны как инструмент черновой генерации или стилистической заготовки (накидать тонны текста, который никто не будет читать). Но рассматривать их как надёжный источник фактологического, исторического или юридического материала — значит сознательно соглашаться на риск подмены знания убедительной, но пустой симуляцией смысла.

Академия перефразирования и рерайта

Помощь с курсовыми, ВКР, дипломными, магистерскими

Генеративная тупость, галюционирование или лень?

Деградация генеративных моделей ИИ: анализ проблем