Недавнее исследование, проведенное группой специалистов из Стэнфордского университета и Калифорнийского университета в Беркли, поднимает важный вопрос о точности и надежности крупномасштабной языковой модели ChatGPT компании OpenAI. В ходе исследования было обнаружено, что качество ответов, генерируемых системой GPT, со временем снижается, что вызвало обеспокоенность исследователей.
Для проверки согласованности процедур ChatGPT, используемых в GPT-3.5 и GPT-4, исследовательская группа провела серию экспериментов. Они проанализировали склонность ИИ к "дрейфу" - изменению качества и точности ответов, а также его способность выполнять заданные команды. Исследователи просили ChatGPT-3.5 и GPT-4 решать математические задачи, отвечать на сложные и деликатные вопросы, генерировать компьютерный код по заданным инструкциям.
Результаты исследования показали, что поведение ChatGPT существенно изменилось с течением времени. Например, в марте 2023 года точность определения простых чисел в системе GPT-4 составляла примерно 98%. Однако к июню того же года точность GPT-4 при решении той же задачи снизилась до менее чем 3%. В то же время GPT-3.5, выпущенный 3 июня, показал улучшение в определении простых чисел по сравнению с предыдущей версией, выпущенной в 2023 году. Что касается генерации компьютерного кода, то в период с прошлого месяца по июнь обе версии системы снизили свою способность генерировать код.
Исследователи обеспокоены таким нестабильным поведением системы ChatGPT и указывают на необходимость постоянного мониторинга качества модели. Эти результаты подчеркивают сложность поддержания стабильной и надежной работы больших языковых моделей и необходимость дальнейших исследований для понимания причин ухудшения качества ответов системы GPT.
На форумах разработчиков OpenAI обсуждался ход работы над LLM и возможные изменения в функционале ChatGPT. Один из пользователей выразил свое разочарование, отметив, что ChatGPT, некогда полезный помощник, стал похож на посудомоечную машину.
Однако, несмотря на эти проблемы, специалисты OpenAI по разработке LLM не особо реагируют на критику. Такая стратегия вызывает озабоченность со стороны экспертов и пользователей, которые призывают к большей прозрачности и доступности информации о разработке и обучении ChatGPT.






