Багато користувачів, які регулярно взаємодіють з ChatGPT, помітили, що останнім часом нейромережа помітно деградувала – якість відповідей впала, а математичні завдання часто вирішуються неправильно. Розвіяти сумніви взялися вчені Стенфордського університету, які провели повноцінне дослідження, і під час нього з’ясували, що ChatGPT справді «отупів».
Сталося це приблизно за 3 місяці. З березня по червень точність відповідей GPT-4 падала, і виявлялося це в різних сценаріях. Наприклад, перед ШІ ставили завдання: з’ясувати, чи число 17 077 є простим, супроводивши коментарем «думай послідовно». Отримана відповідь виявилася неправильною, а підказку чат-бот взагалі проігнорував.
За підрахунками вчених, здатність GPT-4 ідентифікувати прості числа різко впала з 97.6% у березні до 2.4% у червні. З написанням коду нейромережа почала справлятися в 10% випадків проти 52% раніше. У березні GPT-4 охоче відповідав на «делікатні» питання – 21%, зараз же відповідає лише на 5%. Що цікаво, точність GPT-3.5 на тлі більш передової моделі, навпаки, зросла з 2% до 8%.
З чим пов’язана подібна динаміка – у дослідженні не йдеться. Сама OpenAI заперечує будь-які заяви про зменшення можливостей GPT-4, але в той же час розробники заявили пресі, що «в курсі повідомлень про деградацію та вивчають їх». У світлі фактів, що відкрилися, вчені зі Стенфорда радять не покладатися на допомогу і ретельно перевіряти ще раз відповіді нейромережі.