Група изследователи от Станфорд разгледаха еволюцията на чатботовете на OpenAI и заключиха, че ChatGPT наистина е станал „по-глупав“ през последните няколко месеца, според резултатите от теста. Това научно изследване беше отговор на оплаквания от много потребители на официалния форум на OpenAI, които се оплакаха от лоши отговори от езиковия модел ChatGPT-4 и чат бота Bing на Microsoft, работещ върху него.
За да определят дали ChatGPT се подобрява или влошава с течение на времето, изследователите са използвали следните методи за оценка на неговите възможности:
- решаване на математически задачи;
- отговори на чувствителни/опасни въпроси;
- генериране на код;
- визуално мислене.
Изследователите подчертават, че задачите, изброени по-горе, са внимателно подбрани, за да се анализират „разнообразните и полезни възможности на тези LLMs“ (големи езикови модели). Но по-късно те установиха, че тяхното представяне и поведение е напълно различно и не за по-добро.
Например, GPT-4 във версията от март определи простите числа много добре (97,6% точност), но вече с актуализацията през юни GPT-4 отговори на същите въпроси много слабо (2,4% точност). Интересното е, че старият GPT-3.5 (версия от юни 2022 г.) се оказа много по-добър в тази задача от GPT-3.5 (версия от март 2023 г.). Оказва се, че разработчиците са се опитвали да подобрят своя чатбот, но сега става все по-зле с всяка актуализация.
Като такава причина изследователите подозират, че OpenAI се опитва да спести от разходите за работа на ChatGPT, тъй като поддръжката му е твърде скъпа (според някои доклади, до $700 хиляди на ден). Затова те настройват невронната мрежа така, че да дава отговори със същото качество, но с по-малко ресурси. Проучванията обаче показват, че спестяванията отиват настрани за компанията - качеството на отговорите пада. Така че, според учените, ChatGPT не е станал по-глупав, той просто е станал "по-евтин".
Изследователите от Станфорд казват, че тези резултати от теста показват колко много се е променило поведението на GPT-3.5 и GPT-4 за относително кратък период от време. Това подчертава необходимостта от текуща оценка на поведението на LLM в производствените приложения. Учените планират да продължат да актуализират резултатите чрез редовно оценяване на GPT-3.5, GPT-4 и други LLM и проследяване на тяхното развитие.