Модель O3 від OpenAI зробила значний прорив у тесті ARC-AGI, демонструючи вражаючі результати, які підкреслюють якісні зміни в адаптивності ШІ, але все ще залишають його далеким від AGI.
ARC-AGI є одним із найскладніших тестів для штучного інтелекту, що перевіряє його здатність узагальнювати та адаптуватися до нових завдань. Завдання тесту не можна вирішити через стандартне тренування на великих масивах даних, оскільки вони вимагають розуміння об’єктів, меж та просторових взаємозв’язків. Попередні моделі, такі як GPT-4o, досягали лише 5%, тоді як O1 зупинилася на 32%. Результат O3 у 75,7% у стандартному режимі та 87,5% у високопродуктивному став важливим проривом.
Успіх O3 досягається завдяки використанню синтезу програм, що дозволяє моделі розробляти та комбінувати окремі компоненти для пошуку рішень. Важливу роль також відіграють міркування по ланцюжку (CoT) та моделі винагороди, які оптимізують процес генерації відповідей. Однак навіть цей прорив пов’язаний із значними витратами: розв’язання одного завдання у стандартному режимі обходиться в $17-20, а у високопродуктивному режимі витрати зростають у 172 рази.
Попри вражаючі результати, модель усе ще має серйозні обмеження. Вона покладається на зовнішні верифікатори і не може вирішувати прості завдання, які інтуїтивно зрозумілі для людей. Розробники ARC-AGI вже працюють над новими тестами, які, за їхніми прогнозами, значно знизять ефективність O3. Це підкреслює, що, попри прогрес, створення AGI залишається далекою перспективою.