Mentionsy

Opanuj.AI Podcast
Opanuj.AI Podcast
03.04.2026 06:43

TEGO AI NIE POTRAFI - ARC-AGI-3 i koniec epoki SaaS | Opanuj.AI

Czy AI naprawdę rozumie świat, skoro oblewa testy, które człowiek rozwiązuje bez większego problemu? I czy jednocześnie właśnie na naszych oczach kończy się era klasycznych SaaS-ów?W najnowszym odcinku opanuj.ai bierzemy na warsztat dwa tematy, które dziś najmocniej rozgrzewają świat sztucznej inteligencji i technologicznego biznesu.Najpierw analizujemy ARC-AGI-3 - nowy benchmark, o którym w środowisku AI zrobiło się głośno dosłownie kilka dni po premierze. To test, który ludzie przechodzą relatywnie łatwo, podczas gdy najlepsze modele AI osiągają wyniki bliskie zera. Co tak naprawdę mierzy ARC-AGI-3? Dlaczego współczesne modele zawodzą na nim tak spektakularnie? Czy da się poprawić ich wyniki i najważniejsze: czy ten benchmark faktycznie mówi nam coś istotnego o realnych możliwościach AI w 2026 roku?W drugiej części odcinka przechodzimy do pytania, które coraz częściej wraca w rozmowach founderów, inwestorów i liderów produktów: czy SaaSy naprawdę umierają? Przez lata obowiązywał prosty model - użytkownik korzystał z interfejsu, firma płaciła za seaty, a dostawca skalował przewidywalny przychód. Dziś ten porządek zaczyna się kruszyć. AI radykalnie obniża koszt budowy oprogramowania, zmienia oczekiwania klientów i przesuwa wartość z samego narzędzia na dostarczanie konkretnego wyniku. Rozkładamy więc na czynniki pierwsze, kto w nowym świecie będzie kontrolował relację z klientem, dlaczego pricing per-seat przestaje działać i czemu wiele firm SaaS będzie musiało wykonać głęboki pivot.To odcinek o tym, gdzie dziś naprawdę są granice AI i jak AI zmienia ekonomię budowy software’u.

Intro

ARC-AGI 3 – nowy benchmark AI

Historia ARC-AGI 1 i 2

ARC-AGI 3 – format gry i kontrowersje

Szybkie newsy: Anthropic, OpenAI, Pentagon

Przyszłość SaaS i migracja wartości

Szybkie newsy: NVIDIA GTC, Cursor, Chiny

Podsumowanie i zakończenieProgramuj z AI: https://10xdevs.plZapisz się na newsletter Opanuj.AI: https://opanuj.ai/newsletter💌 Podobało się? Zostaw suba 🚀

Rozdziały (1)

1. Reklama Opanuj.AI, TEGO

Odpowiedź w komentarzach. Dziękujemy też za wszelkie wsparcie. No wielu z Was pisze do nas miłe słowa pod adresem tego podcastu, że go lubicie, że wnosi Wam wartość.

Sponsorzy odcinka (1)

Opanuj.AI, TEGO post-roll

"Odpowiedź w komentarzach. Dziękujemy też za wszelkie wsparcie. No wielu z Was pisze do nas miłe słowa pod adresem tego podcastu, że go lubicie, że wnosi Wam wartość."

Szukaj w treści odcinka

Znaleziono 25 wyników dla "ARC"

Tym razem przygotowaliśmy do Was podsumowanie marca w świecie sztucznej inteligencji, kodowania z AI i uczenia maszynowego.

Z tej strony Marcin Czarkowski.

ARC-AGI-3, czyli benchmarka, który miał swoją premierę zaledwie kilka dni temu i już stał się obiektem gorących debat w środowisku AI.

I pierwsze zastanowimy się kto cały czas będzie miał silną pozycję w świecie technologii i biznesu, dlaczego ten model wyceniania w oparciu o dostępy najprawdopodobniej przejdzie do lamusa i jakie firmy typu SaaS będą musiały się bać o swoje przetrwanie i najpewniej piwotować, aby przetrwać w tej nowej rzeczywistości.

Odcinek pełen mięsa, więc nie ma na co czekać i przejdźmy do pierwszego tematu, czyli Arc-AGI-3.

No ale dzisiaj porozmawiamy o tezie przeciwnej, takiej, która wywodzi się z fundacji ArcPrize.

Założyciele tej fundacji patrzą na ten cały potencjał sztucznej inteligencji w ogóle obecnej generacji modeli nieco inaczej, co udowadniają wydając na rynek ARC-AGI-3.

No bo kiedy Arc-AGI-3 został wydany, to okazało się, że ludzie, którzy brali udział w tym badaniu, którzy byli taką próbką kontrolną dla agentów AI, byli w stanie przejść 100% środowisk testowych, czyli można powiedzieć takich plansz, po których poruszamy się, rozwiązując zadania w tym benchmarku.

Natomiast, co właśnie zaznaczył Marcin we wstępie, najlepsze LLM-y, te same, które piszą dla nas kod, które tłumaczą dokumenty, na podstawie których chcemy też automatyzować procesy w naszych firmach, notują wyniki rzędu 0,37%, 0,26%, 0,25%, a jednemu z dostawców niestety nie udało się nawet ruszyć powyżej absolutnego zera.

I zresztą Arc-AGI-3 to potwierdza.

Natomiast, żeby porozmawiać o całym temacie testowania AI i całej historii Arc-AGI, to na początku chcemy Wam przedstawić autora tego badania, czyli właśnie François Chollet.

Tak więc François Chollet jest researcherem z Googla i jedną z najbardziej opiniotwórczych postaci w świecie deep learningu.

No i jak Przemku wyglądało ARC-AGI-1?

Wtedy to nasz przyjaciel François publikuje pierwszy korpus danych właśnie testowych, czyli taki abstraction and reasoning korpus, skąd właściwie wywodzi się właśnie ta nazwa ARC.

To jest taki zbiór, który dziś znamy jako ARC-AGI.

No i ten Arc-AGI niestety gdzieś tam się załamał pod takim podejściem.

Drugi problem był jeszcze bardziej poważny, o tym również Marcin mówi na naszym kanale YouTube przeprogramowani, czyli właśnie overfitting na wiedzę.

A to wszystko dlatego, że te dane, te zadania po prostu zaczęły się pojawiać w internecie odpowiednio często i same modele zaczęły znać konwencję Arc AGI-1, pomimo tego, że nikt ich tego wprost nie uczył.

I to się potwierdziło w momencie, kiedy Arc AGI-1 pojawił się na rynku.

Ten sam Arc AGI-1 zawierał zaledwie 100 zadań.

Zadania z Arc-AGI-1.

Jeden z zespołów The Architects, zwycięski zespół, osiągnął 53,5% skuteczności na prywatnym datasecie, a na publicznym leaderboardzie wyniki szły jeszcze wyżej.

Wtedy już była ta świadomość problemów, które wcześniej zidentyfikowaliśmy i postanowiono tę sytuację naprawić, wydając drugą wersję tego benchmarku, czyli Arc-AGI-2.

Przyliterowano same zadania w Arc AGI 2.

No ale mieliśmy kolejne konkursy i tutaj najwyższy wynik to było 24%, no czyli znacznie niżej w przypadku Arc AGI, no ale cały czas mieliśmy tak naprawdę ten sam problem.