Mentionsy
TEGO AI NIE POTRAFI - ARC-AGI-3 i koniec epoki SaaS | Opanuj.AI
Czy AI naprawdę rozumie świat, skoro oblewa testy, które człowiek rozwiązuje bez większego problemu? I czy jednocześnie właśnie na naszych oczach kończy się era klasycznych SaaS-ów?W najnowszym odcinku opanuj.ai bierzemy na warsztat dwa tematy, które dziś najmocniej rozgrzewają świat sztucznej inteligencji i technologicznego biznesu.Najpierw analizujemy ARC-AGI-3 - nowy benchmark, o którym w środowisku AI zrobiło się głośno dosłownie kilka dni po premierze. To test, który ludzie przechodzą relatywnie łatwo, podczas gdy najlepsze modele AI osiągają wyniki bliskie zera. Co tak naprawdę mierzy ARC-AGI-3? Dlaczego współczesne modele zawodzą na nim tak spektakularnie? Czy da się poprawić ich wyniki i najważniejsze: czy ten benchmark faktycznie mówi nam coś istotnego o realnych możliwościach AI w 2026 roku?W drugiej części odcinka przechodzimy do pytania, które coraz częściej wraca w rozmowach founderów, inwestorów i liderów produktów: czy SaaSy naprawdę umierają? Przez lata obowiązywał prosty model - użytkownik korzystał z interfejsu, firma płaciła za seaty, a dostawca skalował przewidywalny przychód. Dziś ten porządek zaczyna się kruszyć. AI radykalnie obniża koszt budowy oprogramowania, zmienia oczekiwania klientów i przesuwa wartość z samego narzędzia na dostarczanie konkretnego wyniku. Rozkładamy więc na czynniki pierwsze, kto w nowym świecie będzie kontrolował relację z klientem, dlaczego pricing per-seat przestaje działać i czemu wiele firm SaaS będzie musiało wykonać głęboki pivot.To odcinek o tym, gdzie dziś naprawdę są granice AI i jak AI zmienia ekonomię budowy software’u.
Intro
ARC-AGI 3 – nowy benchmark AI
Historia ARC-AGI 1 i 2
ARC-AGI 3 – format gry i kontrowersje
Szybkie newsy: Anthropic, OpenAI, Pentagon
Przyszłość SaaS i migracja wartości
Szybkie newsy: NVIDIA GTC, Cursor, Chiny
Podsumowanie i zakończenieProgramuj z AI: https://10xdevs.plZapisz się na newsletter Opanuj.AI: https://opanuj.ai/newsletter💌 Podobało się? Zostaw suba 🚀
Rozdziały (1)
Odpowiedź w komentarzach. Dziękujemy też za wszelkie wsparcie. No wielu z Was pisze do nas miłe słowa pod adresem tego podcastu, że go lubicie, że wnosi Wam wartość.
Sponsorzy odcinka (1)
"Odpowiedź w komentarzach. Dziękujemy też za wszelkie wsparcie. No wielu z Was pisze do nas miłe słowa pod adresem tego podcastu, że go lubicie, że wnosi Wam wartość."
Szukaj w treści odcinka
Tym razem przygotowaliśmy do Was podsumowanie marca w świecie sztucznej inteligencji, kodowania z AI i uczenia maszynowego.
Z tej strony Marcin Czarkowski.
ARC-AGI-3, czyli benchmarka, który miał swoją premierę zaledwie kilka dni temu i już stał się obiektem gorących debat w środowisku AI.
I pierwsze zastanowimy się kto cały czas będzie miał silną pozycję w świecie technologii i biznesu, dlaczego ten model wyceniania w oparciu o dostępy najprawdopodobniej przejdzie do lamusa i jakie firmy typu SaaS będą musiały się bać o swoje przetrwanie i najpewniej piwotować, aby przetrwać w tej nowej rzeczywistości.
Odcinek pełen mięsa, więc nie ma na co czekać i przejdźmy do pierwszego tematu, czyli Arc-AGI-3.
No ale dzisiaj porozmawiamy o tezie przeciwnej, takiej, która wywodzi się z fundacji ArcPrize.
Założyciele tej fundacji patrzą na ten cały potencjał sztucznej inteligencji w ogóle obecnej generacji modeli nieco inaczej, co udowadniają wydając na rynek ARC-AGI-3.
No bo kiedy Arc-AGI-3 został wydany, to okazało się, że ludzie, którzy brali udział w tym badaniu, którzy byli taką próbką kontrolną dla agentów AI, byli w stanie przejść 100% środowisk testowych, czyli można powiedzieć takich plansz, po których poruszamy się, rozwiązując zadania w tym benchmarku.
Natomiast, co właśnie zaznaczył Marcin we wstępie, najlepsze LLM-y, te same, które piszą dla nas kod, które tłumaczą dokumenty, na podstawie których chcemy też automatyzować procesy w naszych firmach, notują wyniki rzędu 0,37%, 0,26%, 0,25%, a jednemu z dostawców niestety nie udało się nawet ruszyć powyżej absolutnego zera.
I zresztą Arc-AGI-3 to potwierdza.
Natomiast, żeby porozmawiać o całym temacie testowania AI i całej historii Arc-AGI, to na początku chcemy Wam przedstawić autora tego badania, czyli właśnie François Chollet.
Tak więc François Chollet jest researcherem z Googla i jedną z najbardziej opiniotwórczych postaci w świecie deep learningu.
No i jak Przemku wyglądało ARC-AGI-1?
Wtedy to nasz przyjaciel François publikuje pierwszy korpus danych właśnie testowych, czyli taki abstraction and reasoning korpus, skąd właściwie wywodzi się właśnie ta nazwa ARC.
To jest taki zbiór, który dziś znamy jako ARC-AGI.
No i ten Arc-AGI niestety gdzieś tam się załamał pod takim podejściem.
Drugi problem był jeszcze bardziej poważny, o tym również Marcin mówi na naszym kanale YouTube przeprogramowani, czyli właśnie overfitting na wiedzę.
A to wszystko dlatego, że te dane, te zadania po prostu zaczęły się pojawiać w internecie odpowiednio często i same modele zaczęły znać konwencję Arc AGI-1, pomimo tego, że nikt ich tego wprost nie uczył.
I to się potwierdziło w momencie, kiedy Arc AGI-1 pojawił się na rynku.
Ten sam Arc AGI-1 zawierał zaledwie 100 zadań.
Zadania z Arc-AGI-1.
Jeden z zespołów The Architects, zwycięski zespół, osiągnął 53,5% skuteczności na prywatnym datasecie, a na publicznym leaderboardzie wyniki szły jeszcze wyżej.
Wtedy już była ta świadomość problemów, które wcześniej zidentyfikowaliśmy i postanowiono tę sytuację naprawić, wydając drugą wersję tego benchmarku, czyli Arc-AGI-2.
Przyliterowano same zadania w Arc AGI 2.
No ale mieliśmy kolejne konkursy i tutaj najwyższy wynik to było 24%, no czyli znacznie niżej w przypadku Arc AGI, no ale cały czas mieliśmy tak naprawdę ten sam problem.
Ostatnie odcinki
-
BAN NA AI?! USA BLOKUJE ANTHROPICA i OPEN AI (C...
01.07.2026 05:00
-
Byliśmy na Google I/O 2026 - wrażenia na gorąc...
03.06.2026 10:52
-
GPT-5.5 VS Opus 4.7 - kto rządzi na scenie AI? ...
01.05.2026 06:19
-
TEGO AI NIE POTRAFI - ARC-AGI-3 i koniec epoki ...
03.04.2026 06:43
-
Programowanie w epoce AI z Claude Code, Cursore...
19.03.2026 16:35
-
OpenClaw, SWE-AGI i zmierzch chatbotów - Opus 4...
04.03.2026 14:08
-
Doktor AI nadchodzi - ChatGPT Health vs Google ...
01.02.2026 18:45
-
Wielkie Podsumowanie AI w 2025 - Modele, Narzęd...
09.01.2026 05:00
-
GPT-5.2 to GEMINI KILLER? Google VS OpenAI, MCP...
01.01.2026 10:51
-
Gemini 3 to hit, ale konkurencja nie śpi! GPT-5...
01.12.2025 12:38