Mentionsy
Gemini 3 to hit, ale konkurencja nie śpi! GPT-5.1, Grok 4.1 i Opus 4.5, a także emocje w LLMach i nowy Projekt Manhattan w USA
Listopad 2025 przejdzie do historii jako jeden z najintensywniejszych miesięcy w rozwoju sztucznej inteligencji. W dzisiejszym odcinku analizujemy "listopadowe szaleństwo", podczas którego w niespełna dwa tygodnie zobaczyliśmy premiery aż 10 topowych modeli, w tym wyczekiwanego Gemini 3 Pro i GPT-5.1. Sprawdzamy, kto wygrywa w benchmarkach i dlaczego "Emotional Intelligence" (EQ) staje się nowym polem bitwy gigantów.
W drugiej części odcinka przyglądamy się Projektowi Genesis – inicjatywie administracji Trumpa, która ma być dla AI tym, czym Projekt Manhattan był dla energii atomowej. Na koniec głębokie zanurzenie w umysł Ilyi Sutskevera. Analizujemy jego rozmowę z Dwarkeshem Patelem, wizję Safe Superintelligence i dlaczego legenda deep learningu uważa, że proste dokładanie kart graficznych (skalowanie) przestaje wystarczać.
Szukaj w treści odcinka
Na Spotify mamy prawie 4000 słuchaczy, więc jeśli jesteś jednym z nich, to wielkie dzięki.
17 listopada od XAI mieliśmy Groka 4.1 i 4.1 Thinking, również 4.1 Fast.
I 24 listopada, 4 dni przed nagraniem tego odcinka, Cloud Opus 4.5, czyli raz jeszcze wejście na kolejny poziom rozwiązań dla programistów.
co wspólnego mają premiery GPT-51 oraz GroKa 4.1.
No i w trzeciej części tego omówienia woły robocze dla programistów, czyli Cloud Opus 4.5 i GPT-51 Codex Max, więc takie oto trzy podgrupy.
Zależy jak tutaj czytać Cloud Opusa, tak naprawdę mamy tylko jeden lepszy model w kontekście web developmentu od Gemini 3 Pro, czyli Cloud Opus w dwóch wariantach, klasycznym oraz w tej wersji Thinking z tym rozszerzonym.
AI, mamy Gemini 3 w wielu edytorach dla programistów, mamy Gemini 3 na Google Vertexie, w Google AI Studio, na Google Cloud Platform, wszędzie tam, gdzie konsumenci, zarówno ci B2C, B2B korzystają z rozwiązań Google'a, to Gemini 3 miało być już tutaj dostępne.
Mamy tutaj 37,5% skuteczności Gemini 3 Pro i aż 41% w trybie DeepThink.
W benchmarku matematycznym MathArena Apex mamy nowy standard z wynikiem 23,4%.
Ale teraz się dowiadujemy, mamy Google Anti-Gravity, fork Visual Studio Code, który ma być odpowiedzią na takie rozwiązania jak właśnie Windsurf wcześniej, czy Cursor dzisiaj, czy chociażby rywalizować z Cloud Code poprzez wbudowany, bardziej złożony tryb agentowy, gdzie niekoniecznie skupiamy się już na tym, żeby każdy znaczek w naszym pliku, czy w naszym module, w jakimś systemie, w jakiejś aplikacji edytować,
Mamy tutaj 76,2% skuteczności, a w Terminal Bench 2.0 mamy 54,2%, co świadczy o tym, że po prostu właśnie czy ta obsługa narzędzi, czy to interpretowanie bardziej złożonych problemów, jakiś pool requestów, z którymi moda się zapoznaje, wchodzi na kolejny level i coraz mocniej odczuwamy to, że właśnie do zespołów programistycznych dołącza taki wirtualny stażysta, który pomimo tego, że nadal się myli, to może zyskiwać coraz więcej autonomii.
Widzieliśmy już w przypadku rozwiązań konkurencyjnych, jego cut-off date to jest styczeń 2025 roku i zapłacimy za ten model albo 2,12 dolarów za 1 milion tokenów, jeśli jesteśmy poniżej 200 tysięcy tokenów, albo 4,18 dolarów za milion tokenów odpowiednio wejściowych i wyjściowych, jeśli jesteśmy powyżej tej granicy.
Mianowicie chciałbym teraz przedstawić GPT-5.1 oraz Groka 4.1.
GPT-51 to jest oczywiście rozszerzenie GPT-5, GROK-41 to jest rozszerzenie GROK-4.
Firma XAI, która zaprezentowała Groka 4.1, bardzo mocno akcentuje rozwój kompetencji społecznych modelu.
właśnie proszenie o to, żeby zwracać uwagę na konkretne aspekty rozmów, żeby coś robić, czegoś nie robić, właśnie w tym kontekście GPT-51 i GROK-41 mają być znacznie, znacznie lepsze.
Jest to kontekstowe, dotyczy to faktycznie utraty kota, natomiast ludzie prawdopodobnie w ten sposób nie zareagują, więc grog 4.1 ma się komunikować w nieco inny sposób i kiedy tutaj wyślemy mu właśnie taką wiadomość, że tęsknie za moim kotem tak bardzo, że aż mnie to boli, to grog 4.1 ma powiedzieć bardzo mi przykro, ten ból jest naprawdę trudny do zniesienia, utrata kota to jest często utrata członka rodziny.
Więc w obu przypadkach, w przypadku obu firm, w przypadku Groke 4.1 i GPT-5.1 Instant.
Drugim modelem jest Cloud37 Sonnet.
Ten Cloud37 Sonnet symuluje różne sytuacje, które potencjalnie mogą dotyczyć użytkowników danego modelu językowego i prowadząc taką konwersację ocenia to, jak zachowuje się ten przedmiot testu, ten model, który tutaj właśnie testujemy.
I ten EQ Bench 3 zawiera w sobie 45 wyselekcjonowanych scenariuszy, które są dobrane tak, żeby właśnie maksymalnie różnicować te problemy, z którymi te modele się spotykają.
No i zgodnie z notatkami, które opublikowała firma XAI, tutaj akurat GROG 4.1 i GROG 4.1 Thinking są aktualnie liderami tego benchmarku EQBench.
Gemini 3 Pro na miejscu numer 4 i dopiero później GPT-5-1, więc nieco inne wyniki w zależności od tego, czy mówi o nich firma stojąca za modelem, czy właśnie autorzy samego frameworka.
I na koniec tej części krótkie omówienie dwóch modeli, którymi szczególnie mocno będą zainteresowani programiści korzystający z takich rozwiązań jak Cloud Code oraz Codex CLI.
I w przypadku Cloud Opus A4.5 mamy jeszcze lepiej posługiwać się komputerem w kontekście takiej funkcjonalności jak tzw.
Jeśli chodzi o state of the art, jeśli chodzi o model, który jest tutaj liderem, to na pewno jest nim Cloud Opus 4.5, który zdaniem firmy Anthropik jest teraz modelem niemającym sobie równych na takich rzeczywistych, realnych problemach z zakresu inżynierii oprogramowania.
W przypadku Opusa 4.5 po raz pierwszy wchodzimy powyżej progu 80% skuteczności w tym benchmarku.
Sona 4.5 ma 77%, Gemini 3 Pro ma 76%, a GPT-51 Codex Max ma 77,9%.
Również inne benchmarki, które testują różne aspekty inżynierii oprogramowania, udowadniają, że ten Cloud Opus 4.5 jest modelem...
Wszędzie tamten Cloud Opus 4.5 jest rozwiązaniem state of the art.
I tutaj praktycznie w każdym z tych języków programowania Opus 4.5 jest liderem.
Jedynie w PHP tutaj Sonnet 4.5 osiąga nieznacznie lepszy wynik.
I tutaj jeszcze jeden bardzo istotny aspekt w kontekście premiery Cloud Opusa.
W przypadku Opusa 4.5 kosztowało go 10 tysięcy tokenów wyjściowych, w przypadku gdy Sonnet spalił praktycznie dwa razy więcej tokenów, żeby osiągnąć zaledwie 76-77% w tym samym benchmarku, czyli praktycznie dwa razy więcej musieliśmy tokenów poświęcić na to, żeby i tak być poniżej tego poziomu jakości, który Opus tutaj ze sobą reprezentuje.
Tak czy tak po przeliczeniach, które są tutaj dostępne na stronie, wydaje się, że Opus 4.5 jest najbardziej efektywnym kosztowym modelem.
O ile w przypadku Opusa 4.5 czytamy tutaj o 200 tysiącach okna kontekstowego, tak firma OpenAI mówi, że GPT-51 Codex Max tak naprawdę przestaje się interesować problemem okna kontekstowego, bo model będzie sobie na bieżąco streszczał i kompaktował właśnie te...
Tutaj firma wspomina, że z GPT-51 Codex Max możemy rozwiązywać problemy, nad którymi praca trwa nawet 24 godziny w tym trybie agentowym, więc można sobie pomyśleć, co w 24 godzinach taki model może zrobić.
W mojej codziennej pracy z Cloud Codem Opus 4.5 jest modelem rewelacyjnym, natomiast on nie pozbył się niektórych tutaj wad i przypadłości Sonneta 4.5, szczególnie na dużym projekcie, na projekcie Mattermost, który teraz testujemy w kontekście naszych warsztatów.
Jeśli pracowaliśmy w szczególnie skomplikowanym kodzie, gdzie ludzie ludziom zostawiali konkretne pułapki, to zarówno Cloud Sonnet 4.5, jak i Cloud Opus 4.5 wpadały na te same miny.
Jeśli natomiast zaczynaliśmy od czystej kartki i prosiliśmy Opusa o to, żeby zaprojektował dane rozwiązanie,
Jeśli pracujecie z Cloud Codem, tutaj Cloud Opus wraz z pomocnikami z Sonetem i z Haiku będą tymi modelami, z których warto korzystać.
24 listopada 2025 roku na rynku pojawił się Cloud Opus 4.5, znakomity model dla programistów.
Tak jak wspomniałem, 24 listopada na konferencji prasowej Donald Trump ogłosił rozpoczęcie pracy nad projektem, który ma być nawiązaniem do projektów Manhattan czy Apollo, które w zeszłym stuleciu również miały na celu rozwiązywać jakieś istotne dla całego świata...
Budżet tej jednostki to ma być 540 milionów złotych, 340 z budżetu państwa, około 200 z funduszy Komisji Europejskiej.
a tak naprawdę przestaliśmy się powoli zajmować tymi ograniczeniami tej obecnej architektury i jeśli wszystko pójdzie dobrze, to tutaj uwaga, od 5 do mniej więcej 20 lat będą się pojawiać jakieś pierwsze systemy, które będą wykazywać takie oznaki albo AGI, albo jakiegoś takiego właśnie efektu continuous learning, czyli mniej więcej w 2030 roku do 2045.
Ostatnie odcinki
-
AI zamiast lekarza? ChatGPT Health vs Google Me...
01.02.2026 18:45
-
Wielkie Podsumowanie AI w 2025 - Modele, Narzęd...
09.01.2026 05:00
-
GPT-5.2 to GEMINI KILLER? Google VS OpenAI, MCP...
01.01.2026 10:51
-
Gemini 3 to hit, ale konkurencja nie śpi! GPT-5...
01.12.2025 12:38
-
Cursor 2.0 vs Windsurf SWE-1.5 - dobrze, szybko...
04.11.2025 05:00
-
Czy agenci AI zdominują branżę e-commerce? Chat...
04.10.2025 06:10
-
Czy agenci AI zdominują branżę e-commerce? Chat...
03.10.2025 05:05
-
GPT-5: sukces i porażka. Koniec marzeń o AGI pr...
01.09.2025 09:02
-
Czy AI spowalnia programistów? Halucynacje w NC...
02.08.2025 06:27
-
5 mitów programowania z AI - zapomnij o Vibe Co...
29.07.2025 06:00