Mentionsy
Better Dev Club #32 - Wojna benchmarków, nowe modele MAI i powrót do on-premise?
Kajetan i Piotrek biorą pod lupę najświeższą wojnę na benchmarki wywołaną głośną premierą rodziny modeli Claude 5 (w tym Mythos 5, Fable 5 i Opus 4.8) oraz niespodziewanym debiutem własnych modeli MAI od Microsoftu. Rozmawiamy o twardych liczbach z Agentic Coding Terminal Bench 2.1 oraz Humanity Last Exam, zderzając je z realnymi kosztami. Czy czeka nas przejście z subskrypcji na token-based billing? \n\nW drugiej części odcinka analizujemy niesamowity model do kodowania od Microsoftu, który ma być tańszy od Haiku i dorównywać Sonnetowi 4.6. Zastanawiamy się też, czy wysokie ceny tokenów w chmurze nie popchną firm do powrotu do on-premise, zwłaszcza w dobie premier sprzętu takiego jak Surface RTX Devbox czy lokalnego uruchamiania modeli pokroju Google Gemma bezpośrednio na naszych Macach. „Dzisiaj używamy najgorszych modeli, jakich będziemy w życiu używać”.
- [Intro] Testowanie najnowszych modeli: Gemma, MAI, Mythos i Fable 5
- [Benchmarki] Wojna na liczby i szczegóły Agentic Coding Terminal Bench 2.1
- [Humanity Last Exam] Czy Fable 5 i Claude Opus 4.8 oznaczają nadchodzący Skynet?
- [Strategia] Wielkie modele Anthropic vs małe, zoptymalizowane rozwiązania Google i Microsoftu
- [Cybersecurity] Udostępnianie Fable 5 a podsuwanie hakerom nowego pola do popisu
- [Małe modele] Nowe, wyspecjalizowane modele od Microsoftu – poziom Sonneta 4.6 za ułamek ceny?
- [Przyszłość] Dzisiejsze modele to najgorsze wersje, jakich będziemy używać w życiu
- [Koszty] Koniec darmowych subskrypcji? Anthropic przechodzi na token-based billing
- [Sprzęt] Surface RTX Devbox i Nvidia DGX – potężne maszyny do lokalnego uruchamiania AI
- [On-premise] Czy koszty chmury wypchną firmy z powrotem na własną infrastrukturę?
- [Lokalna Gemma] Uruchamianie modeli na Macu M2 Pro i satysfakcjonujące 30 tokenów na sekundę
- [Outro] Jak zmienia się Wasz codzienny workflow w erze lokalnego AI?
#betterdevclub #ai #benchmarks #claude5 #fable #mythos #mai #microsoft #google #on-premise #gemma #surfacertxdevbox #hardware #cybersecurity
Rozdziały (4)
Kajtek i Piotrek omawiają nowe modele AI, w tym Gemmę, Mythos, Fable i Opus.
Kajtek przedstawia wyniki benchmarków różnych modeli AI, w tym Gemini 3.5, Mythos, Fable i Opus.
Kajtek analizuje potencjał różnych modeli AI, w tym Fable i Mythos, i omawia ich zastosowania w pracy IT.
Kajtek omawia nowe modele AI od Microsoftu, w tym model do kodowania i nowe modele MAI.
Szukaj w treści odcinka
W zasadzie wspomnieli, jako żeśmy za bardzo się, znaczy Kajetan, Kajetan właśnie, Kajetan właśnie, Google Passe, dzisiaj mi wysłał, Google Passe.
Wracając do tego, co próbowałem przeczytać, czyli jesteśmy na Agentic Coding Terminal Bench 2.1, przy czym w Google jest Terminus 2 HNS, a w tym nie jest coś takiego dodane, więc jak mnie spytacie, czym to się już nie doczytałem, no to tak.
Google się nie odważył, GPT się nie odważyło, Anthropic się właśnie odważył i podbił numerek.
A Google i Microsoft zaczynają mówić mały model, dostosowany.
Bo Google cały czas puszcza 3,5 flesza.
Czyli Google, Microsoft, teraz czekamy na AWS.
Ostatnie odcinki
-
Better Dev Club #33 - Pstryk i nie ma AI: co ma...
18.06.2026 07:00
-
Better Dev Club #32 - Wojna benchmarków, nowe m...
11.06.2026 07:00
-
Better Dev Club #31 - Junior w erze AI: bać się...
04.06.2026 07:00
-
Better Dev Club #30 - Google I/O na luzie. Gemi...
28.05.2026 07:00
-
Better Dev Club #29 - Trendy Gartnera. Czy nadc...
21.05.2026 07:00
-
Better Dev Club #28 - Koniec z 'git push i do d...
14.05.2026 07:00
-
Better Dev Club #27 - Z jakich narzędzi AI korz...
07.05.2026 07:00
-
Better Dev Club #26 - Z Andrzejem Krzywdą o DDD...
30.04.2026 07:00
-
Better Dev Club #25 - Koniec taniego AI. Opus 4...
23.04.2026 07:00
-
Better Dev Club #24 - Dlaczego warto chodzić na...
16.04.2026 07:00