Mentionsy

Better Dev Club
Better Dev Club
11.06.2026 07:00

Better Dev Club #32 - Wojna benchmarków, nowe modele MAI i powrót do on-premise?

Kajetan i Piotrek biorą pod lupę najświeższą wojnę na benchmarki wywołaną głośną premierą rodziny modeli Claude 5 (w tym Mythos 5, Fable 5 i Opus 4.8) oraz niespodziewanym debiutem własnych modeli MAI od Microsoftu. Rozmawiamy o twardych liczbach z Agentic Coding Terminal Bench 2.1 oraz Humanity Last Exam, zderzając je z realnymi kosztami. Czy czeka nas przejście z subskrypcji na token-based billing? \n\nW drugiej części odcinka analizujemy niesamowity model do kodowania od Microsoftu, który ma być tańszy od Haiku i dorównywać Sonnetowi 4.6. Zastanawiamy się też, czy wysokie ceny tokenów w chmurze nie popchną firm do powrotu do on-premise, zwłaszcza w dobie premier sprzętu takiego jak Surface RTX Devbox czy lokalnego uruchamiania modeli pokroju Google Gemma bezpośrednio na naszych Macach. „Dzisiaj używamy najgorszych modeli, jakich będziemy w życiu używać”.

- [Intro] Testowanie najnowszych modeli: Gemma, MAI, Mythos i Fable 5

- [Benchmarki] Wojna na liczby i szczegóły Agentic Coding Terminal Bench 2.1

- [Humanity Last Exam] Czy Fable 5 i Claude Opus 4.8 oznaczają nadchodzący Skynet?

- [Strategia] Wielkie modele Anthropic vs małe, zoptymalizowane rozwiązania Google i Microsoftu

- [Cybersecurity] Udostępnianie Fable 5 a podsuwanie hakerom nowego pola do popisu

- [Małe modele] Nowe, wyspecjalizowane modele od Microsoftu – poziom Sonneta 4.6 za ułamek ceny?

- [Przyszłość] Dzisiejsze modele to najgorsze wersje, jakich będziemy używać w życiu

- [Koszty] Koniec darmowych subskrypcji? Anthropic przechodzi na token-based billing

- [Sprzęt] Surface RTX Devbox i Nvidia DGX – potężne maszyny do lokalnego uruchamiania AI

- [On-premise] Czy koszty chmury wypchną firmy z powrotem na własną infrastrukturę?

- [Lokalna Gemma] Uruchamianie modeli na Macu M2 Pro i satysfakcjonujące 30 tokenów na sekundę

- [Outro] Jak zmienia się Wasz codzienny workflow w erze lokalnego AI?

#betterdevclub #ai #benchmarks #claude5 #fable #mythos #mai #microsoft #google #on-premise #gemma #surfacertxdevbox #hardware #cybersecurity

Rozdziały (4)

1. Witamy i omówienie nowych modeli

Kajtek i Piotrek omawiają nowe modele AI, w tym Gemmę, Mythos, Fable i Opus.

2. Benchmarkowanie modeli

Kajtek przedstawia wyniki benchmarków różnych modeli AI, w tym Gemini 3.5, Mythos, Fable i Opus.

3. Analiza modeli i ich potencjału

Kajtek analizuje potencjał różnych modeli AI, w tym Fable i Mythos, i omawia ich zastosowania w pracy IT.

4. Nowe modele od Microsoftu

Kajtek omawia nowe modele AI od Microsoftu, w tym model do kodowania i nowe modele MAI.

Szukaj w treści odcinka

Znaleziono 6 wyników dla "Google"

W zasadzie wspomnieli, jako żeśmy za bardzo się, znaczy Kajetan, Kajetan właśnie, Kajetan właśnie, Google Passe, dzisiaj mi wysłał, Google Passe.

Wracając do tego, co próbowałem przeczytać, czyli jesteśmy na Agentic Coding Terminal Bench 2.1, przy czym w Google jest Terminus 2 HNS, a w tym nie jest coś takiego dodane, więc jak mnie spytacie, czym to się już nie doczytałem, no to tak.

Google się nie odważył, GPT się nie odważyło, Anthropic się właśnie odważył i podbił numerek.

A Google i Microsoft zaczynają mówić mały model, dostosowany.

Bo Google cały czas puszcza 3,5 flesza.

Czyli Google, Microsoft, teraz czekamy na AWS.