Mentionsy

Better Dev Club
Better Dev Club
11.06.2026 07:00

Better Dev Club #32 - Wojna benchmarków, nowe modele MAI i powrót do on-premise?

Kajetan i Piotrek biorą pod lupę najświeższą wojnę na benchmarki wywołaną głośną premierą rodziny modeli Claude 5 (w tym Mythos 5, Fable 5 i Opus 4.8) oraz niespodziewanym debiutem własnych modeli MAI od Microsoftu. Rozmawiamy o twardych liczbach z Agentic Coding Terminal Bench 2.1 oraz Humanity Last Exam, zderzając je z realnymi kosztami. Czy czeka nas przejście z subskrypcji na token-based billing? \n\nW drugiej części odcinka analizujemy niesamowity model do kodowania od Microsoftu, który ma być tańszy od Haiku i dorównywać Sonnetowi 4.6. Zastanawiamy się też, czy wysokie ceny tokenów w chmurze nie popchną firm do powrotu do on-premise, zwłaszcza w dobie premier sprzętu takiego jak Surface RTX Devbox czy lokalnego uruchamiania modeli pokroju Google Gemma bezpośrednio na naszych Macach. „Dzisiaj używamy najgorszych modeli, jakich będziemy w życiu używać”.

- [Intro] Testowanie najnowszych modeli: Gemma, MAI, Mythos i Fable 5

- [Benchmarki] Wojna na liczby i szczegóły Agentic Coding Terminal Bench 2.1

- [Humanity Last Exam] Czy Fable 5 i Claude Opus 4.8 oznaczają nadchodzący Skynet?

- [Strategia] Wielkie modele Anthropic vs małe, zoptymalizowane rozwiązania Google i Microsoftu

- [Cybersecurity] Udostępnianie Fable 5 a podsuwanie hakerom nowego pola do popisu

- [Małe modele] Nowe, wyspecjalizowane modele od Microsoftu – poziom Sonneta 4.6 za ułamek ceny?

- [Przyszłość] Dzisiejsze modele to najgorsze wersje, jakich będziemy używać w życiu

- [Koszty] Koniec darmowych subskrypcji? Anthropic przechodzi na token-based billing

- [Sprzęt] Surface RTX Devbox i Nvidia DGX – potężne maszyny do lokalnego uruchamiania AI

- [On-premise] Czy koszty chmury wypchną firmy z powrotem na własną infrastrukturę?

- [Lokalna Gemma] Uruchamianie modeli na Macu M2 Pro i satysfakcjonujące 30 tokenów na sekundę

- [Outro] Jak zmienia się Wasz codzienny workflow w erze lokalnego AI?

#betterdevclub #ai #benchmarks #claude5 #fable #mythos #mai #microsoft #google #on-premise #gemma #surfacertxdevbox #hardware #cybersecurity

Rozdziały (4)

1. Witamy i omówienie nowych modeli

Kajtek i Piotrek omawiają nowe modele AI, w tym Gemmę, Mythos, Fable i Opus.

2. Benchmarkowanie modeli

Kajtek przedstawia wyniki benchmarków różnych modeli AI, w tym Gemini 3.5, Mythos, Fable i Opus.

3. Analiza modeli i ich potencjału

Kajtek analizuje potencjał różnych modeli AI, w tym Fable i Mythos, i omawia ich zastosowania w pracy IT.

4. Nowe modele od Microsoftu

Kajtek omawia nowe modele AI od Microsoftu, w tym model do kodowania i nowe modele MAI.

Szukaj w treści odcinka

Znaleziono 1 wynik dla "guy'a"

Ale no właśnie, jak już mówimy o codziennej pracy dewelopera, codziennej pracy DevOps'a, czyli codziennej pracy IT guy'a,