Mentionsy

Better Dev Club
Better Dev Club
11.06.2026 07:00

Better Dev Club #32 - Wojna benchmarków, nowe modele MAI i powrót do on-premise?

Kajetan i Piotrek biorą pod lupę najświeższą wojnę na benchmarki wywołaną głośną premierą rodziny modeli Claude 5 (w tym Mythos 5, Fable 5 i Opus 4.8) oraz niespodziewanym debiutem własnych modeli MAI od Microsoftu. Rozmawiamy o twardych liczbach z Agentic Coding Terminal Bench 2.1 oraz Humanity Last Exam, zderzając je z realnymi kosztami. Czy czeka nas przejście z subskrypcji na token-based billing? \n\nW drugiej części odcinka analizujemy niesamowity model do kodowania od Microsoftu, który ma być tańszy od Haiku i dorównywać Sonnetowi 4.6. Zastanawiamy się też, czy wysokie ceny tokenów w chmurze nie popchną firm do powrotu do on-premise, zwłaszcza w dobie premier sprzętu takiego jak Surface RTX Devbox czy lokalnego uruchamiania modeli pokroju Google Gemma bezpośrednio na naszych Macach. „Dzisiaj używamy najgorszych modeli, jakich będziemy w życiu używać”.

- [Intro] Testowanie najnowszych modeli: Gemma, MAI, Mythos i Fable 5

- [Benchmarki] Wojna na liczby i szczegóły Agentic Coding Terminal Bench 2.1

- [Humanity Last Exam] Czy Fable 5 i Claude Opus 4.8 oznaczają nadchodzący Skynet?

- [Strategia] Wielkie modele Anthropic vs małe, zoptymalizowane rozwiązania Google i Microsoftu

- [Cybersecurity] Udostępnianie Fable 5 a podsuwanie hakerom nowego pola do popisu

- [Małe modele] Nowe, wyspecjalizowane modele od Microsoftu – poziom Sonneta 4.6 za ułamek ceny?

- [Przyszłość] Dzisiejsze modele to najgorsze wersje, jakich będziemy używać w życiu

- [Koszty] Koniec darmowych subskrypcji? Anthropic przechodzi na token-based billing

- [Sprzęt] Surface RTX Devbox i Nvidia DGX – potężne maszyny do lokalnego uruchamiania AI

- [On-premise] Czy koszty chmury wypchną firmy z powrotem na własną infrastrukturę?

- [Lokalna Gemma] Uruchamianie modeli na Macu M2 Pro i satysfakcjonujące 30 tokenów na sekundę

- [Outro] Jak zmienia się Wasz codzienny workflow w erze lokalnego AI?

#betterdevclub #ai #benchmarks #claude5 #fable #mythos #mai #microsoft #google #on-premise #gemma #surfacertxdevbox #hardware #cybersecurity

Rozdziały (4)

1. Witamy i omówienie nowych modeli

Kajtek i Piotrek omawiają nowe modele AI, w tym Gemmę, Mythos, Fable i Opus.

2. Benchmarkowanie modeli

Kajtek przedstawia wyniki benchmarków różnych modeli AI, w tym Gemini 3.5, Mythos, Fable i Opus.

3. Analiza modeli i ich potencjału

Kajtek analizuje potencjał różnych modeli AI, w tym Fable i Mythos, i omawia ich zastosowania w pracy IT.

4. Nowe modele od Microsoftu

Kajtek omawia nowe modele AI od Microsoftu, w tym model do kodowania i nowe modele MAI.

Szukaj w treści odcinka

Znaleziono 3 wyniki dla "Opusa"

Fable 5 jest tak sprytny, że jak zadasz pytanie o biologię, cyber security i nie pamiętam co jest trzecie, to cię wtedy skieruje do opusa 4.5, bo on pod spodem jest super cyber security i mógłby w ogóle nie ten, więc jak jest cyber security, biology, chemia i

W wypadku średniej 5% requestów trafia do Opusa właśnie 4.8, żeby te safeguardy cię po prostu kierują.

Zaprzęganie Opusa 4.8 czy Fable, czy jakiegokolwiek innego modelu właśnie po prostu do programowania, no to jest po prostu głupota.