Mentionsy

Better Dev Club

11.06.2026 07:00

Better Dev Club #32 - Wojna benchmarków, nowe modele MAI i powrót do on-premise?

Kajetan i Piotrek biorą pod lupę najświeższą wojnę na benchmarki wywołaną głośną premierą rodziny modeli Claude 5 (w tym Mythos 5, Fable 5 i Opus 4.8) oraz niespodziewanym debiutem własnych modeli MAI od Microsoftu. Rozmawiamy o twardych liczbach z Agentic Coding Terminal Bench 2.1 oraz Humanity Last Exam, zderzając je z realnymi kosztami. Czy czeka nas przejście z subskrypcji na token-based billing? \n\nW drugiej części odcinka analizujemy niesamowity model do kodowania od Microsoftu, który ma być tańszy od Haiku i dorównywać Sonnetowi 4.6. Zastanawiamy się też, czy wysokie ceny tokenów w chmurze nie popchną firm do powrotu do on-premise, zwłaszcza w dobie premier sprzętu takiego jak Surface RTX Devbox czy lokalnego uruchamiania modeli pokroju Google Gemma bezpośrednio na naszych Macach. „Dzisiaj używamy najgorszych modeli, jakich będziemy w życiu używać”.

- [Intro] Testowanie najnowszych modeli: Gemma, MAI, Mythos i Fable 5

- [Benchmarki] Wojna na liczby i szczegóły Agentic Coding Terminal Bench 2.1

- [Humanity Last Exam] Czy Fable 5 i Claude Opus 4.8 oznaczają nadchodzący Skynet?

- [Strategia] Wielkie modele Anthropic vs małe, zoptymalizowane rozwiązania Google i Microsoftu

- [Cybersecurity] Udostępnianie Fable 5 a podsuwanie hakerom nowego pola do popisu

- [Małe modele] Nowe, wyspecjalizowane modele od Microsoftu – poziom Sonneta 4.6 za ułamek ceny?

- [Przyszłość] Dzisiejsze modele to najgorsze wersje, jakich będziemy używać w życiu

- [Koszty] Koniec darmowych subskrypcji? Anthropic przechodzi na token-based billing

- [Sprzęt] Surface RTX Devbox i Nvidia DGX – potężne maszyny do lokalnego uruchamiania AI

- [On-premise] Czy koszty chmury wypchną firmy z powrotem na własną infrastrukturę?

- [Lokalna Gemma] Uruchamianie modeli na Macu M2 Pro i satysfakcjonujące 30 tokenów na sekundę

- [Outro] Jak zmienia się Wasz codzienny workflow w erze lokalnego AI?

#betterdevclub #ai #benchmarks #claude5 #fable #mythos #mai #microsoft #google #on-premise #gemma #surfacertxdevbox #hardware #cybersecurity

Microsoft Microsoftu Google Humanity Last Exam Anthropic Falusa MAI AI Gemmy Jezu Opusa Gemini CLI guy'a Gemmę Googla

Rozdziały (4)

1. Witamy i omówienie nowych modeli

Kajtek i Piotrek omawiają nowe modele AI, w tym Gemmę, Mythos, Fable i Opus.

2. Benchmarkowanie modeli

Kajtek przedstawia wyniki benchmarków różnych modeli AI, w tym Gemini 3.5, Mythos, Fable i Opus.

3. Analiza modeli i ich potencjału

Kajtek analizuje potencjał różnych modeli AI, w tym Fable i Mythos, i omawia ich zastosowania w pracy IT.

4. Nowe modele od Microsoftu

Kajtek omawia nowe modele AI od Microsoftu, w tym model do kodowania i nowe modele MAI.

Szukaj w treści odcinka

Znaleziono 3 wyniki dla "Opusa"

Fable 5 jest tak sprytny, że jak zadasz pytanie o biologię, cyber security i nie pamiętam co jest trzecie, to cię wtedy skieruje do opusa 4.5, bo on pod spodem jest super cyber security i mógłby w ogóle nie ten, więc jak jest cyber security, biology, chemia i

W wypadku średniej 5% requestów trafia do Opusa właśnie 4.8, żeby te safeguardy cię po prostu kierują.

Zaprzęganie Opusa 4.8 czy Fable, czy jakiegokolwiek innego modelu właśnie po prostu do programowania, no to jest po prostu głupota.

Ostatnie odcinki

Better Dev Club #33 - Pstryk i nie ma AI: co ma...
18.06.2026 07:00
Better Dev Club #32 - Wojna benchmarków, nowe m...
11.06.2026 07:00
Better Dev Club #31 - Junior w erze AI: bać się...
04.06.2026 07:00
Better Dev Club #30 - Google I/O na luzie. Gemi...
28.05.2026 07:00
Better Dev Club #29 - Trendy Gartnera. Czy nadc...
21.05.2026 07:00
Better Dev Club #28 - Koniec z 'git push i do d...
14.05.2026 07:00
Better Dev Club #27 - Z jakich narzędzi AI korz...
07.05.2026 07:00
Better Dev Club #26 - Z Andrzejem Krzywdą o DDD...
30.04.2026 07:00
Better Dev Club #25 - Koniec taniego AI. Opus 4...
23.04.2026 07:00
Better Dev Club #24 - Dlaczego warto chodzić na...
16.04.2026 07:00