Mentionsy

Better Dev Club
Better Dev Club
11.06.2026 07:00

Better Dev Club #32 - Wojna benchmarków, nowe modele MAI i powrót do on-premise?

Kajetan i Piotrek biorą pod lupę najświeższą wojnę na benchmarki wywołaną głośną premierą rodziny modeli Claude 5 (w tym Mythos 5, Fable 5 i Opus 4.8) oraz niespodziewanym debiutem własnych modeli MAI od Microsoftu. Rozmawiamy o twardych liczbach z Agentic Coding Terminal Bench 2.1 oraz Humanity Last Exam, zderzając je z realnymi kosztami. Czy czeka nas przejście z subskrypcji na token-based billing? \n\nW drugiej części odcinka analizujemy niesamowity model do kodowania od Microsoftu, który ma być tańszy od Haiku i dorównywać Sonnetowi 4.6. Zastanawiamy się też, czy wysokie ceny tokenów w chmurze nie popchną firm do powrotu do on-premise, zwłaszcza w dobie premier sprzętu takiego jak Surface RTX Devbox czy lokalnego uruchamiania modeli pokroju Google Gemma bezpośrednio na naszych Macach. „Dzisiaj używamy najgorszych modeli, jakich będziemy w życiu używać”.

- [Intro] Testowanie najnowszych modeli: Gemma, MAI, Mythos i Fable 5

- [Benchmarki] Wojna na liczby i szczegóły Agentic Coding Terminal Bench 2.1

- [Humanity Last Exam] Czy Fable 5 i Claude Opus 4.8 oznaczają nadchodzący Skynet?

- [Strategia] Wielkie modele Anthropic vs małe, zoptymalizowane rozwiązania Google i Microsoftu

- [Cybersecurity] Udostępnianie Fable 5 a podsuwanie hakerom nowego pola do popisu

- [Małe modele] Nowe, wyspecjalizowane modele od Microsoftu – poziom Sonneta 4.6 za ułamek ceny?

- [Przyszłość] Dzisiejsze modele to najgorsze wersje, jakich będziemy używać w życiu

- [Koszty] Koniec darmowych subskrypcji? Anthropic przechodzi na token-based billing

- [Sprzęt] Surface RTX Devbox i Nvidia DGX – potężne maszyny do lokalnego uruchamiania AI

- [On-premise] Czy koszty chmury wypchną firmy z powrotem na własną infrastrukturę?

- [Lokalna Gemma] Uruchamianie modeli na Macu M2 Pro i satysfakcjonujące 30 tokenów na sekundę

- [Outro] Jak zmienia się Wasz codzienny workflow w erze lokalnego AI?

#betterdevclub #ai #benchmarks #claude5 #fable #mythos #mai #microsoft #google #on-premise #gemma #surfacertxdevbox #hardware #cybersecurity

Rozdziały (4)

1. Witamy i omówienie nowych modeli

Kajtek i Piotrek omawiają nowe modele AI, w tym Gemmę, Mythos, Fable i Opus.

2. Benchmarkowanie modeli

Kajtek przedstawia wyniki benchmarków różnych modeli AI, w tym Gemini 3.5, Mythos, Fable i Opus.

3. Analiza modeli i ich potencjału

Kajtek analizuje potencjał różnych modeli AI, w tym Fable i Mythos, i omawia ich zastosowania w pracy IT.

4. Nowe modele od Microsoftu

Kajtek omawia nowe modele AI od Microsoftu, w tym model do kodowania i nowe modele MAI.

Szukaj w treści odcinka

Znaleziono 10 wyników dla "Microsoft"

W tej chwili właśnie Microsoft AI, czyli nowe modele MAI od Microsoftu zaczęły wychodzić.

I model do kodowania jest podobno, z tego co Microsoft powiedział, jest na nowo wyuczony.

Można powiedzieć, że to jest pierwszy taki model od Microsoftu.

Tak, to jest pierwszy model od Microsoftu i Microsoft zaczął tworzyć swoje własne modele.

A Google i Microsoft zaczynają mówić mały model, dostosowany.

Byłem na długim weekendzie, wyjechałem, to nie zdążyłem poużywać tego modelu od Microsoftu.

Czyli Google, Microsoft, teraz czekamy na AWS.

I wiesz, jeszcze dodatkowo będą różne ciekawe kroki w najbliższych miesiącach i ja bardzo chętnie będę to obserwował, bo Microsoft też powiedział, jakby z jednej strony mniejsze modele mogą dawać radę, a z drugiej strony we współpracy z NVIDIA robią taką maszynę.

Jakiś tam Microsoft DevKit, Spark, coś tam, Ultra, nie wiadomo co.

Jeśli ktoś by chciał być na tej samej liście co Satya Nadella, czyli CEO Microsoftu, bo on też mówił, że się zapisał na tą waitlistę, no to można.