
Rozumujące modele AI sporo kosztują. Ponieważ zaprojektowane są tak, by analizować wytworzone przez siebie treści, to zużywają istotnie więcej mocy obliczeniowych niż tradycyjne duże modele językowe. To powoduje, iż są też wyraźnie droższe. Jest to problem dla firm, które na modelach rozumujących budują własne produkty AI. Google, wraz z wprowadzeniem hybrydowego modelu Gemini 2.5 Flash, proponuje rozwiązanie – budżet myślowy (thinking budget).
W biznesie kilka jest rzeczy ważniejszych niż przewidywalność kosztów. Z tą kontrolą w przypadku generatywnej AI bywa różnie. Kiedy OpenAI udostępniło swoje „rozumujące” modele AI klientom najdroższego planu ChatGPT Pro, kosztującego raczej zawrotną kwotę 200 dolarów miesięcznie, to gwałtownie okazało się, iż firma na tym traci pieniądze, bo klienci korzystali z o1 częściej niż spółka zakładała.
Problem ten niewątpliwie pogłębią modele hybrydowe, czyli takie, które łączą w sobie cechy tradycyjnych modeli LLM i modeli rozumujących. Taki model sam decyduje, ile „rozumowania” poświęcić na dane pytanie. To oczywiście oszczędza nam kosztów „rozumowania” przy banalnych pytaniach w rodzaju „Co jest stolicą Bangladeszu?”, ale i tak wnosi dużą niepewność w zaplanowanie, ile ostatecznie zapłacimy za odpowiedź na dane pytanie.
Rozumujące modele AI sporo kosztują. Odpowiedzią ma być budżet
By zredukować tę niepewność, Google wprowadza dla swojego nowego modelu Gemini 2.5 Flash nowe narzędzie – możemy określić „budżet myślowy”. To maksymalna liczba tokenów, jakie model może poświęcić na fazę rozumowania. jeżeli budżet ustawimy na 0 (taki jest dolny limit) to model będzie się zachowywał jak zwykły LLM bez rozumowania. Im wyższy ustawimy limit, tym więcej model będzie mógł „myśleć” nad odpowiedzią. Maksimum to 24,576 tokenów.
Co istotne, ten „budżet” to po prostu górny limit tego, co model może wykorzystać. jeżeli AI dojdzie do wniosku, iż potrzebuje mniej tokenów „myślowych” do odpowiedzi – na przykład zero – to tyle właśnie użyje.
Oczywiście taki budżet ma też swoją cenę – w jakości wyników. Jak pokazują wyniki testów Google, zwiększanie budżetu dla pytań z zakresu nauk ścisłych, inżynierii i matematyki (benchmark GPQA diamond) powoduje stały wzrost jakości odpowiedzi. Ale na przykład już w programowaniu (benchmark LiveCodeBench) zwiększenie budżetu z 16 tysięcy na 24 tysiące tokenów nie poprawia wyników.

Gemini 2.5 Flash. Mniejszy, szybszy, tańszy
Gemini 2.5 Flash to pierwszy w stajni Google tak zwany model hybrydowy. To model, który sam wybiera, czy generowanie wyników obejmuje fazę rozumowania, czy też nie. Podobnym modelem jest dostępny od jakiegoś czasu Claude 3.7 Sonnet, takim też modelem ma być – kiedy w końcu się ukaże – GPT-5.
Nowy model od Google jest z serii modeli Flash, a więc mniejszych, szybszych i generalnie tańszych modeli od giganta z Mountain View. Jak ten średniak radzi sobie z konkurencją?
Jak się okazuje, całkiem nieźle. W testach z dziedziny nauk uzyskuje wyniki podobne lub lepsze niż Claude 3.7 Sonnet czy Grok 3. Nieco gorzej jest w programowaniu – tu modele Anthropica i xAI prowadzą.
Mniej korzystnie wypadają porównania z o4-mini, czyli dopiero co wydanego modelu OpenAI – tu Gemini Flash wyraźnie przegrywa jakością. Jak jednak podkreśla Google, wciąż oferuje doskonały stosunek jakości do ceny.
Gemini 2.5 Flash jest dostępny przez API, w Google AI Studio i w aplikacji mobilnej Gemini.
Źródło zdjęcia: Rajeshwar Bachu/Unsplash