Bielik pofrunie śladem DeepSeeka? Nowe modele już są

homodigital.pl 5 godzin temu

Czy polski projekt AI Bielik pofrunie śladem DeepSeeka? W pewnym sensie tak – jeden z dwóch właśnie co opublikowanych nowych modeli był trenowany z użyciem techniki, której użyto przy tworzeniu „rozumującego” modelu DeepSeek-R1. No i w końcu mamy dwa nowe większe modele – choć jeszcze nie z „trójką”.

W pierwszych dniach maja Spichlerz/Speakleash, fundacja stojąca wraz z Cyfronetem za stworzeniem modeli Bielik, zaprezentowały w Paryżu trzy nowe modele. To dwa maluchy z „trójką” w numerze wersji, przeznaczone do wąskich zastosowań, takich jak analiza wydźwięku emocjonalnego wypowiedzi (sentiment analysis) czy jako podstawa do budowania systemu wyspecjalizowanych agentów.

Oprócz nich zaprezentowano również możliwości trzeciego, większego modelu, czyli Bielika 11B 2.5. Z zastrzeżeniem, iż sam model zostanie upubliczniony w czerwcu. I tak się właśnie stało – ale oprócz modelu 2.5, dostaliśmy jeszcze 2.6 – to właśnie w tym modelu zastosowano techniki znane z DeepSeeka.

Bielik frunie śladem DeepSeeka

Co więc dostajemy teraz? Dwa modele w standardowym dla wersji drugiej Bielika rozmiarze 11 miliardów parametrów. Jak już pisałem, wersja 2.5 miała mieć wbudowaną obsługę narzędzi i możliwość uruchomienia trybu rozumującego, ale jest zbudowana na tej samej bazie co poprzednie wersje Bielika 2. Czyli przeprowadzano na niej tak zwany trening instrukcyjny, ale bez dodatkowego treningu bazowego.

Dodatkowe dostrajanie przeprowadzono w przypadku modelu 2.6. Jak pisze technologiczny guru Bielików Remigiusz Kinas, ta wersja to udoskonalony model 2.5, „znacznie wzmocniona w kontekście matematyki, STEM” (science, technology, engineering, math).

Żeby osiągnąć te lepsze wyniki zastosowano technikę RLVR – uczenia ze wzmocnieniem na weryfikowalnych rezultatach. Co to za technika? Modelowi daje się do rozwiązania zadanie z matematyki, programowania czy nauk ścisłych i sprawdza się, czy model podał prawidłową odpowiedź.Jeśli tak, to model dostaje nagrodę, a jeżeli nie, to albo nie dostaje nagrody, albo wręcz dostaje karę). Czemu używa się tej techniki głównie w naukach ścisłych? Bo tylko tu prawidłowość odpowiedzi jest łatwo weryfikowalna przez maszynę, więc proces daje się łatwo zautomatyzować.

W szczególności, przy trenowaniu Bielika 2.6 zastosowano wersję RLVR o nazwie GRPO, stworzoną przez chińskiego DeepSeeeka i wykorzystaną przez niego przy trenowaniu modelu R1. Jedną z podstawowych zalet tej techniki jest to, iż jest o wiele mniej wymagająca obliczeniowo niż stosowanej w modelach OpenAI techniki PPO i pozwala trenować modele na relatywnie słabej infrastrukturze obliczeniowej. To bardzo ważne dla chińskich firm AI, bo na Chiny od lat nałożone są ograniczenia w imporcie zaawansowanych chipów AI. Ważne jest też dla Polski – nasze centra danych też są w tyle za infrastrukturą czołowych amerykańskich firm AI.

Jak sobie radzą nowe modele? Na razie nie wiemy – nie dostaliśmy żadnych benchmarków, nowych modeli nie ma również na Chat Arenie PL. Mamy więc tylko wskazówki w postaci komentarzy, chwalących zrozumienie złożonego tekstu przez model 2.6.

Bieliki – ciąg dalszy we wrześniu?

Kiedy usłyszymy kolejne wieści o Bielikach? Jak pisze Remigiusz Kinas – „pewnie gdzieś po wakacjach.” Będą to wersje 3.0 dla standardowego już modelu 11B oraz dla tajemniczego „większego”.

Jak sugerował w maju Sebastian Kondracki, spiritus movens Spichlerza i Bielika, nowy większy model będzie multimodalny, a więc potrafiący obsługiwać nie tylko tekst, ale zrozumieć również grafikę – tak by mógł na przykład odczytać diagramy. Jak na razie przedstawiciele projektu dawali raczej enigmatyczne odpowiedzi co do tego, jak dużego modelu możemy się spodziewać. Mówiono tylko, iż będzie większy niż 11 B i mniejszy niż 400B. To dość szerokie spektrum możliwości.

Źródło grafiki: Sztuczna inteligencja, model Dall-E 3

Idź do oryginalnego materiału