Nowe Bieliki już w maju. Zadebiutują w… Paryżu

homodigital.pl 3 miesięcy temu

Nowe Bieliki pojawią się już w maju. Bieliki a nie Bielik, bo twórcy najlepszego polskiego dużego modelu językowego planują zaprezentować całą nową rodzinę modeli podczas wydarzenia GOSIM Spotlight AI, które odbędzie się w Paryżu w dniach 6-7 maja.

Okazja będzie doskonała – Bielik.ai, czyli projekt stojący za modelami Bielik, został nominowany do czołowej dziesiątki projektów open source w ramach GOSIM AI Spotlight. GOSIM to Global Open-Source Innovation Meetup – globalna inicjatywa promująca projekty open source.

Nowe Bieliki już w maju – czego można się spodziewać

Czego możemy się spodziewać? Przede wszystkim kilku modeli – ambasador projektu Bielik.ai Michał Domański pisze o „kilku modelach”. Z kolei Sebastian Kondracki, spiritus movens Bielika i założyciel Fundacji Spichlerz, która opracowała ten model we współpracy z centrum obliczeniowym Cyfronet AGH, pisze, iż będzie „rodzinnie” i „agentowo”, co sugeruje, iż nie tylko zobaczymy kilka modeli, ale również ich zastosowanie w systemach agentowych.

Jak z kolei sugeruje Remigiusz Kinas, technologiczny guru projektu, „na początek” zobaczymy trzy modele, potem dojdą jeszcze dwa kolejne. prawdopodobnie zobaczymy „malucha” z 1,5 mld parametrów, czyli Bielika-1.5B, o którym niedawno pisał Kinas, jak również „coś większego„. Jeszcze nie wiemy czy wśród modeli modeli zaprezentowanych w Paryżu będzie model „rozumujący”, również swego czasu zapowiadany przez Kondrackiego i Kinasa.

Twórcy Bielika już od pewnego czasu zapowiadali, iż będą chcieli, by trzecia wersja modelu była trenowana na danych dla języków Europy Środkowo-Wschodniej, zwłaszcza tych, które mają słabe własne modele językowe albo nie mają ich w ogóle. Sygnalizowali również chęć wejścia ze swoim modelem na rynek niemiecki, a docelowo uczynienie z Bielika modelu europejskiego.

Czas na wizję?

Na tradycyjnych dużych modelach językowych nie kończą się ambicje twórców Bielika. Trzy tygodnie temu Sebastian Kondracki ogłosił plany stworzenia zbioru danych obrazów, w szczególności zdjęć lokalnych potraw, przyrody, tradycji, zabytków. Jak wskazuje Kondracki, zagraniczne modele o umiejętnościach wizyjnych (tzw. modele image-text-to-text) kiepsko sobie radzą z polskimi kontekstami kulturowymi – więc czas, by powstał polski model o takiej funkcjonalności.

„Teraz czas na wizję – dosłownie. Model, który rozumie obrazy” – napisał we wpisie na LinkedInie.

W tym celu stworzono projekt #ObywatelBielik, którego ambicją jest zebranie jednego miliona zdjęć i opisów do nich w zaledwie jeden kwartał. By to umożliwić, ma powstać aplikacja webowa i mobilna, w której każdy będzie mógł wrzucać i opisywać zdjęcia. Chętni do współpracy mogą się zgłaszać tutaj.

Taki zestaw danych pozwoliłby na wytrenowanie modelu, który bez trudu rozpoznawałby polskie potrawy czy zabytki. To prawdopodobnie oznaczałoby „dotrenowanie” istniejącego modelu image-text-to-text. Poprzednie wersje Bielika też w końcu nie powstawały od podstaw, tylko były „dotrenowaną” i ulepszoną wersją modeli Mistrala.

Jakie będą następne projekty twórców Bielika? Jeszcze nie wiemy, ale ambicji im nie brakuje. Jak niedawno pisał Sebastian Kondracki – „pewnie nigdy nie dogonimy Anthropic ani OpenAI (i to nie jest nasz cel). Ale wierzę, iż zamieszanie, jakie na świecie wywołał DeepSeek, jest jak najbardziej w naszym zasięgu”.

Źródło grafiki: Sztuczna inteligencja, model Dall-E 3

Idź do oryginalnego materiału