Europejska różnorodność językowa powinna mieć odbicie w modelach AI

itreseller.com.pl 2 dni temu

Różnorodność jest, moim zdaniem, jedną z największych sił Europy. Na relatywnie niewielkim kontynencie mamy krajobrazy od skutych lodem fiordów Skandynawii, po słoneczne, skaliste wybrzeża Włoch lub Chorwacji. Kuchnia europejska to szerokie spektrum, od niemieckiej golonki, przez polski bigos, a na hiszpańskiej paelli kończąc. Mówimy też na Starym Kontynencie wieloma językami. I chociaż to absolutnie wspaniałe, to w dobie AI także nieco kłopotliwe, na co zwraca uwagę Brad Smith, Vice Chair and President w Microsoft.

Do szerszego omówienia tego tekstu skłonił mnie news przygotowany przez redakcyjną koleżankę, Ewelinę Stój. Moim zdaniem, kwestia uczenia modeli AI dzięki treści w określonych językach to coś, co często jest pomijanym aspektem rozwoju sztucznej inteligencji. jeżeli jednak przyjrzymy się w szczegółach globalnej sieci, na której to zasobach szkoli się popularne LLMy (jak Gemini, ChatGPT czy Copilot), to dojdziemy do wniosku iż dysproporcja pomiędzy angielski, a całą resztą języków europejskich (tak drogie UK, może wyszliście z UE, ale przez cały czas jesteście częścią Europy, czy tego chcecie czy nie). Samemu będąc dość silnie eurocentrycznym, mam świadomość tego, iż dziś rozwój popularnych modeli AI dyktowany jest raczej zza Atlantyku, co może mieć długofalowe konsekwencje. Jak się okazuje, jako Europejczycy mamy jednak sojusznika z dość niespodziewanej strony.

Jak przekonuje Brad Smith, Vice Chair and President w Microsoft, w najnowszym artykule opublikowanym na oficjalnym blogu firmy, Europa – mimo swego kulturowego i językowego bogactwa – jest dziś nieproporcjonalnie słabo reprezentowana w bazach danych, które służą do trenowania modeli językowych.

Wiceprezes Microsoftu zauważa, iż choć język angielski to jedynie język ojczysty dla 5 proc. Europejczyków, to właśnie on dominuje w internecie – stanowiąc aż połowę całej zawartości cyfrowej. Efekt? Modele AI radzą sobie świetnie po angielsku, dobrze po francusku czy niemiecku, ale już znacznie gorzej po maltańsku, słoweńsku czy łotewsku.

“Wraz z cyfryzacją świata, duża część europejskiej różnorodności językowej i kulturowej może zostać pozostawiona w tyle. Większość treści internetowych – które są głównym źródłem danych szkoleniowych dla obecnych dużych modeli językowych (LLM) – jest w języku angielskim. Wiele z nich odzwierciedla amerykańską perspektywę. Komisja Europejska ostrzegła, iż ambicja kontynentu, aby zdigitalizować swój ogromny korpus kulturowy, pozostaje „znacznie poza zasięgiem”. Jak uznali przywódcy europejscy, bez pilnych działań, ta nierównowaga to nie tylko problem kulturowy – to kwestia komercyjna. Sztuczna inteligencja, która nie rozumie języków, historii i wartości Europy, nie może w pełni służyć ludziom, firmom ani przyszłości” – wyjaśnia Brad Smith, Microsoft

Microsoft bije na alarm: to nie tylko problem kulturowy, ale i ekonomiczny. Bez odpowiednio reprezentowanych danych językowych, wiele europejskich społeczeństw może zostać pominiętych w rewolucji AI – a wraz z nimi całe lokalne rynki, instytucje, przedsiębiorstwa.

Nie doszukiwałbym się tu międzykontynentalnego altruizmu – Microsoft jest w Europie bardzo silny, a degradacja europejskich rynków w dobie AI stanowi potencjalne zagrożenie dla przychodów firmy. Stąd, poza surową diagnozą, Smith proponuje także swoiste “lekarstwo” na zastany problem.

Zamiast dominacji – inkluzywność danych

W tym samym artykule Smith ogłasza dwie konkretne inicjatywy Microsoftu mające na celu wyrównanie cyfrowych szans. Pierwsza to program grantowy i partnerski dla uczelni i organizacji z całej Europy – wspierający tworzenie modeli AI działających efektywnie również w mniejszych językach. Druga to zwiększenie dostępu do wielojęzycznych zbiorów danych, wspólnie z organizacjami takimi jak Common Crawl.

Nie chodzi tu tylko o poprawę wyników modeli – ale o cyfrową reprezentację mniejszych społeczności. To nie przypadek, iż jednym z głównych partnerów nowego programu Microsoftu jest Uniwersytet w Strasburgu, w sercu wielojęzycznej Alzacji – regionu Francji, w którym mieszkańcy często posługują się na co dzień językiem niemieckim. To stamtąd od września 2025 roku popłyną granty obejmujące m.in. kredyty w chmurze Azure o wartości do 1 miliona dolarów, pomoc inżynierską oraz wsparcie w zakresie narzędzi i infrastruktury. Program ma na celu wsparcie tworzenia modeli językowych dla języków o niskich zasobach, jak również rozwój technik oznaczania danych i budowy wielojęzycznych zbiorów treningowych.

Drugim filarem działań Microsoftu jest udostępnianie lepszych i bardziej zróżnicowanych zbiorów danych językowych. Firma współpracuje z organizacją Common Crawl, aby pozyskiwać i udostępniać dane oznaczane przez osoby biegle posługujące się danym językiem. Zbiory te mają być udostępniane na zasadach otwartego dostępu, co wpisuje się w deklarowaną przez firmę filozofię otwartości i wspólnej odpowiedzialności za rozwój AI. Dodatkowo Microsoft publikuje własny wielojęzyczny model językowy – SmoILM3 – na platformie Hugging Face. Model ten obsługuje sześć głównych języków europejskich (angielski, francuski, hiszpański, niemiecki, włoski i portugalski) i stanowi punkt wyjścia do dalszej ekspansji językowej. Szkoda, iż wśród wybranych języków nie znalazł się żaden z największej grupy językowej w Europie, czyli języków słowiańskich. Pretendentem do tego powinien być polski i warto naciskać na Microsoft, by tak się stało.

Równolegle z inicjatywami językowymi Microsoft kontynuuje swoje działania na rzecz digitalizacji europejskiego dziedzictwa kulturowego. Firma rozwija projekt Culture AI, którego celem jest cyfrowe zachowanie i udostępnienie europejskich zabytków, dzieł sztuki i dziedzictwa operowego. Współpracując z rządami i instytucjami kultury – takimi jak francuskie Ministerstwo Kultury, Bibliothèque nationale de France czy Musée des Arts Décoratifs – Microsoft pomaga w digitalizacji setek tysięcy obiektów, a także w rekonstrukcji 3D kluczowych miejsc, jak katedra Notre-Dame w Paryżu.

To działania, które – choć z pozoru niekomercyjne – mają ogromne znaczenie: cyfrowa obecność języka i kultury to dziś warunek istnienia w nowoczesnym świecie. AI już dziś wywiera realny wpływ np. na edukację na całym świecie. “Nakarmienie” modeli LLM treściami, które pochodzą nie tylko z tzw. anglosfery, ale też z mniejszych zasięgowo stref językowych, w tym z Polski, może pomóc w pokierowaniu globalizacją kultury w taki sposób, aby nie stała się ona po prostu kalką Stanów Zjednoczonych. Już dziś amerykańska kultura w dużej mierze dominuje, ale, w sytuacji absolutnej dominacji języka angielskiego w obszarze AI, możemy w subtelny sposób pozbawiać się europejskiego spojrzenia na rzeczywistość.

Nowa suwerenność Europy?

Dla Brada Smitha to nie tylko kwestia sprawiedliwości, ale też cyfrowej suwerenności. Jak twierdzi przedstawiciel Microsoftu, o ile Europa chce być niezależna w obszarze AI, musi zadbać o to, by dane, na których trenowane są modele językowe, nie odzwierciedlały wyłącznie anglosaskiego świata. Potrzebna jest nowa infrastruktura wiedzy – otwarta, różnorodna i dostępna dla wszystkich. To śmiały głos jednego z liderów Big Techu, ale też manifest wspierający unijną wizję „technologii dla obywateli”. Nieco zaskakującym może być iż płynie zza Atlantyku.

“Unia Europejska ma 24 języki urzędowe, z dziesiątkami innych uznanych na poziomie krajowym lub regionalnym. Jednak wiele z tych języków – takich jak duński, fiński, szwedzki i grecki – reprezentuje mniej niż 0,6% treści internetowych. Inne, takie jak maltański, irlandzki, estoński, łotewski i słoweński, są ledwo widoczne w Internecie. Podczas gdy tylko 5% światowej populacji posługuje się językiem angielskim jako pierwszym językiem, tekst angielski stanowi połowę treści internetowych, dominując w danych wykorzystywanych do szkolenia modeli sztucznej inteligencji.” – podkreśla Brad Smith, Microsoft

W czasach, gdy AI zaczyna wpływać na każdy aspekt życia – od relacji społecznych po wyniki ekonomiczne – pytanie o język, dane i reprezentację przestaje być technicznym szczegółem. Staje się sprawą polityczną, społeczną i cywilizacyjną. Europa, jeżeli chce mówić własnym głosem w świecie sztucznej inteligencji – musi zadbać o to, by ten głos był dobrze słyszany. A to oznacza: dane, modele i technologie, które mówią jej własnym językiem, a raczej językami.

Język zawiera bowiem nieco więcej niż tylko suchy przekaz treści. Jest nośnikiem kultury, pasem transmisyjnym myśli z przeszłości w przyszłość. jeżeli duże modele językowe będą szkolone jedynie, lub niemal jedynie, na aktualnie dominujących językach tj. angielskim i chińskim, to przyszłość będzie także należeć wyłącznie do tychże języków, dając swoiste “życiowe konto premium” ich natywnym użytkownikom. Dlatego też warto, z jednej strony, kibicować budowie takich modeli jak polski PLLuM, z drugiej wspierać inicjatywy zmierzające do coraz szerszego szkolenia wiodących modeli LLM treściami w językach europejskich. Tylko tak zdołamy uczynić przyszłość bardziej europejską.

Idź do oryginalnego materiału