Polska sztuczna inteligencja nabiera tempa! Model językowy PLLuM to pierwszy rządowy LLM (Large Language Model) zaprojektowany specjalnie z myślą o języku polskim.

W najnowszym odcinku Podcastu Cyfrowego Ministerstwa Cyfryzacji możemy wysłuchać rozmowy z dr Agnieszką Karlińską z NASK (Naukowo Akademickiej Sieci Komputerowej) o tym, jak powstał ten przełomowy projekt i jakie ma znaczenie polski ekosystem modeli językowych dla rozwoju AI w Polsce.
➔ PRZECZYTAJ TAKŻE: Raport Rodzina 2040 – Co nas czeka za 15 lat?
PLLuM to nie pojedynczy model, lecz cała rodzina modeli o różnych zastosowaniach. Składa się z 18 wersji różniących się liczbą parametrów oraz przeznaczeniem. Modele te można podzielić na:
Bazowe – przechodzą adaptację językową i rozumieją język polski.
Instrukcyjne – trenowane do wykonywania konkretnych zadań na podstawie instrukcji.
Chat – dostosowane do interakcji i rozmów z użytkownikami.
100 miliardów słów – unikalne dane dla PLLuM
Jednym z kluczowych elementów projektu była budowa własnego korpusu treningowego, obejmującego 100 miliardów słów.
Dane te:
- Zostały zebrane w sposób organiczny – bez generowania syntetycznych treści, co zwiększa ich wartość i wiarygodność.
- Obejmują różne źródła – od tekstów literackich, przez dokumenty urzędowe, po zasoby instytucji naukowych.
- Zostały pozyskane zgodnie z prawem i normami etycznymi – współpraca z wydawcami, instytucjami kultury oraz jednostkami publicznymi.
PLLuM w administracji publicznej
W 2025 roku modele PLLuM trafią do wybranych instytucji publicznych, a ich pierwszym wdrożeniem będzie integracja z aplikacją mObywatel. Dzięki temu użytkownicy będą mogli szybciej uzyskiwać odpowiedzi na pytania związane z procedurami urzędowymi.
Jak uniknąć halucynacji?
Jednym z wyzwań przy pracy nad PLLuM było ograniczenie tzw. halucynacji modeli, czyli generowania błędnych informacji. Rozwiązania, które zastosowano:
- Dostarczanie większej ilości danych – im bogatszy zbiór treningowy, tym większa precyzja modelu.
- Testy odporności na manipulację – specjalne ataki testowe sprawdzające stabilność modelu.
- Połączenie z bazami wiedzy (RAG) – w przyszłości modele PLLuM będą mogły korzystać z aktualnych źródeł danych, co pozwoli im unikać dezaktualizacji informacji.
Co dalej? Przyszłość ekosystemu AI w Polsce
Projekt PLLuM to dopiero początek budowy polskiego ekosystemu AI. Kolejne kroki to:
- Wdrożenia w administracji – testowanie i dostosowywanie modeli do urzędowych zastosowań.
- Konsorcjum Hive – nowa inicjatywa AI w Polsce, która ma rozwijać PLLuM oraz kolejne modele.
- Integracja z systemami wyszukiwania – w przyszłości PLLuM będzie mógł korzystać z aktualnych danych internetowych.
Przetestuj modele językowe z rodziny PLLuM na oficjalnej stronie projektu pllum.clarin-pl.eu/pllum_8x7b
Więcej wariantów do pobrania znajdziesz na huggingface.co/CYFRAGOVPL
Odcinek podcastu „Cześć, jestem PLLuM! Jak powstaje polski ekosystem modeli językowych?” możesz posłuchać w serwisach streamingowych:
➔ Obserwuj nas w Google News, aby być na bieżąco!
źródło: Ministerstwo Cyfryzacji