PLLuM – dowiedz się, jak powstaje polskie AI?

Polska sztuczna inteligencja nabiera tempa! Model językowy PLLuM to pierwszy rządowy LLM (Large Language Model) zaprojektowany specjalnie z myślą o języku polskim.

Cześć, jestem PLLuM! Jak powstaje polski ekosystem modeli językowych?
Cześć, jestem PLLuM! Jak powstaje polski ekosystem modeli językowych?

W najnowszym odcinku Podcastu Cyfrowego Ministerstwa Cyfryzacji możemy wysłuchać rozmowy z dr Agnieszką Karlińską z NASK (Naukowo Akademickiej Sieci Komputerowej) o tym, jak powstał ten przełomowy projekt i jakie ma znaczenie polski ekosystem modeli językowych dla rozwoju AI w Polsce.

➔ PRZECZYTAJ TAKŻE: Raport Rodzina 2040 – Co nas czeka za 15 lat?

PLLuM to nie pojedynczy model, lecz cała rodzina modeli o różnych zastosowaniach. Składa się z 18 wersji różniących się liczbą parametrów oraz przeznaczeniem. Modele te można podzielić na:
Bazowe – przechodzą adaptację językową i rozumieją język polski.

Instrukcyjne – trenowane do wykonywania konkretnych zadań na podstawie instrukcji.
Chat – dostosowane do interakcji i rozmów z użytkownikami.
100 miliardów słów – unikalne dane dla PLLuM
Jednym z kluczowych elementów projektu była budowa własnego korpusu treningowego, obejmującego 100 miliardów słów. 

Dane te:

  • Zostały zebrane w sposób organiczny – bez generowania syntetycznych treści, co zwiększa ich wartość i wiarygodność.
  • Obejmują różne źródła – od tekstów literackich, przez dokumenty urzędowe, po zasoby instytucji naukowych.
  • Zostały pozyskane zgodnie z prawem i normami etycznymi – współpraca z wydawcami, instytucjami kultury oraz jednostkami publicznymi.

PLLuM w administracji publicznej

W 2025 roku modele PLLuM trafią do wybranych instytucji publicznych, a ich pierwszym wdrożeniem będzie integracja z aplikacją mObywatel. Dzięki temu użytkownicy będą mogli szybciej uzyskiwać odpowiedzi na pytania związane z procedurami urzędowymi.

Jak uniknąć halucynacji?

Jednym z wyzwań przy pracy nad PLLuM było ograniczenie tzw. halucynacji modeli, czyli generowania błędnych informacji. Rozwiązania, które zastosowano:

  • Dostarczanie większej ilości danych – im bogatszy zbiór treningowy, tym większa precyzja modelu.
  • Testy odporności na manipulację – specjalne ataki testowe sprawdzające stabilność modelu.
  • Połączenie z bazami wiedzy (RAG) – w przyszłości modele PLLuM będą mogły korzystać z aktualnych źródeł danych, co pozwoli im unikać dezaktualizacji informacji.

Co dalej? Przyszłość ekosystemu AI w Polsce

Projekt PLLuM to dopiero początek budowy polskiego ekosystemu AI. Kolejne kroki to:

  • Wdrożenia w administracji – testowanie i dostosowywanie modeli do urzędowych zastosowań.
  • Konsorcjum Hive – nowa inicjatywa AI w Polsce, która ma rozwijać PLLuM oraz kolejne modele.
  • Integracja z systemami wyszukiwania – w przyszłości PLLuM będzie mógł korzystać z aktualnych danych internetowych.

Przetestuj modele językowe z rodziny PLLuM na oficjalnej stronie projektu pllum.clarin-pl.eu/pllum_8x7b
Więcej wariantów do pobrania znajdziesz na huggingface.co/CYFRAGOVPL

Odcinek podcastu „Cześć, jestem PLLuM! Jak powstaje polski ekosystem modeli językowych?” możesz posłuchać w serwisach streamingowych:

➔ Obserwuj nas w Google News, aby być na bieżąco!

źródło: Ministerstwo Cyfryzacji