Bielik czy PLLuM?
Na to pytanie Szymon Bartanowicz i prof. Krzysztof Jassem postarali się odpowiedzieć bazując na realnym scenariuszu RAG, a nie na abstrakcyjnym benchmarku.
Podczas konferencji LREC 2026 na Majorce zaprezentowali artykuł „Evaluation of Two Leading Polish Language Models in a Real-World RAG Scenario”.
Badanie powstało we współpracy z DomData i dotyczyło systemu RAG zasilanego dokumentacją techniczną platformy low-code.
Problem był bardzo praktyczny: modele językowe nie mają dostępu do zamkniętej, firmowej wiedzy. RAG pozwala im odpowiadać na podstawie konkretnych dokumentów, ale skuteczność takiego systemu zależy od wielu czynników.
Dlatego też autorzy najpierw sprawdzili, która konfiguracja modułu wyszukiwania informacji jest najskuteczniejsza, a dopiero potem porównali dwa polskie modele odpowiedzialne za generowanie odpowiedzi: Bielik-11B-v2.3-Instruct i PLLuM-12B-instruct.
Zarówno w ocenie jakości odpowiedzi jak i testach A/B lepiej wypadał Bielik.
Średnia ocena:
Bielik: 4.52
PLLuM: 4.03
W testach A/B Bielik był preferowany w 81,5% porównań. Co ciekawe, po odwróceniu kolejności odpowiedzi odsetek wygranych bielika spadł do 54,3%, co dobrze pokazuje, jak duże znaczenie w automatycznej ewaluacji może mieć tzw. zjawisko “order bias”.
Wniosek dla firm jest prosty: przy wdrażaniu RAG nie wystarczy „podpiąć dokumentów do modelu”.
Zarówno prof. Jassem jak i Szymon są miłośnikami tenisa. Mieli oni wielkie szczęście, ponieważ na Majorce spotkali Rafaela Nadala, pochodzącego właśnie z tej wyspy.
Na podobne szczęście nie można jednak liczyć w przypadku tworzenia systemu typu RAG i należy postawić na konkretne badania i rzetelną ewaluację.



