Datasets LLMzSzŁ

Zbiór danych składa się z pytań wielokrotnego wyboru, z których każde ma jedną poprawną odpowiedź. Pytania pochodzą z egzaminów przeprowadzanych w polskim systemie edukacji w latach 2002–2024 i są corocznie publikowane przez Centralną Komisję Egzaminacyjną.

Pytania zostały podzielone na następujące kategorie: matematyka, nauki przyrodnicze, biologia, fizyka oraz język polski (na poziomie przed szkołą średnią), a także sztuka, mechanika (w tym górnictwo i metalurgia) oraz rolnictwo (w tym leśnictwo) w przypadku egzaminów zawodowych.

Łącznie zbiór zawiera prawie 19 tysięcy pytań. Został on wcześniej wykorzystany do oceny ponad 50 dużych modeli językowych (LLM), co zaowocowało stworzeniem rankingu oraz publikacją pracy naukowej, dostępnych pod poniższymi linkami.

Link do Hugging Face