W tegorocznej edycji konferencji EACL (European Chapterof the Association for Computational Linguistics) odbywającej się w Dubrowniku, Garbriela Pałka oraz Artur Nowakowski zaprezentowali własne rozwiązanie zadania 4th Shared Task on SlavNER Recognition, Normalization, Classification and Cross-lingual linking of Named Entities in Slavic Languages.
Tegoroczna edycja skupiała się na analizie jednostek nazwanych (Name Entities) w dokumentach wielojęzycznych opracownych w językach: polskim, czeskim i rosyjskim. W zadaniu tym należało wykryć i określic kategorie jednostkek takich jak: osoba (PER), lokalizacja (Loc), organizacja (Org), produkt (Pro), wydarzenie (Evt).
Ze względu na bogatą fleksję, swobodny szyk wyrazów, derywację i inne zjawiska występujące w językach słowiańskich, praca nad jednostkami nazwanymi stanowi duże wyzwanie. Wspieranie badań i rozwoju nad problemami związanymi z jednostkami nazwanymi - wykrywanie wzmianek o nazwach, lematyzacja (normalizacja), klasyfikacja i dopasowanie międzyjęzykowe - jest kluczowe dla międzyjęzykowego dostępu do informacji i szerszego wykorzystania NLP w językach słowiańskich.
Do tegorocznej edycji zgłosiło się siedem zespołów, z czego rozwiązanie nadesłały trzy: Tilde, CTC oraz AMU. Nasz zespół (AMU) osiągnął wysokie wyniki w fazach rozpoznawania oraz lematyzacji - w pierwszej z nich 88,8 - 91,5, w drugiej 76,9 - 82,4. Kolejny w tej fazie zespół, Tilde osiąnął wyniki z przedziału 53,9-72,6.
Modele opracowane na potrzeby powyższego zadania udostępnione są na profilu CSI HuggingFace