DARIAH Year Prediction Dataset

DARIAH Year Prediction to zbiór danych składający się z 677665 fragmentów polskojęzycznych tekstów historycznych (głównie periodyków z zakresu od początku XIX w. do końca XX w.) przetranskrybowanych ze skanów za pomocą technik OCR oraz odpowiadających im datom ich publikacji z dokładnością do dnia przekonwertowanym do formatu liczb rzeczywistych. Pierwotnym zadaniem motywującym utworzenie zbioru było datowanie tekstów, czyli przypisywanie otrzymanemu na wejściu fragmentowi tekstu prawdopodobnej daty jego publikacji.

Zbiór został opracowany w ramach projektu https://dariah.pl/. Celem jego utworzenia było skonsolidowanie kilku istniejących zasobów w format odpowiedni dla pojedynczego wyzwania uczenia maszynowego, które mogłoby zostać użyte jako benchmark umożliwiający porównanie efektywności istniejącego modelu do datowania tekstów opracowanego w projekcie z rozwiązaniami stworzonymi przez uczestników wyzwania. Wyzwanie dostępne jest na rozwijanej przez Centrum Sztucznej Inteligencji platformie AmuEval pod adresem https://amueval.pl/challenge/Dariah%20Year%20Prediction%20Challenge.

Zbiór danych udostępniany jest na licencji CC BY-NC-SA 4.0.