nEMO: Dataset of Emotional Speech in Polish

nEMO to symulowany zbiór danych mowy emocjonalnej w języku polskim. Korpus zawiera ponad 3 godziny próbek nagranych z udziałem dziewięciu aktorów portretujących sześć stanów emocjonalnych: złość, strach, szczęście, smutek, zaskoczenie i stan neutralny. Wykorzystany materiał tekstowy został starannie dobrany, aby reprezentować fonetykę języka polskiego. Korpus jest dostępny za darmo na licencji Creative Commons (CC BY-NC-SA 4.0).

Obsługiwane zadania

audio-classification: Ten zbiór danych został stworzony głównie do rozpoznawania emocji mowy. Każde nagranie jest oznaczone jednym z sześciu stanów emocjonalnych (gniew, strach, szczęście, smutek, zaskoczenie i neutralny). Dodatkowo każda próbka jest oznaczona identyfikatorem mówcy i płcią mówcy. Z tego powodu zbiór danych może być również wykorzystywany do różnych zadań klasyfikacji audio.
automatic-speech-recognition: Zbiór danych zawiera ortograficzne i znormalizowane transkrypcje dla każdego nagrania audio, co czyni go przydatnym zasobem do zadań automatycznego rozpoznawania mowy (ASR). Zdania zostały starannie dobrane, aby objąć szeroki zakres fonemów w języku polskim.
text-to-speech: Zbiór danych zawiera emocjonalne nagrania audio z transkrypcjami, które mogą być cenne dla rozwoju systemów TTS, które wytwarzają emocjonalnie ekspresyjną mowę.

Languages

nEMO zawiera audio i transkrypcję w języku polskim.

Dostęp do zestawu danych

amu-cai/nEMO

Autorka korpusu

Iwona Christop

Licencja

Creative Commons (CC BY-NC-SA 4.0)