BIGOS (Benchmark Intended Grouping of Open Speech)

W szybko rozwijającej się dziedzinie technologii automatycznego rozpoznawania mowy (ASR) potrzebny jest solidny „ekosystem” do monitorowania postępu technologicznego i porównywania skuteczności różnych rozwiązań w różnych zastosowaniach. Zainspirowany międzynarodowym trendem w kierunku transparentnego i zbiorowego rozwoju AI, UAM CAI (Uniwersyteckie Centrum Sztucznej Inteligencji im. Adama Mickiewicza) z dumą wprowadza na rynek korpusy BIGOS (Benchmark Intended Grouping of Open Speech) oraz Polish ASR Leaderboard.

Misją Polish ASR Leaderboard (PAL) jest zapewnienie dynamicznego polskiego ekosystemu oceny ASR, który wyrównuje szanse dla benchmarkingu dostawców komercyjnych i otwartych systemów. Naszą wizją jest, aby PAL służył jako kompleksowy przegląd, który informuje potencjalnych użytkowników ASR o zaletach, ograniczeniach i oczekiwanej wydajności technologii ASR w różnych praktycznych scenariuszach. W ostatecznym rozrachunku chcemy wypełnić lukę pomiędzy benchmarkami przeprowadzanymi w kontrolowanych środowiskach, typowo opisywanymi w publikacjach naukowych, a ciągłą, wieloaspektową oceną rzeczywistych zastosowań, zwykle występujących tylko za zamkniętymi drzwiami firm Big Tech.

Dążymy do tego, aby tablica wyników PAL stała się preferowanym źródłem informacji dla każdego, kto rozważa wykorzystanie technologii ASR w języku polskim (i w przyszłości także w innych językach). Aby osiągnąć ten cel, kluczowe znaczenie ma wykorzystanie kompleksowych danych ewaluacyjnych, które dokładnie odzwierciedlają konkretne przypadki użycia i cechy językowe. Osiąga się to dzięki BIGOS (Benchmark Intended Grouping of Open Speech).

Misją BIGOS jest uczynienie otwartych danych mowy ASR użytecznymi. Odkrywamy, organizujemy i udoskonalamy istniejące dane mowy ASR, czyniąc je bardziej dostępnymi i cennymi dla rozwoju i oceny technologii rozpoznawania mowy. Naszym celem jest zaoszczędzenie cennego czasu badaczy i programistów ASR poprzez zapewnienie ujednoliconych formatów danych i wygodnych narzędzi zarządzania wykorzystujących najlepsze praktyki branżowe, np. ramy zbiorów danych Hugging Face.

Połączenie AMU BIGOS i Polish ASR Leaderboard zapewnia społeczności:

● Największy na dzień dzisiejszy, zunifikowany zbiór otwartych zbiorów danych dotyczących mowy polskiej dobrany w celu maksymalizacji użyteczności ewaluacji i łatwości użytkowania.

● Największy do tej pory benchmark dostępnych systemów ASR dla Polski, obejmujący systemy komercyjne i ogólnodostępne.

● Rozszerzalna struktura zarządzania danymi do katalogowania i kuracji danych mowy ASR.

●     Rozszerzalne ramy oceny dla benchmarkingu nowych systemów ASR.

Zadania i dane ewaluacyjne:

Polska tablica wyników ASR wykorzystuje obecnie korpusy ewaluacyjne:

● BIGOS V2 - zbiór 12 znanych zestawów danych mowy ASR dla polskiego rozwoju ASR m.in. Google’s FLEURS, Facebook MLS, Mozilla’s Common Voice, CLARIN-PL itp.Aby uzyskać więcej informacji, zapoznaj się zdataset card on HF hub.

● PELCRA for BIGOS - zbiór opatrzonych adnotacjami danych mowy konwersacyjnej na potrzeby badań lingwistycznych i rozwoju ASR stworzony przez grupę PELCRA Uniwersytetu Łódzkiego m.in. SpokesMix, SpokesBiz, DiaBiz.Aby uzyskać więcej informacji, zapoznaj się z dataset card on HF hub.

Każdy korpus składa się z wielu podzbiorów o unikalnych właściwościach akustycznych i językowych, co skutkuje zróżnicowanym zestawem zadań ewaluacyjnych o różnym stopniu trudności w ocenie zdolności ASR.

Ranking w akcji: barometr polskiego ASR

Zbadano 19 systemów (8 komercyjnych i 11 ogólnodostępnych) na 24 unikatowych podzespołach składających się z ponad 4 tys. nagrań i 10 godzin wypowiedzi. Łącznie do obliczenia wyników dokładności wykorzystano ponad 80 tys. unikalnych par wyjściowych nagrywania-ASR.

Zaobserwowaliśmy, że modele Whisper-large wykazują najwyższą wydajność w zadaniach BIGOS i PELCRA. Biorąc jednak pod uwagę, że zbiór danych PELCRA zawiera mowę konwersacyjną, podczas gdy BIGOS najczęściej odczytuje mowę, średnia liczba błędów w zbiorze PELCRA jest dwukrotnie większa.

Rodzaj

Najlepszy system

Współczynnik błędów słów [%] (BIGOS)

Współczynnik błędów słów [%] (PELCRA)

Wolny

Whisper Duży

8,38%

23,4%

Komercyjne

Whisper Chmura

10,05%

23,5%

Zaobserwowaliśmy również, że swobodnie dostępne modele z rodziny Whisper dużych i średnich rozmiarów oferują porównywalną dokładność do komercyjnych usług Google i Microsoft, w przeciwieństwie do darmowych modeli, takich jak Nemo, MMS, Wav2Vec oferują subparową dokładność.

Zapraszamy do zapoznania się z pełnymi wynikami. Hugging Face dashboard

Nasza wizja i kolejne kroki

Rozpoznajemy następujące ograniczenia BIGOS i PAL:

Wpływ jakości danych na wiarygodność: Pomimo naszych starań, aby zachować otwarte dane, nadal istnieją nagrania i transkrypcje o niższej jakości. Nieustannie udoskonalamy zawartość korpusów BIGOS, aby wyeliminować takie przykłady z testów.

Reprezentatywność danych dla rzeczywistych przypadków: Otwarte zbiory danych stają się z czasem przestarzałe. Biorąc pod uwagę zmieniające się przypadki użycia ASR i grupy docelowe, aby tablica wyników ASR pozostała reprezentatywna dla rzeczywistych możliwości technologii ASR, konieczne jest systematyczne dodawanie nowych zbiorów danych, a także analizowanie wydajności ASR w różnych wymiarach społeczno-demograficznych.

Ryzyko wycieku: Ponieważ korpusy BIGOS pochodzą z zasobów publicznych, istnieje ryzyko, że oceniane systemy zostały przeszkolone na podstawie danych testowych. W związku z tym konieczne jest uwzględnienie zestawów testów nieujawniających danych zebranych dla scenariuszy nieobjętych otwartymi zbiorami danych lub specyficznymi wnioskowanymi przez użytkowników PAL. Utrzymywanie nowych zestawów testowych jako prywatnych zapobiega zanieczyszczeniu zestawu testowego i zapewnia bardziej sprawiedliwe ramy porównawcze.

Ograniczone wsparcie językowe: Obecnie zakres BIGOS i PAL jest ograniczony do języka polskiego. Uważamy, że zastosowanie ustalonego procesu kuracji danych w innych językach znacznie obniżyłoby całkowity koszt dostarczenia kompleksowego benchmarku ASR, ale nie wyeliminowałoby całkowicie kosztownych etapów przygotowania danych.

Planujemy zająć się powyższymi ograniczeniami, aby stać się zaufanym zasobem powszechnie uznawanym przez wielu. Poprzez włączenie różnych benchmarków, które mają silną korelację z rzeczywistymi przypadkami użycia, staramy się, aby tablica liderów była pomocna dla firm. Dążymy do wypełnienia luki między badaniami akademickimi a praktycznym zastosowaniem, i będzie stale aktualizować i ulepszać ranking, poprzez informacje zwrotne zarówno od społeczności badawczej, jak i praktyków branżowych, aby zapewnić, że benchmarki pozostają rygorystyczne, kompleksowe i aktualne.

Dzięki tym wysiłkom mamy nadzieję przyczynić się do rozwoju tej dziedziny, dostarczając platformę, która precyzyjnie mierzy i napędza postęp ASR w języku polskim i nie tylko.

Jeśli opracowujesz systemy ASR lub zestawy danych mowy i chciałbyś z nami współpracować w tym zakresie, napisz do nas!

Opiekun korpusu

Michał Juńczyk

Autorzy korpusów źródłowych

Licencja

Creative Commons (Creative Commons By Attribution Share Alike 4.0 license.)