Data publikacji w serwisie: 15 kwietnia 2026 r.

Czy AI naprawdę rozumie dźwięk? Wyniki mówią jasno

Dzisiejsze modele AI nadal mają duży problem z prawdziwym zrozumieniem audio.

Nasza doktorantka Iwona Christop pokazała to na EACL 2026 w Rabacie, jednej z najważniejszych konferencji w obszarze NLP.

Iwona zajmuje się na UAM przetwarzaniem audio i ewaluacją modeli multimodalnych. W Rabacie prezentowała pracę o nowym zestawie testowym (benchmarku), którego jest współautorką.

Został on stworzony do oceny tego, czy modele multimodalne naprawdę potrafią rozumować na podstawie nagrań audio, a nie tylko dobrze wypadają na prostych, wąskich testach.

Benchmark ART (Audio Reasoning Tasks) został przygotowany tak, by sprawdzać bardziej złożone rozumowanie na dźwięku, a nie jedynie pojedyncze zadania w izolacji.

Najmocniejszy wniosek?

To, co jest stosunkowo proste dla ludzi, dla sztucznej inteligencji nadal jest trudne.

W teście wymagającym udzielania odpowiedzi "Tak/Nie" na złożone pytania dotyczące nagrań audio (łączących mowę i odgłosy otoczenia), ludzcy testerzy osiągnęli niemal 93% skuteczności.

Z kolei najlepsze z badanych modeli (m.in. Audio Flamingo 3, Qwen2-Audio czy Ultravox) osiągnęły wyniki na poziomie około 55% – co przy odpowiedziach "Tak/Nie" oznacza, że radzą sobie niewiele lepiej niż przy losowym zgadywaniu.

To ważny sygnał: dziś łatwo zachwycić się wysokimi wynikami w podstawowych testach, ale nie oznaczają one jeszcze, że model naprawdę „rozumie” dźwięk.

To także przykład współpracy nauki z biznesem. Praca powstała we współpracy Uniwersytet im. Adama Mickiewicza w Poznaniu z Samsung Electronics Polska

Takie badania mają znaczenie nie tylko dla świata akademickiego. W praktyce dotyczą każdego obszaru, w którym rozwijane są rozwiązania voice AI, multimodalni asystenci czy systemy, które powinny umieć zrobić coś więcej niż samą transkrypcję.

Jeśli chcesz rozmawiać o AI opartym na realnym rozumieniu danych, a nie tylko o modnych hasłach, porozmawiajmy.

Autorzy benchmarku ART:

Iwona Christop, Mateusz Czyżnikiewicz, Paweł Skórzewski, Łukasz Bondaruk, Jakub Kubiak, Marcin Lewandowski, Marek Kubis

Czy AI naprawdę rozumie dźwięk? Wyniki mówią jasno

Galeria