Mozilla Common Voice

#1

Cześć,

Mozilla wyszła z inicjatywą Common Voice https://voice.mozilla.org/pl - strona, na której społeczność danego kraju może nagrywać swój głos i weryfikować nagrania innych. Powstały w ten sposób zbiór danych jest później udostępniany na otwartej licencji. Taki zbiór jest bezcenny jeśli chcielbyśmy wytrenować model sieci neuronowej end2end w celu rozpoznawania mowy, np. dla języka polskiego. Można użyć. np. open-sourceowego silnika, również od Mozilli: DeepSpeech

Ostatnio nastąpił duży skok w liczbie nagranych godzin dla języka polskiego, co mnie bardzo cieszy. Smutne, chociaż zgodne z oczekiwaniami, jest to, że w problemach związanych z przetwarzaniem języka naturalnego i rozpoznawania mowy dominujące (jeśli chodzi o rozmiary zbiorów danych) języki to angielski, niemieski, chiński - fajnie jakby dla polskiego było tych danych więcej (chociaż dramatu też nie ma)

Zachęcam Was do obczajenia stronki, sam nawet wziąłem sie za weryfikacje nagrań. Pozdrowienia :slight_smile: