VOICE TO TEXT - WHISPER

Whisper, el nou model de reconeixement i transcripció de la parla de l'equip de OpenAI és un model totalment lliure i el van publicar el 21 de setembre de 2022

És un model de ASR (Automatic Speech Recognition) entrenat amb 680,000 hores de diferents àudios en múltiples llenguatges i múltiples accents. D'aquesta manera, Whisper amb una arquitectura de transformers és capaç de detectar l'idioma en el qual qualsevol persona parla i passar aquest àudio a text en la mateixa llengua o completament traduït en una altra.

A més, Whisper, com molts altres models, compta amb diferents versions per al seu ús. Aquestes versions canvien en la quantitat de paràmetres que tenen i, per descomptat, el pes de cada model en grandària és afectat per la quantitat de paràmetres amb els quals va ser entrenat, de manera que a més paràmetres mes pes el model i mes recursos requereix.

Models i idiomes disponibles

Hi ha cinc grandàries de models, quatre amb versions només en anglès, que ofereixen avantatges i desavantatges de velocitat i precisió. A continuació es mostren els noms dels models disponibles i els seus requisits aproximats de memòria i velocitat relativa.

Tamany Paràmetres Model només en anglés Model multilingüe VRAM requerida Velocitat relativa
diminut 39 milions tiny.en tiny ~1GB ~32x
base 74 milions base.en base ~1GB ~16x
petit 244 milions small.en small ~2 GB ~6x
mijà 769 milions medium.en medium ~5GB ~2x
gran 1550 M N / A large ~10GB 1x

 

Com funciona Whisper per a l'espanyol i català?

La resposta és, aparentment molt bé, els següents són els resultats amb el model més robust, en el qual mesuren el WER (word error rate) que mesura el rendiment en la sortida del text i la referència del script.

Recursos Whisper


Web oficial Whisper
Github Whisper - Documentació i descarrega
Provar una demo a Huggingface
Executar Whisper amb Google Colab
Executar Whisper amb Softcatalà.com (Àudio o vídeo)
Whisper, el OÍDO más POTENTE de la Inteligencia Artificial
2024 © Salesians Sarrià - Espai Escola.