VOICE TO TEXT - INTEL·LIGÈNCIA ARTIFICIAL

VOICE TO TEXT - WHISPER

Whisper, el nou model de reconeixement i transcripció de la parla de l'equip de OpenAI és un model totalment lliure i el van publicar el 21 de setembre de 2022

És un model de ASR (Automatic Speech Recognition) entrenat amb 680,000 hores de diferents àudios en múltiples llenguatges i múltiples accents. D'aquesta manera, Whisper amb una arquitectura de transformers és capaç de detectar l'idioma en el qual qualsevol persona parla i passar aquest àudio a text en la mateixa llengua o completament traduït en una altra.

A més, Whisper, com molts altres models, compta amb diferents versions per al seu ús. Aquestes versions canvien en la quantitat de paràmetres que tenen i, per descomptat, el pes de cada model en grandària és afectat per la quantitat de paràmetres amb els quals va ser entrenat, de manera que a més paràmetres mes pes el model i mes recursos requereix.

Models i idiomes disponibles

Hi ha cinc grandàries de models, quatre amb versions només en anglès, que ofereixen avantatges i desavantatges de velocitat i precisió. A continuació es mostren els noms dels models disponibles i els seus requisits aproximats de memòria i velocitat relativa.

Tamany	Paràmetres	Model només en anglés	Model multilingüe	VRAM requerida	Velocitat relativa
diminut	39 milions	`tiny.en`	`tiny`	~1GB	~32x
base	74 milions	`base.en`	`base`	~1GB	~16x
petit	244 milions	`small.en`	`small`	~2 GB	~6x
mijà	769 milions	`medium.en`	`medium`	~5GB	~2x
gran	1550 M	N / A	`large`	~10GB	1x

Com funciona Whisper per a l'espanyol i català?

La resposta és, aparentment molt bé, els següents són els resultats amb el model més robust, en el qual mesuren el WER (word error rate) que mesura el rendiment en la sortida del text i la referència del script.

Recursos Whisper

Web oficial Whisper

Github Whisper - Documentació i descarrega

Provar una demo a Huggingface

Executar Whisper amb Google Colab

Executar Whisper amb Softcatalà.com (Àudio o vídeo)

Whisper, el OÍDO más POTENTE de la Inteligencia Artificial