Reconocimiento de voz - MFCC | Howtosignalprocessing

¿Qué es MFCC en el reconocimiento de voz??
¿Para qué se usa MFCC??
¿Cuáles son las características de MFCC??
¿Por qué es tan popular MFCC??

¿Qué es MFCC en el reconocimiento de voz??

Coeficientes de cepstrum de Mel-Frequency (MFCC)

En el modelo de habla de origen de origen, se entiende que MFCC representa el filtro (tracto vocal). La respuesta de frecuencia del tracto vocal es relativamente suave, mientras que la fuente del habla expresa se puede modelar como un tren de impulso.

¿Para qué se usa MFCC??

Los MFCC se usan comúnmente como características en los sistemas de reconocimiento de voz, como los sistemas que pueden reconocer automáticamente los números hablados en un teléfono. Los MFCC también encuentran cada vez más usos en aplicaciones de recuperación de información musical, como clasificación de género, medidas de similitud de audio, etc.

¿Cuáles son las características de MFCC??

La técnica de extracción de características de MFCC básicamente incluye ventana la señal, aplicar el DFT, tomar el registro de la magnitud y luego deformar las frecuencias en una escala MEL, seguido de la aplicación del DCT inverso. La descripción detallada de varios pasos involucrados en la extracción de características MFCC se explica a continuación.

¿Por qué es tan popular MFCC??

La técnica MFCC es la más popular, tiene un gran logro y se utiliza ampliamente en los sistemas de reconocimiento de altavoces y de voz [35, 36]. Se basa en una escala logarítmica y puede estimar la respuesta auditiva humana de una mejor manera que las otras técnicas de extracción de características cepstrales [37,38]. ...