- ¿Por qué usamos DCT en MFCC??
- ¿Qué extrae MFCC??
- ¿Cuál es la salida de MFCC??
- ¿Cómo se usa MFCC en el reconocimiento de voz??
¿Por qué usamos DCT en MFCC??
DCT es el último paso del proceso principal de extracción de características MFCC. El concepto básico de DCT es correlacionar el valor del espectro MEL para producir una buena representación de la propiedad Spectral Local. Básicamente, el concepto de DCT es el mismo que la transformación inversa de Fourier.
¿Qué extrae MFCC??
La técnica de extracción de características de MFCC básicamente incluye ventana la señal, aplicar el DFT, tomar el registro de la magnitud y luego deformar las frecuencias en una escala MEL, seguido de la aplicación del DCT inverso.
¿Cuál es la salida de MFCC??
La salida después de aplicar MFCC es una matriz que tiene vectores de características extraídos de todos los marcos. En esta matriz de salida, las filas representan los números de cuadro correspondientes y las columnas representan coeficientes de vectores de características correspondientes [1-4]. Finalmente, esta matriz de salida se utiliza para el proceso de clasificación.
¿Cómo se usa MFCC en el reconocimiento de voz??
MFCC son características populares extraídas de señales de habla para su uso en tareas de reconocimiento. En el modelo de habla de origen de origen, se entiende que MFCC representa el filtro (tracto vocal). La respuesta de frecuencia del tracto vocal es relativamente suave, mientras que la fuente del habla expresa se puede modelar como un tren de impulso.