- Se utiliza el aprendizaje profundo para el reconocimiento de voz?
- ¿Se pueden utilizar redes neuronales para el reconocimiento de voz??
- ¿Cuáles son las técnicas de mejora del habla??
- ¿Podemos usar RNN para el reconocimiento de voz??
Se utiliza el aprendizaje profundo para el reconocimiento de voz?
En la era del aprendizaje profundo, las redes neuronales han mostrado una mejora significativa en la tarea de reconocimiento de voz. Se han aplicado varios métodos, como redes neuronales convolucionales (CNN), redes neuronales recurrentes (RNN), mientras que las redes de transformadores recientemente han logrado un gran rendimiento.
¿Se pueden utilizar redes neuronales para el reconocimiento de voz??
Las redes neuronales son muy poderosas para el reconocimiento del habla. Hay varias redes para este proceso. RNN, LSTM, red neuronal profunda y HMM-LSTM híbrido se utilizan para el reconocimiento de voz.
¿Cuáles son las técnicas de mejora del habla??
Se han informado varias técnicas de mejora del habla en la literatura [32]. Incluyen sustracción espectral [33, 34, 41], filtrado de Wiener y Kalman [35], estimación MMSE [36], filtrado de peine [32], métodos subespaciales [37, 38] y compensación de espectro de fase [39, 40].
¿Podemos usar RNN para el reconocimiento de voz??
RNN parece ser más natural para el reconocimiento de voz que MLP porque permite la variabilidad en la longitud de entrada [17]. La motivación para aplicar una red neuronal recurrente a este dominio es aprovechar su capacidad para procesar características espectrales a corto plazo pero, sin embargo, responder a eventos temporales a largo plazo.