Tiempo dinámico deformando para el reconocimiento de voz

¿Qué es DTW en el reconocimiento de voz??
¿Por qué es útil la deformación de tiempo dinámico??
¿Cómo funciona el algoritmo DTW??

¿Qué es DTW en el reconocimiento de voz??

DTW es un método para medir la similitud de un patrón con diferentes zonas horarias. Cuanto menor es la distancia producida, más similar entre los dos patrones de sonido. Ambos patrones de sonido son similares, por lo que se dice que las dos voces son las mismas.

¿Por qué es útil la deformación de tiempo dinámico??

La deformación de tiempo dinámico se utiliza para comparar la similitud o calcular la distancia entre dos matrices o series de tiempo con diferente longitud. Como hacer eso? Una forma obvia es combinar A y B de manera 1 a 1 y resumir la distancia total de cada componente.

¿Cómo funciona el algoritmo DTW??

Dynamic Time Warpping (DTW) es un algoritmo de alineación de series de tiempo desarrolladas originalmente para el reconocimiento de voz⁽¹⁾. Su objetivo es alinear dos secuencias de vectores de características al deformar el eje de tiempo iterativamente hasta que se encuentra una coincidencia óptima (según una métrica adecuada) entre las dos secuencias.