Cuantización de 4 bits tensorflow

¿Qué es el entrenamiento QAT??
¿Qué es la cuantización int8??
¿La cuantización reduce el tamaño del modelo??

¿Qué es el entrenamiento QAT??

La capacitación consciente de la capacitación consciente de cuantización (QAT) tiene como objetivo de capacitación para calcular los factores de escala durante la capacitación. Una vez que la red está completamente entrenada, se insertan los nodos de cuantificación (q) y desquantize (DQ) en el gráfico siguiendo un conjunto específico de reglas.

¿Qué es la cuantización int8??

La capacidad de reducir la precisión de un modelo de FP32 a INT8 está integrada en la aplicación DL Workbench. Este proceso se llama cuantización y es una gran práctica acelerar el rendimiento de ciertos modelos en hardware que admite INT8.

¿La cuantización reduce el tamaño del modelo??

La cuantización puede reducir el tamaño de un modelo en todos estos casos, potencialmente a expensas de cierta precisión. La poda y la agrupación pueden reducir el tamaño de un modelo para descargar haciéndolo más fácilmente compresible.