¿Qué es sobremuestreo en Python??
El sobremuestreo aleatorio implica seleccionar aleatoriamente ejemplos de la clase minoritaria, con reemplazo, y agregarlos al conjunto de datos de capacitación. El subjuicio aleatorio implica seleccionar aleatoriamente ejemplos de la clase mayoritaria y eliminarlos del conjunto de datos de capacitación.
¿Cómo se exagera los datos??
Para luego sobremuestrar, tome una muestra del conjunto de datos y considere a sus k vecinos más cercanos (en el espacio de características). Para crear un punto de datos sintético, tome el vector entre uno de esos K vecinos y el punto de datos actual. Multiplique este vector por un número aleatorio X que se encuentra entre 0 y 1.
¿Cómo se eleva los datos en Python??
Puede mejorar un conjunto de datos simplemente copiando registros de clases minoritarias. Puede hacerlo a través del método REAMP () desde el sklearn. módulo utilizado, como se muestra en el siguiente script. Puede ver que en este caso, el primer argumento que aprobamos el método de resample () es nuestra clase minoritaria, yo.mi. nuestro conjunto de datos de spam.