“Mis datos no son normales”

Cuando empezamos el análisis de un conjunto de datos, uno de los primeros pasos es la realización de un test de normalidad para saber si estamos en presencia de una distribución normal. En MINITAB, este test de normalidad se presenta mediante un diagrama de probabilidad (probability plot) en el cual se ve reflejada la recta de Henry y unos parámetros que nos ayudan a decidir si podemos aceptar, o no, la hipótesis de normalidad de los datos (el famoso p-valor o p-value superior a 0,05).

El hecho de encontrarse en presencia de una distribución normal nos ofrece un abanico de herramientas estadísticas de fácil comprensión y manejo.

¿Y si los datos no son normales????

Lo primero de todo es preguntarse porqué no lo son. Si estamos trabajando con unos datos que deberían seguir una distribución normal, lo primero de todo es investigar esta falta de normalidad. Me encuentro demasiadas veces con este comentario:

“Mis datos no son normales por lo que tendríamos que transformarlos mediante una transformación BOX COX o de Jonhson”.

Me gustaría que hagamos un juego. En cada uno de los diagramas de probabilidad presentados a continuación, la aparente “falta de normalidad” tiene su explicación.

Recta de Henry - Diagrama de probabilidad

Os propongo que vayáis juntando los puntos siguientes con cada uno de los gráficos:

  1. Caso Bimodal (2 turnos o 2 maquinas o 2…)
  2. Caso de un dato erróneo al entrar los datos en la base de datos.
  3. Caso de distintas cavidades de un molde de inyección
  4. Caso de falta de resolución del aparato de medición

Os dejo descubrir lo que esconden estas rectas de Henry y os invito a compartir vuestra respuesta poniendo un comentario en este post. ¡A ver si acertáis! 🙂

Hasta Pronto

Sandrine

Tags: ,

59 Responses to ““Mis datos no son normales””

  1. sandrine says:

    Hola
    Un minimo de 50
    Sandrine

  2. sandrine says:

    Hola Piter
    con plot de dispersación, te refieres a un diagrama de probabilidad??
    Si te encuentras como en el caso 3 del post (minimo 5 grupos alineados y centrados en la recta de Henry), podrías aceptar la normalidad de tus datos.
    No recomiendo la utilización de transformaciones cuando los datos, por naturaleza, deberían ajustarse a una distribución normal
    Espero haberte ayudado
    Sandrine

  3. CHRISTIAN BRAVO says:

    1) TIENES QUE REALIZAR UN TEST DE NORMALIDAD PARA CADA SUBGRUPO (ES DECIR, UNO PARA MAQ 1 Y UNO PARA MAQ. 2.

    2) ELIMINAR VALOR ATIPO Y REALIZAR ESTUDIO NUEVAMENTE.

    3) HACER UNA PRUEBA DE NORMALIDAD PARA CADA CAVIDAD DEL MOLDE Y POSTERIORMENTE REALIZAR UNA ANOVA PARA DETERMINAR SI EXISTE DIFERENCIA SIGNIFICATIVA ENTRE CAVIDADES, ES DECIR TU VARIACIÓN ES PROVENIENTE DE LOS SUBGRUPOS.

    4) REALIZAR ESTUDIO CON EQUIPO DE MEDICIÓN ACEPTABLE MEDIANTE LA VALIDACIÓN DE UN GR&R, ADEMAS CABE MENCIONAR QUE AL TENER POCA RESOLUCIÓN EL INSTRUMENTO MANEJARA INTERVALOS DE DATOS MUY ALEJANDOS UNO RESPECTO A OTRO.

    SALUDOS.

  4. Lyanne says:

    Hola Sandrine:

    Quiero comparar la población de un ave en dos diferentes temporadas del año, en cada temporada realice conteos semanales, es decir tengo 8 conteos de la primera temporada y 8 de la segunda temporada. Que prueba puedo usar? Mis datos no son normales pues en unos cuantos censos los valores son 0.

    Muchas Gracias

  5. Caroline says:

    Hola Sandrine,

    Estoy realizando mi tesis y mi diseño es una Arreglo Factorial en DCA. Mi variable a medir es concentración de cobre en el suelo luego de aplicado un compuesto de fósforo. Mi 1er factor es tipo de suelo (tengo 4 suelos) y el 2do es concentración de fósforo (5 concentraciones). Cada tratamiento tiene 3 repeticiones.

    Cuando analizo la normalidad (anderson-darling) de mis datos por tratamiento obtengo q todas son normales; pero cuando analizo la normalidad de todos mis datos en conjunto me sale que es NO normal (la gráfica me sale con forma de bumeran). ¿Existe una razón probable para que pase esto?
    En caso necesite transformar mis datos, ¿como sé que tipo de transformación es mas adecuada?

  6. sandrine says:

    Hola Caroline

    Me es un poco dificil contestarte sin ver los datos. No obstante, por lo que explicas, parece ser un tema de estratificaciones. La combinación de factores provoca resultados de tratamientos diferentes. Esto significa que habrás encontrado alguna combinación que funccione mejor. Puedes aplicar los contrastes de hipotesis para averiguarlo o utilizar el analisis de tu matriz de diseño.

    Espero haberte ayudado

    Sandrine

  7. sandrine says:

    Hola Lyanne

    Primero, tu tamaño de muestra es insuficiente para poder hacer un contraste de hipotesis que te resulte util.

    En este caso, lo más seguro es que deberas utilizar un test no parametricos.

    Sandrine

  8. sandrine says:

    Así es 😉

  9. sandrine says:

    Hola Dolany

    Inventarios, tiempo de reparación de averías de maquinas, rugosidad, planitud,… no se ajustan a una distribución normal.

    Piensa en como sería el histograma de estas caracteristicas y entenderás porque es normal que no se ajusten a la curva de Gauss

    Sandrine

Deja un comentario