“Mis datos no son normales”

Cuando empezamos el análisis de un conjunto de datos, uno de los primeros pasos es la realización de un test de normalidad para saber si estamos en presencia de una distribución normal. En MINITAB, este test de normalidad se presenta mediante un diagrama de probabilidad (probability plot) en el cual se ve reflejada la recta de Henry y unos parámetros que nos ayudan a decidir si podemos aceptar, o no, la hipótesis de normalidad de los datos (el famoso p-valor o p-value superior a 0,05).

El hecho de encontrarse en presencia de una distribución normal nos ofrece un abanico de herramientas estadísticas de fácil comprensión y manejo.

¿Y si los datos no son normales????

Lo primero de todo es preguntarse porqué no lo son. Si estamos trabajando con unos datos que deberían seguir una distribución normal, lo primero de todo es investigar esta falta de normalidad. Me encuentro demasiadas veces con este comentario:

“Mis datos no son normales por lo que tendríamos que transformarlos mediante una transformación BOX COX o de Jonhson”.

Me gustaría que hagamos un juego. En cada uno de los diagramas de probabilidad presentados a continuación, la aparente “falta de normalidad” tiene su explicación.

Recta de Henry - Diagrama de probabilidad

Os propongo que vayáis juntando los puntos siguientes con cada uno de los gráficos:

  1. Caso Bimodal (2 turnos o 2 maquinas o 2…)
  2. Caso de un dato erróneo al entrar los datos en la base de datos.
  3. Caso de distintas cavidades de un molde de inyección
  4. Caso de falta de resolución del aparato de medición

Os dejo descubrir lo que esconden estas rectas de Henry y os invito a compartir vuestra respuesta poniendo un comentario en este post. ¡A ver si acertáis! :-)

Hasta Pronto

Sandrine

About the author

sandrine Consultora Senior Master Black Belt 6 Sigma y Lean especializada en la aplicación de la metodología DMAIC de 6 Sigma y los principios del Lean Manufacturing. Amplia experiencia en distintos sectores (automoción, farmaceútico, químico, aeronautica,...). Sandrine Santiago

Tags: ,

8 Responses to ““Mis datos no son normales””

  1. Sofía says:

    Actualmente deseo realizar una prueba de hipotesis para problar que una de las dimensiones de las piezas plasticas( moldeo por inyecion, 30 cavidades por molde, 3 moldes) se encuentra por debajo de la especificacion pero mis datos no son normales, que hago?

  2. sandrine says:

    Hola Sofía

    La verdad es que sin ver los datos, me parece un poco dificil contestarte. Lo primero que podrías comprobar es si la falta de normalidad que observas viene de un factor de estratificación. Dicho de otra manera: ¿Obtienes normalidad de los datos si agrupas los datos por molde o por cavidad?

    Por otra parte, los contraste de hipotesis suelen ser bastante robusto a la falta de normalidad, sobre todo si tienes una muestra suficiente de datos.

    Espero haberte ayudado un poco

    Sandrine

  3. Ale says:

    Hola:

    Estoy realizando el tratamiento estadístico de unos datos para un estudio de capacidad de procesos.
    Lo que sucede es que cuando realizo una prueba de normalidad para determinar si mi muestra tiene distibución normal, me ocurre algo parecido a la gráfica del 3er gráfico que publicaste.
    Por lo mismo, quería hacerte la siguiente consulta: ¿Me puedes recomendar libros para comprender cómo interpretar estos gráficos?
    Otra consulta, tengo entendido que si el valor de la prueba de Anderson-Darling (AD) es menor a 1,035 (10% significancia) la distribución es normal. ¿Qué pasa si mi valor de AD es de 0,801 y el p-value es 0,031 (o sea, menor a 0,05): es distribución normal o no?

    Desde ya muchas gracias por tu ayuda.

  4. sandrine says:

    Hola Ale

    El primer gráfico representado proviene de una mezcla de datos. En realidad se mira la misma caracteristica pero con datos procesdentes de 3 moldes diferentes. Si estratificamos (es decir separamos) los datos por grupo (molde), veríamos que los datos se ajustan a una distribución normal.
    En caso de no normalidad de los datos, y si sabes que por naturaleza estos datos deberían de ajustarse a una normal, te tienes que hacer, principalmente, las preguntas siguientes:
    1: ¿Existe algún elemento de estratificación (puede ser diferentes máquinas, operarios o cambios en el proceso,…)?
    2: Existe un redondeo o falta de resolución del aparato
    3: ¿Existe algún dato anómalo?

    Por otra parte, el criterio de aceptación que solemos utilizar es: p-valor>0.05 –> podemos decir que los datos se ajustan a una distribución normal con un 95% de confianza

    No conozco ningun libro que aborde este tipo de problemas pero estamos preparando un curso on line sobre el test de normalidad. Te propongo que te registres en http://www.caletectiendaonline.com para mantenerte informado de cuando estará punblicado

    Espero haberte ayudado

    Sandrine

  5. Ana Maria says:

    Buen dia, me encuentro trabajando con unos datos dados en microgramos/mililitro, y desafortunada mente, ya he probado las transformaciones de: Box-cox,raiz cuadrada, aseno de la raiz, Ln, l en base 10 y 1/x…… Aun no he podido normalizarlos y tambien ya hice los test de lillie, bartlett y shapiro.

    Que mas puedo hacer???

    Gracias!!

  6. sandrine says:

    Hola Ana Maria

    En primer lugar, piensa que si tus datos por naturaleza debería de seguir una distribución normal, tienes que investigar la razón del porqué no es así antes de intentar aplicar cualquier transformación. Lo que te puede ayudar en tu investigación es lo siguiente:

    –> Datos pocos comunes o comportamiento no aleatorio (miralo con un gráfico cronológico o uno de control)
    –> Elementos de estratificación (por operador, por …)
    –> Redondeo o resolución del sistema de medida

    Sería como un primer paso

    Espero haberte ayudado

    Sandrine

  7. Pablo says:

    Hola.
    Tengo que analizar una serie de datos que provienen del ángulo de inclinación foliar resultado de la competencia por luz de las plantas. Los datos provienen de un experimento factorial en el cual los tres niveles de tratamiento generan diferentes ángulos en las plantas. El problema es que el primer tratamiento, en el cual no hay competencia, todos los ángulos son 0. Cuando veo la distribución de los datos, en un gráfico q-q plot, veo que casi un 30% de los datos corresponden a valor 0, la distribución me da no normal y no puedo transformarla, ya que cualquier fórmula que use no modificará los datos alineados en 0. ¿Qué puedo hacer? Gracias

  8. sandrine says:

    Hola Pablo
    La verdad es que sin ver como se planteó el experimento, me es un poco complicado responderte. El caso es que midiendo un ángulo, entiendo que el “0″ corresponde a “No hubo efecto de la luz sobre las plantas”. Si quieres que te ayude con este caso, te propongo que entres en http://www.caletectiendaonline.com/consultoria-online/29-6-sigma-a-distancia.html para una consultoría a distancia.
    Saludos cordiales
    Sandrine

Deja un comentario