“Mis datos no son normales”

Cuando empezamos el análisis de un conjunto de datos, uno de los primeros pasos es la realización de un test de normalidad para saber si estamos en presencia de una distribución normal. En MINITAB, este test de normalidad se presenta mediante un diagrama de probabilidad (probability plot) en el cual se ve reflejada la recta de Henry y unos parámetros que nos ayudan a decidir si podemos aceptar, o no, la hipótesis de normalidad de los datos (el famoso p-valor o p-value superior a 0,05).

El hecho de encontrarse en presencia de una distribución normal nos ofrece un abanico de herramientas estadísticas de fácil comprensión y manejo.

¿Y si los datos no son normales????

Lo primero de todo es preguntarse porqué no lo son. Si estamos trabajando con unos datos que deberían seguir una distribución normal, lo primero de todo es investigar esta falta de normalidad. Me encuentro demasiadas veces con este comentario:

“Mis datos no son normales por lo que tendríamos que transformarlos mediante una transformación BOX COX o de Jonhson”.

Me gustaría que hagamos un juego. En cada uno de los diagramas de probabilidad presentados a continuación, la aparente “falta de normalidad” tiene su explicación.

Recta de Henry - Diagrama de probabilidad

Os propongo que vayáis juntando los puntos siguientes con cada uno de los gráficos:

  1. Caso Bimodal (2 turnos o 2 maquinas o 2…)
  2. Caso de un dato erróneo al entrar los datos en la base de datos.
  3. Caso de distintas cavidades de un molde de inyección
  4. Caso de falta de resolución del aparato de medición

Os dejo descubrir lo que esconden estas rectas de Henry y os invito a compartir vuestra respuesta poniendo un comentario en este post. ¡A ver si acertáis! :-)

Hasta Pronto

Sandrine

About the author

sandrine Consultora Senior Master Black Belt 6 Sigma y Lean especializada en la aplicación de la metodología DMAIC de 6 Sigma, los principios del Lean Manufacturing y la filosofía Kaizen. Amplia experiencia en distintos sectores (Automoción, Farmaceútico, Eléctrico, Electrónico, Químico, Aeronautica,...). Sandrine Santiago

Tags: ,

20 Responses to ““Mis datos no son normales””

  1. Sofía says:

    Actualmente deseo realizar una prueba de hipotesis para problar que una de las dimensiones de las piezas plasticas( moldeo por inyecion, 30 cavidades por molde, 3 moldes) se encuentra por debajo de la especificacion pero mis datos no son normales, que hago?

  2. sandrine says:

    Hola Sofía

    La verdad es que sin ver los datos, me parece un poco dificil contestarte. Lo primero que podrías comprobar es si la falta de normalidad que observas viene de un factor de estratificación. Dicho de otra manera: ¿Obtienes normalidad de los datos si agrupas los datos por molde o por cavidad?

    Por otra parte, los contraste de hipotesis suelen ser bastante robusto a la falta de normalidad, sobre todo si tienes una muestra suficiente de datos.

    Espero haberte ayudado un poco

    Sandrine

  3. Ale says:

    Hola:

    Estoy realizando el tratamiento estadístico de unos datos para un estudio de capacidad de procesos.
    Lo que sucede es que cuando realizo una prueba de normalidad para determinar si mi muestra tiene distibución normal, me ocurre algo parecido a la gráfica del 3er gráfico que publicaste.
    Por lo mismo, quería hacerte la siguiente consulta: ¿Me puedes recomendar libros para comprender cómo interpretar estos gráficos?
    Otra consulta, tengo entendido que si el valor de la prueba de Anderson-Darling (AD) es menor a 1,035 (10% significancia) la distribución es normal. ¿Qué pasa si mi valor de AD es de 0,801 y el p-value es 0,031 (o sea, menor a 0,05): es distribución normal o no?

    Desde ya muchas gracias por tu ayuda.

  4. sandrine says:

    Hola Ale

    El primer gráfico representado proviene de una mezcla de datos. En realidad se mira la misma caracteristica pero con datos procesdentes de 3 moldes diferentes. Si estratificamos (es decir separamos) los datos por grupo (molde), veríamos que los datos se ajustan a una distribución normal.
    En caso de no normalidad de los datos, y si sabes que por naturaleza estos datos deberían de ajustarse a una normal, te tienes que hacer, principalmente, las preguntas siguientes:
    1: ¿Existe algún elemento de estratificación (puede ser diferentes máquinas, operarios o cambios en el proceso,…)?
    2: Existe un redondeo o falta de resolución del aparato
    3: ¿Existe algún dato anómalo?

    Por otra parte, el criterio de aceptación que solemos utilizar es: p-valor>0.05 –> podemos decir que los datos se ajustan a una distribución normal con un 95% de confianza

    No conozco ningun libro que aborde este tipo de problemas pero estamos preparando un curso on line sobre el test de normalidad. Te propongo que te registres en http://www.caletectiendaonline.com para mantenerte informado de cuando estará punblicado

    Espero haberte ayudado

    Sandrine

  5. Ana Maria says:

    Buen dia, me encuentro trabajando con unos datos dados en microgramos/mililitro, y desafortunada mente, ya he probado las transformaciones de: Box-cox,raiz cuadrada, aseno de la raiz, Ln, l en base 10 y 1/x…… Aun no he podido normalizarlos y tambien ya hice los test de lillie, bartlett y shapiro.

    Que mas puedo hacer???

    Gracias!!

  6. sandrine says:

    Hola Ana Maria

    En primer lugar, piensa que si tus datos por naturaleza debería de seguir una distribución normal, tienes que investigar la razón del porqué no es así antes de intentar aplicar cualquier transformación. Lo que te puede ayudar en tu investigación es lo siguiente:

    –> Datos pocos comunes o comportamiento no aleatorio (miralo con un gráfico cronológico o uno de control)
    –> Elementos de estratificación (por operador, por …)
    –> Redondeo o resolución del sistema de medida

    Sería como un primer paso

    Espero haberte ayudado

    Sandrine

  7. Pablo says:

    Hola.
    Tengo que analizar una serie de datos que provienen del ángulo de inclinación foliar resultado de la competencia por luz de las plantas. Los datos provienen de un experimento factorial en el cual los tres niveles de tratamiento generan diferentes ángulos en las plantas. El problema es que el primer tratamiento, en el cual no hay competencia, todos los ángulos son 0. Cuando veo la distribución de los datos, en un gráfico q-q plot, veo que casi un 30% de los datos corresponden a valor 0, la distribución me da no normal y no puedo transformarla, ya que cualquier fórmula que use no modificará los datos alineados en 0. ¿Qué puedo hacer? Gracias

  8. sandrine says:

    Hola Pablo
    La verdad es que sin ver como se planteó el experimento, me es un poco complicado responderte. El caso es que midiendo un ángulo, entiendo que el “0″ corresponde a “No hubo efecto de la luz sobre las plantas”. Si quieres que te ayude con este caso, te propongo que entres en http://www.caletectiendaonline.com/consultoria-online/29-6-sigma-a-distancia.html para una consultoría a distancia.
    Saludos cordiales
    Sandrine

  9. Michelle says:

    Hola tengo una pregunta para la implementacion de una metodologia Seis Sigma al momento de analizar los datos, conozco que los datos con los que se trabaje deberian de ser normales. que pasa si no lo son? tengo que estudiar el proceso?

  10. sandrine says:

    Hola Michelle

    Las 3 grandes fuentes de no-normalidad de unos datos que, por naturaleza, deberían serlo son:

    * Algún elemento de estratificación (se puede desagrupar por turno, cavidad de un molde, tipo de cliente,…)
    * Distorsión provocada por el proceso de medida (habría que hacer un estudio R&R e investigar el proceso de medida en función del resultado obtenido)
    * Resolución del sistema de medida o redondeo (lo verías si ves agrupaciones de puntos en el diagrama de probabilidad

    No se trata de una lista exhaustiva pero serían las principales razones que me encuentro.

    Espero haberte ayudado.

    Sandrine

  11. Javier says:

    Hola, actualmente hemos creado en un proyecto de medición de presiones. Pero lamentablemente nuestros datos no probaron ser normales. Alguna manera de maquillar los datos de forma que sean normales. Muchas gracias por su respuesta.

  12. Laura Vargas says:

    Hola,

    Estoy trabajando analisis de capacidad de datos de Laboratorio y fabricación de formas farmaceuticas, y en varios casos he encontrado que los datos no son normales, revisando la información que usted postea, he encontrado que mis graficas de normalidad, son muy parecidas a mis resultaodos, sin embargo no me queda muy claro si cada grafico mostrado corresponde con la causa descrita abajo en ese orden?, me gustaria saber, para saber que mas puedo hacer con mis datos.

    Saludos.

    Me puede decir si da cursos de estadistica on-line,estoy interesada.

    gracias

  13. sandrine says:

    Hola Javier

    En realidad, no se trata nunca de maquillar los datos para que se ajusten a una distribución normal sino encontrar la razón por la cual no se ajustan a esta distribución. El hecho de encontrar la fuente de la no normalidad te ayudará a entender y mejorar tu proceso.
    Algunas pistas:
    –> ¿Se pueden estratificar los datos (agrupar por las cavidades de un molde, varios turnos de trabajo, varias maquinas,…)?
    –> ¿Método de medida validado mediante un estudio R&R?
    –> ¿Redondeo de los datos o falta de resolución del aparato de medida?

    Espero haberte ayudado

    Sandrine

  14. sandrine says:

    Hola Laura

    Te doy la respuesta al juego que propuse en el post:
    Gráfico 1 –> respuesta 3
    Gráfico 2 –> respuesta 2
    Gráfico 3 –> respuesta 4
    Gráfico 4 –> respuesta 1

    Sandrine

  15. laura says:

    hola, buenas tardes, llevo ya un tiempo investigando esto pero no termino por concluir esta idea respecto a la distribucion normal, estoy realizando mi tesis y trabajo con datos de temperatura y precipitación. principalmente no entiendo que me representa la distribucion normal, digamos que puedo medir con ella, o que me implica tener una distribucion normal? y otra situación que tengo que no se si tu pudieras resolverme, es de que si mis datos no tienen distribucion normal, tiene alguna relación la distribucion normal con un diagrama de cajas y bigotes? osea el diagrama de cajas me podría representar o remplazar el significado de la distribucion?

  16. Oscar Borge says:

    Hola Sandrine, me parece muy interesante el blog, y las preguntas son todas muy acordes al tema desarrollado. Actualmente me encuentro planteando mi tesis de grado, la cual trata acerca de “DISEÑO ESTADÍSTICO DE CARTAS DE CONTROL CON DATOS NO NORMALES MEDIANTE LA TRANSFORMACIÓN DE JOHNSON Y BOX-BOX”.

    Quería que me dieras un consejo acerca de que tipo de empresa debo visitar, si estoy buscando que su proceso arroje datos que no sigan una distribución normal, ya que en internet no encuentro muy buenos ejemplos. Muchas gracias.

  17. sandrine says:

    Hola Laura

    El diagrama caja y bigote es una representación gráfica que te permite ver la “posición de tus datos” (a traves de la mediana) y la dispersión (a través del rango intercuartil). No te indica nada sobre la distribución de los datos. Necesitas saber si lo datos que recoges de temperatura y precipitación se ajustan a esta distribución porque, de ser así, podrás utilizar unas herramientas como por ejemplo los estudios de capacidad o bien calcular la probabilidad de tener datos superior a cierto valor, etc…

    Para entender lo que te representa la distibución normal, te remito a otro post de este blog: http://www.caletec.com/blog/6sigma/origen-de-la-distribucion-normal-su-historia/

    Espero haberte ayudado

    Sandrine

  18. sandrine says:

    Hola Oscar

    La verdad es que no sé como ayudarte. La empresas con las cuales trabajo suelen tener las cartas de control (SPC) para aquellas caracteristicas criticas de calidad (CTQ), o parametros de entrada de un proceso, que se ajustan, por naturaleza, a una distribución normal.

    No me he encontrado nunca hasta ahora con la necesidad de aplicar una transfomación de los datos para plasmarlos en una carta de control. Pero me interesa tu trabajo así que estamos en contacto.

    Saludos

    Sandrine

  19. Normal VS No-Normal says:

    Hola

    Q debo hacer cuando quiero buscar diferencias significativas entre diferentes poblaciones de datos y algunas de estas tienen una distribución normal y mientras q otras no.

  20. sandrine says:

    Hola Jorge

    Depende del tipo de falta de normalidad que tiene y si por naturaleza, estos datos deberían ajustarse a una normal.

    También decirte que los contrastes de hipótesis suelen ser bastante robustos a la falta de normalidad pero hay que tener cuidado en no sacar resultados erróneos por lo que vale la pena entender si es razonable o no.

    Si quieres que te mire tus datos, te propongo utilizar la opción de consultoría online que tenemos disponible en http://www.caleteconline.com/tienda/11-consultoria-online

    Saludos cordiales

    Sandrine

Deja un comentario