“Mis datos no son normales”

Cuando empezamos el análisis de un conjunto de datos, uno de los primeros pasos es la realización de un test de normalidad para saber si estamos en presencia de una distribución normal. En MINITAB, este test de normalidad se presenta mediante un diagrama de probabilidad (probability plot) en el cual se ve reflejada la recta de Henry y unos parámetros que nos ayudan a decidir si podemos aceptar, o no, la hipótesis de normalidad de los datos (el famoso p-valor o p-value superior a 0,05).

El hecho de encontrarse en presencia de una distribución normal nos ofrece un abanico de herramientas estadísticas de fácil comprensión y manejo.

¿Y si los datos no son normales????

Lo primero de todo es preguntarse porqué no lo son. Si estamos trabajando con unos datos que deberían seguir una distribución normal, lo primero de todo es investigar esta falta de normalidad. Me encuentro demasiadas veces con este comentario:

“Mis datos no son normales por lo que tendríamos que transformarlos mediante una transformación BOX COX o de Jonhson”.

Me gustaría que hagamos un juego. En cada uno de los diagramas de probabilidad presentados a continuación, la aparente “falta de normalidad” tiene su explicación.

Recta de Henry - Diagrama de probabilidad

Os propongo que vayáis juntando los puntos siguientes con cada uno de los gráficos:

  1. Caso Bimodal (2 turnos o 2 maquinas o 2…)
  2. Caso de un dato erróneo al entrar los datos en la base de datos.
  3. Caso de distintas cavidades de un molde de inyección
  4. Caso de falta de resolución del aparato de medición

Os dejo descubrir lo que esconden estas rectas de Henry y os invito a compartir vuestra respuesta poniendo un comentario en este post. ¡A ver si acertáis! :-)

Hasta Pronto

Sandrine

Tags: ,

40 Responses to ““Mis datos no son normales””

  1. Sofía says:

    Actualmente deseo realizar una prueba de hipotesis para problar que una de las dimensiones de las piezas plasticas( moldeo por inyecion, 30 cavidades por molde, 3 moldes) se encuentra por debajo de la especificacion pero mis datos no son normales, que hago?

  2. sandrine says:

    Hola Sofía

    La verdad es que sin ver los datos, me parece un poco dificil contestarte. Lo primero que podrías comprobar es si la falta de normalidad que observas viene de un factor de estratificación. Dicho de otra manera: ¿Obtienes normalidad de los datos si agrupas los datos por molde o por cavidad?

    Por otra parte, los contraste de hipotesis suelen ser bastante robusto a la falta de normalidad, sobre todo si tienes una muestra suficiente de datos.

    Espero haberte ayudado un poco

    Sandrine

  3. Ale says:

    Hola:

    Estoy realizando el tratamiento estadístico de unos datos para un estudio de capacidad de procesos.
    Lo que sucede es que cuando realizo una prueba de normalidad para determinar si mi muestra tiene distibución normal, me ocurre algo parecido a la gráfica del 3er gráfico que publicaste.
    Por lo mismo, quería hacerte la siguiente consulta: ¿Me puedes recomendar libros para comprender cómo interpretar estos gráficos?
    Otra consulta, tengo entendido que si el valor de la prueba de Anderson-Darling (AD) es menor a 1,035 (10% significancia) la distribución es normal. ¿Qué pasa si mi valor de AD es de 0,801 y el p-value es 0,031 (o sea, menor a 0,05): es distribución normal o no?

    Desde ya muchas gracias por tu ayuda.

  4. sandrine says:

    Hola Ale

    El primer gráfico representado proviene de una mezcla de datos. En realidad se mira la misma caracteristica pero con datos procesdentes de 3 moldes diferentes. Si estratificamos (es decir separamos) los datos por grupo (molde), veríamos que los datos se ajustan a una distribución normal.
    En caso de no normalidad de los datos, y si sabes que por naturaleza estos datos deberían de ajustarse a una normal, te tienes que hacer, principalmente, las preguntas siguientes:
    1: ¿Existe algún elemento de estratificación (puede ser diferentes máquinas, operarios o cambios en el proceso,…)?
    2: Existe un redondeo o falta de resolución del aparato
    3: ¿Existe algún dato anómalo?

    Por otra parte, el criterio de aceptación que solemos utilizar es: p-valor>0.05 –> podemos decir que los datos se ajustan a una distribución normal con un 95% de confianza

    No conozco ningun libro que aborde este tipo de problemas pero estamos preparando un curso on line sobre el test de normalidad. Te propongo que te registres en http://www.caletectiendaonline.com para mantenerte informado de cuando estará punblicado

    Espero haberte ayudado

    Sandrine

  5. Ana Maria says:

    Buen dia, me encuentro trabajando con unos datos dados en microgramos/mililitro, y desafortunada mente, ya he probado las transformaciones de: Box-cox,raiz cuadrada, aseno de la raiz, Ln, l en base 10 y 1/x…… Aun no he podido normalizarlos y tambien ya hice los test de lillie, bartlett y shapiro.

    Que mas puedo hacer???

    Gracias!!

  6. sandrine says:

    Hola Ana Maria

    En primer lugar, piensa que si tus datos por naturaleza debería de seguir una distribución normal, tienes que investigar la razón del porqué no es así antes de intentar aplicar cualquier transformación. Lo que te puede ayudar en tu investigación es lo siguiente:

    –> Datos pocos comunes o comportamiento no aleatorio (miralo con un gráfico cronológico o uno de control)
    –> Elementos de estratificación (por operador, por …)
    –> Redondeo o resolución del sistema de medida

    Sería como un primer paso

    Espero haberte ayudado

    Sandrine

  7. Pablo says:

    Hola.
    Tengo que analizar una serie de datos que provienen del ángulo de inclinación foliar resultado de la competencia por luz de las plantas. Los datos provienen de un experimento factorial en el cual los tres niveles de tratamiento generan diferentes ángulos en las plantas. El problema es que el primer tratamiento, en el cual no hay competencia, todos los ángulos son 0. Cuando veo la distribución de los datos, en un gráfico q-q plot, veo que casi un 30% de los datos corresponden a valor 0, la distribución me da no normal y no puedo transformarla, ya que cualquier fórmula que use no modificará los datos alineados en 0. ¿Qué puedo hacer? Gracias

  8. sandrine says:

    Hola Pablo
    La verdad es que sin ver como se planteó el experimento, me es un poco complicado responderte. El caso es que midiendo un ángulo, entiendo que el “0” corresponde a “No hubo efecto de la luz sobre las plantas”. Si quieres que te ayude con este caso, te propongo que entres en http://www.caletectiendaonline.com/consultoria-online/29-6-sigma-a-distancia.html para una consultoría a distancia.
    Saludos cordiales
    Sandrine

  9. Michelle says:

    Hola tengo una pregunta para la implementacion de una metodologia Seis Sigma al momento de analizar los datos, conozco que los datos con los que se trabaje deberian de ser normales. que pasa si no lo son? tengo que estudiar el proceso?

  10. sandrine says:

    Hola Michelle

    Las 3 grandes fuentes de no-normalidad de unos datos que, por naturaleza, deberían serlo son:

    * Algún elemento de estratificación (se puede desagrupar por turno, cavidad de un molde, tipo de cliente,…)
    * Distorsión provocada por el proceso de medida (habría que hacer un estudio R&R e investigar el proceso de medida en función del resultado obtenido)
    * Resolución del sistema de medida o redondeo (lo verías si ves agrupaciones de puntos en el diagrama de probabilidad

    No se trata de una lista exhaustiva pero serían las principales razones que me encuentro.

    Espero haberte ayudado.

    Sandrine

  11. Javier says:

    Hola, actualmente hemos creado en un proyecto de medición de presiones. Pero lamentablemente nuestros datos no probaron ser normales. Alguna manera de maquillar los datos de forma que sean normales. Muchas gracias por su respuesta.

  12. Laura Vargas says:

    Hola,

    Estoy trabajando analisis de capacidad de datos de Laboratorio y fabricación de formas farmaceuticas, y en varios casos he encontrado que los datos no son normales, revisando la información que usted postea, he encontrado que mis graficas de normalidad, son muy parecidas a mis resultaodos, sin embargo no me queda muy claro si cada grafico mostrado corresponde con la causa descrita abajo en ese orden?, me gustaria saber, para saber que mas puedo hacer con mis datos.

    Saludos.

    Me puede decir si da cursos de estadistica on-line,estoy interesada.

    gracias

  13. sandrine says:

    Hola Javier

    En realidad, no se trata nunca de maquillar los datos para que se ajusten a una distribución normal sino encontrar la razón por la cual no se ajustan a esta distribución. El hecho de encontrar la fuente de la no normalidad te ayudará a entender y mejorar tu proceso.
    Algunas pistas:
    –> ¿Se pueden estratificar los datos (agrupar por las cavidades de un molde, varios turnos de trabajo, varias maquinas,…)?
    –> ¿Método de medida validado mediante un estudio R&R?
    –> ¿Redondeo de los datos o falta de resolución del aparato de medida?

    Espero haberte ayudado

    Sandrine

  14. sandrine says:

    Hola Laura

    Te doy la respuesta al juego que propuse en el post:
    Gráfico 1 –> respuesta 3
    Gráfico 2 –> respuesta 2
    Gráfico 3 –> respuesta 4
    Gráfico 4 –> respuesta 1

    Sandrine

  15. laura says:

    hola, buenas tardes, llevo ya un tiempo investigando esto pero no termino por concluir esta idea respecto a la distribucion normal, estoy realizando mi tesis y trabajo con datos de temperatura y precipitación. principalmente no entiendo que me representa la distribucion normal, digamos que puedo medir con ella, o que me implica tener una distribucion normal? y otra situación que tengo que no se si tu pudieras resolverme, es de que si mis datos no tienen distribucion normal, tiene alguna relación la distribucion normal con un diagrama de cajas y bigotes? osea el diagrama de cajas me podría representar o remplazar el significado de la distribucion?

  16. Oscar Borge says:

    Hola Sandrine, me parece muy interesante el blog, y las preguntas son todas muy acordes al tema desarrollado. Actualmente me encuentro planteando mi tesis de grado, la cual trata acerca de “DISEÑO ESTADÍSTICO DE CARTAS DE CONTROL CON DATOS NO NORMALES MEDIANTE LA TRANSFORMACIÓN DE JOHNSON Y BOX-BOX”.

    Quería que me dieras un consejo acerca de que tipo de empresa debo visitar, si estoy buscando que su proceso arroje datos que no sigan una distribución normal, ya que en internet no encuentro muy buenos ejemplos. Muchas gracias.

  17. sandrine says:

    Hola Laura

    El diagrama caja y bigote es una representación gráfica que te permite ver la “posición de tus datos” (a traves de la mediana) y la dispersión (a través del rango intercuartil). No te indica nada sobre la distribución de los datos. Necesitas saber si lo datos que recoges de temperatura y precipitación se ajustan a esta distribución porque, de ser así, podrás utilizar unas herramientas como por ejemplo los estudios de capacidad o bien calcular la probabilidad de tener datos superior a cierto valor, etc…

    Para entender lo que te representa la distibución normal, te remito a otro post de este blog: http://www.caletec.com/blog/6sigma/origen-de-la-distribucion-normal-su-historia/

    Espero haberte ayudado

    Sandrine

  18. sandrine says:

    Hola Oscar

    La verdad es que no sé como ayudarte. La empresas con las cuales trabajo suelen tener las cartas de control (SPC) para aquellas caracteristicas criticas de calidad (CTQ), o parametros de entrada de un proceso, que se ajustan, por naturaleza, a una distribución normal.

    No me he encontrado nunca hasta ahora con la necesidad de aplicar una transfomación de los datos para plasmarlos en una carta de control. Pero me interesa tu trabajo así que estamos en contacto.

    Saludos

    Sandrine

  19. Normal VS No-Normal says:

    Hola

    Q debo hacer cuando quiero buscar diferencias significativas entre diferentes poblaciones de datos y algunas de estas tienen una distribución normal y mientras q otras no.

  20. sandrine says:

    Hola Jorge

    Depende del tipo de falta de normalidad que tiene y si por naturaleza, estos datos deberían ajustarse a una normal.

    También decirte que los contrastes de hipótesis suelen ser bastante robustos a la falta de normalidad pero hay que tener cuidado en no sacar resultados erróneos por lo que vale la pena entender si es razonable o no.

    Si quieres que te mire tus datos, te propongo utilizar la opción de consultoría online que tenemos disponible en http://www.caleteconline.com/tienda/11-consultoria-online

    Saludos cordiales

    Sandrine

  21. Marlene Roldán says:

    Buen día Sandrine,

    He realizado pruebas de normalidad a una serie de datos y al parecer no son normales. No logro entender cuál es la razón. Los datos representan los montos de retiro de una tarjeta hechos durante un mes. Los cuales pueden ir desde $1 hasta $2000. Mi pregunta es, ¿Tendrá algo que ver que el monto de retiro tenga un límte y por eso los datos no son normales? De ser así, ¿Cómo puedo procesarlos para saber a qué distribución se ajustan?

    De antemano te agradezco tu atención. Saludos!

  22. Javier says:

    Hola Sandrine

    Mi problema es el siguiente, tengo una cantidad tremenda de datos de varias variables, una de ellas es el porcentaje de memoria ocupada que cierto servidor va registrando cada cinco minutos. No sigue una distribución normal, y de hecho se me presentan como multimodales, la del porcentaje de memoria es claramente bimodal.

    Mi problema es que necesito construir cartas de control, y la desviación estándar que me estima minitab es demasiado pequeña (lo que me deja casi todos los puntos fuera) obviamente debido a este asunto de tener dos picks.

    Ojala puedas ayudarme, que he llegado aquí después de revisar otros mil sitios y realmente necesito hacer ese análisis jaja.

  23. Ana says:

    Hola, por ejemplo yo analizo el número de accidentes que ha tenido una población (municipio) pero abarco un rango de edades que va de los 12 hasta los 60 y realicé el test de normalidad y al parecer mis datos no lo son?
    ¿Qué debo hacer?

    Y si por ejemplo cuento con una distribución hipergeométrica , qué se hace en esos casos, ahí no puedo aplicar prueba de hipótesis ni nada por el estilo? Siempre he tenido esa duda, de qué hacer si mis datos no siguen una distribución normal

  24. sandrine says:

    Hola Ana

    Al tener un recuento (datos discretos), verás aparecer unos subgrupos en el gráfico de probabilidad y no se ajustarán a una distribución normal.

    Los contrastes de hipotesis de tipo t de student suelen ser bastante robustos a la falta de normalidad pero cuando los datos no son normales, puedes utilizar los tests no parametricos (test sobre medianas)

    Saludos cordiales

    Sandrine

  25. sandrine says:

    Hola Javier

    Tienes que estratificar tus datos segun la variable que te provoca las 2 poblaciones y hacer 2 graficos de control separados.

    A ver que tal!!

    Sandrine

  26. sandrine says:

    Hola Marlene

    Minitab te ofrece la posibilidad de identificar la distribución a la cual se ajustarían tus datos.

    En estadisticas > herramientas de calidad > Identificación de la distribución individual

    Si no tienes este software, te puedes descargar una versión demo con validez un mes.

    Sandrine

  27. Guadalupe says:

    Buen día

    Estoy tratando de ver cual sería el mejor tratamiento de uno de mis experimentos, pero estoy algo confundida, primero por que tengo 3 tratamientos más el control (control, c1,c2,c3) y obtuve datos con relación al tiempo. La manera en que los ordene es correcta?
    tx En
    con
    c1
    c2
    c3

    despues de eso realice una prueba de normalidad y esta me arroja el siguiente resultado en la prueba de shapiro-wilk

    W: 0.8558
    Prob<W: <.0001*

    Me podrías decir si en base a este resultado hay normalidad? es que recuerdo que si es < a .05 significa que hay normalidad?

    Espero me puedas aclarar y de antemano muchisimas gracias.

  28. Ismael says:

    Buenos dias!!

    Estamos comprando una maquina para realizar un maquinado y diametros, fuimos a evaluar la maquina donde se ensamblo y se realiazo una corrida de donde obtuvimos un muestreo aleatorio para tomar dimensiones y verificar que estas cumplan con el Cpk requerido, las medidas fueron tomadas con CMM, la muestras fueron enviadas a la planta donde se utilizaran las piezas y fueron medidas otra vez con otro equipo CMM para verificar los resultados y tenemos un desface de .01 mm en las medidas, hay un factor de correlacion que pudiera obtener para encontrar una explicacion del por que la diferencia de medidas.
    Gracias!!

  29. Marlene says:

    Buenos días Sandrine,

    Gracias por tu respeuesta. Efectivamente, he realizado pruebas de normalidad con Minitab y me arroja que mis datos no son normales y tampoco se ajustan a ninguna otra distribución conocida. Si quiero hacer una simulación con esos datos, ¿entonces tengo que calcular una distribución empírica?

    Saludos y gracias!

  30. Cruz says:

    Estimada Sandrine:
    Me es muy grato conocerla por este medio, Tengo unos datos que medinate pruebas de normalidadad me dan menor a 0.05 el valor de P- value. Se consideran no normales!
    Mi pregunta es los pasos que debo seguir son:
    Primero: Prueba de normalidad: Si son normales se hace el calculo para capacidad CP. Si no son normales aplica el CPK o PPK ?
    Segundo: Que es mejor graficos control o CPK ya que solo son 12 lotes?
    Tercero: Por el tamaño de la poblacion simplemente me puedo basar en la desviacion standar?
    Favor de enviarme copia a mi correo para mayor facilidad
    Muchas gracias
    Saludos coordiales
    Cruz

  31. Marlene says:

    Buenos días Sandrine,

    Gracias por tu respuesta. Efectivamente, tengo el software Minitab y he entrado en el menú que me comentas. Pero los resultados indican que mis datos no se ajustan a ninguna de esas distribuciones (normal, lognormal, exponencia, etc.) Hice la prueba para todoas las distribuciones y me dice que no de ajusta.

    Saludos!

  32. sandrine says:

    Hola Guadalupe

    En una prueba de normalidad, lo más facil es que te fijes en el p-valor asociado al test elegido (en tu caso Shapito-Wilk). La respuesta es: P-valor > 0.05, no se puede rechazar la hipotesis nula de normalidad en un nivel de confianza del 95%.

    Espero haberte ayudado

    Sandrine

  33. sandrine says:

    Hola Ismaël

    Recuerda que cualquier sistema de medida aporta variabilidad por lo que aspectos de Repetibilidad y Reproducibilidad pueden afectar los resultados que comparas.

    Por otra parte, si quieres ver si esta diferencia es estadisticamente significativa, debes hacer un contraste de hipotesis (t de Student pareada o independiente segun como tienes los datos registrados)

    Por ultimo, el diagrama de corelación (y estudio) solo tendría sentido si tiene los datos registrados en columnas de la siguiente manera:

    Muestra nº – datos CMM1 – Datos CMM2

    Cada fila corresponde a una muestra concreta y contiene los valores de CMM1 y CMM2

    Son temas que explicamos en nuestros cursos Green Belt 6 Sigma (te paso la pagina web de información: http://www.cursos6sigma.com)

    Espero haberte ayudado

    Sandrine

  34. sandrine says:

    Hola Marlene

    Intenta detectar el proque de la falta de normalidad porque, si por naturaleza, tus datos deberían ajustarse a una normal, el hecho de encontrar la razón de la falta de normalidad te ayudará a entender mejor tus procesos.

    Algunas pistas:
    * Sistema de medida que podría “distorsionar” los datos
    * Elementos de estratificación
    * Desgaste en el proceso durante la toma de datos

    Sin ver los datos, es un poco dificil ayudarte más con este tema

    Saludos cordiales y animo

    Sandrine

  35. sandrine says:

    Hola Cruz

    Los indices Cp, Cpk, Pp y Ppk requieren normalidad de los datos. Cp y Pp nos indican sobre la capacidad del proceso, Cpk y Ppk sobre el descentramiento. Se utilizan los dos porque uno es representación del corto plazo y el otro del largo plazo.

    Los gráficos de control son una herramienta del SPC que permite detectar unos comportamientos no aleatorios del proceso mediante un sistema de alarmas.

    Estudios de capacidad (comparar la voz del cliente con la voz del proceso) y SPC (controlar la estabilidad del proceso) son 2 herramientas complementarias que nos llevan a diferentes informaciones. Sin saber nada de los datos, no puedo confirmarte que tus 12 lotes sean suficientes

    La verdad es que no entiendo tu tercera pregunta.

    Espero haberte ayudado

    Saludos cordiales

  36. sandrine says:

    Hola Marlene

    Pues la verdad es que sin ver los datos, me es dificil ayudarte más

    Saludos cordiales

    Sandrine

  37. Paco says:

    Hola Sandrine

    Estoy haciendo un estudio de la capacidad de un proceso para producir un producto químico dentro de unas determinadas valores de densidad y al tratar los datos me he encontrado que estos no siguen una distribución normal.

    Tomando el caso de otros productos de similares características, la distribución de los datos debería seguir una normal.

    He estado investigando y no he visto nada raro que afecte a la normal, pero lo cierto es que no la sigue y al intentar buscar otras distribuciones que se ajusten, los resultados son casi peores.

    Mi pregunta es llegado a este punto… ¿se puede abordar el estudio de capacidad? y si es así, ¿me puedes recomendar como hacerlo?.

    Muchas gracias

    PD: He intentado normalizar los datos (Box-cox o Johnson) y nada.

  38. sandrine says:

    Hola Paco

    Existe la posibilidad de realizar un estudio de capacidad para datos no normales siempre y cuando se ajustan a algun modelo conocido. Minitab te permite hacerlo directamente una vez identificada la distribución.

    Si tus datos no se ajustan a una distribución conocida y sobre todo si deberían ser normales, es que existe algun elemento que puede provocar la falta de normalidad. Uno de ellos puede ser relacionado con el sistema de medida (podría distorsionar la realidad). ¿Está validado con un R&R?? Otra posibilidad es la presencia de factor de estratificación (datos mezclados procedentes de diferentes casuisticas desde la persona que realizó la medida hasta el lote del proveedor, unas modificaciones a lo largo del tiempo,…)

    Sin ver los datos es un poco dificil contestarte pero las primeras investigaciones irían por ahí.

    Saludos

    Sandrine

  39. ALVARO says:

    CUANDO HAGO UNA PRUEBA PARA DATOS NO NORMALES EN MINITAB ME MUESTRA SEGUN LAS RECTAS DE HENRY QUE SE AJUSTAN A UNA DISTRIBUCION LOGNORMAL PERO EL NUMERO P VALUE PARA ESTA DISTRIBUICON MUESTRA UN ASTERISCO ¿QUE SIGNIFICA ESO?

  40. sandrine says:

    Hola Alvaro

    Para distribuciones de 3 parámetros no existe un método establecido para calcular el valor p. Pero puedes mirar en la ventana de sesión el valor LRT P

    En estos casos, es recomendable examinar primero el valor p de la distribución de dos parámetros correspondiente. Luego observas el LRT P de la distribución de 3 parámetros para determinar si la distribución de tres parámetros es significativamente mejor que la distribución de dos parámetros.

    Saludos

    Sandrine

Deja un comentario