Posts Tagged ‘Histograma’

Información y Datos

Wednesday, November 16th, 2011

En toda empresa, se recogen y archivan una gran cantidad de datos y, sin embargo, cuando se quiere solucionar problemas, necesitamos sacar una información en “forma de números” y nos damos cuenta de que:

  • No disponemos de los datos para realizar un diagnóstico seguro
  • Los datos son incompletos
  • Los datos no son fiables

Joseph M. Juran, reconocido como uno de los grandes gurú de la calidad,  aclara esta aparente paradoja explicando que los datos representan la concreción numérica de hechos o realidades, mientras que la  información debe entenderse como la respuesta a preguntas previamente planteadas.

Datos  =  Hechos, realidades
Información = Respuestas a preguntas

La resolución de problemas exige disponer de una cierta información (respuestas a preguntas del tipo, ¿Con qué frecuencia se presenta el problema?, ¿En qué circunstancias se presenta?, ¿Cuánto tiempo se tarda en hacer el trabajo?, etc…). Pero, mientras que la buena información siempre está basada en datos, un determinado volumen de datos, por grande que sea, no necesariamente aporta la información que se precisa para resolver el problema.

La “información” incluye “datos”.
Los “datos” no necesariamente incluyen “información”.

Datos e Información

Así pues, la clave no está en cómo recoger datos, sino en cómo obtener información que resulte útil.

El proceso de generar información puede resumirse en las siguientes etapas:

  1. Formular claramente las preguntas que se desea contestar para evitar recoger unos datos totalmente correctos pero que no permiten contestar nuestras preguntas.
  2. Recopilar datos relativos a la cuestión planteada teniendo el análisis de datos en mente. Esto significa que todos los elementos de estratificación posibles deben aparecer en la hoja de recogida de datos (turnos, agencias, región, lote, familia de producto, etc…)
  3. Presentar los datos de forma adecuada para poner claramente de manifiesto cuál es la respuesta a la pregunta. En este sentido las representaciones gráficas de los datos individuales suelen ser de gran utilidad (gráfico de serie de tiempo, histograma, diagrama de probabilidad; Box Plot;…)

Hasta Pronto

Sandrine

Origen de la distribución normal (su historia)

Sunday, May 8th, 2011

La distribución normal se conoce como la curva de Gauss o campana de Gauss, famoso matemático alemán del siglo 19.

Realmente, fue un trabajo de más de 200 años para descubrirla y establecer su ecuación. En este post, explico la historia de la distribución más conocida de la estadística: la ley normal.

Su origen viene de la observación de un estadístico francés del siglo 18, Abraham de Moivre, que, entre otras cosas, actuaba como consultor para temas de juegos. Observó, que al lanzar una moneda, la probabilidad de obtener “cara” (o “cruz”) en N tirada tenía una representación gráfica con una curva suave a medida que N se hacía grande. En el gráfico presentado a continuación, la altura de cada barra representa la probabilidad de que ocurra el evento (sale “cara” al lanzar una moneda) de N veces que lanzamos la moneda (hemos cogido, N=2; N=4; N=12). Si la moneda no está trucada, la probabilidad de que salga “cara” al lanzarla es del 50% (p=0,5). Este fenómeno sigue una distribución conocida como la Binomial.

Distribución Binomial hacia la Distribución Normal

De Moivre explicó que si pudiéramos encontrar una ecuación para esta curva, solucionaríamos más fácilmente el cálculo de probabilidades de que aparezca “x” o más “cara” a lanzar N veces una moneda. Y eso fue uno de sus trabajos.

Distribución Normal

La gracia reside en que esta peculiar forma de campana también se detectó, en el siglo 17, por Galileo en el análisis de errores de medición de observaciones astronómicas; errores atribuibles a la instrumentación y a los observadores. Notó que estos errores eran simétricos y que los pequeños errores eran más frecuentes que los errores grandes. De ahí, se plantearon varias hipótesis sobre la distribución de los errores de medición.

Fue solo a principio del siglo 19th que se descubrió que estos errores seguían una distribución normal. Dos matemáticos establecieron de manera independiente su fórmula: Adrian en 1808 y Gauss en 1809 que al final dio su nombre a la más famosa de las distribuciones estadísticas ya que numerosos fenómenos naturales se ajustan a ella y que presenta unas  propiedades sumamente interesantes.

Gauss y la distribución normal en un billete de 10 marcos alemanes

Sandrine

El histograma “engañososo”

Friday, August 7th, 2009

Esta semana, me encontré de nuevo con un tipo de histograma que llamo el “engañoso”. La razón por la cual le doy este calificativo es porqué proviene de unos datos recogidos de manera que todos tienen que cumplir con la especificación.

En el ejemplo que enseño a continuación, se trata de una longitud de una pieza de plástico inyectada. El límite de tolerancia inferior es de 33,08mm y se mide con un pie de rei. A priori, en la empresa, todos estaban de acuerdo por decir que esta característica no daba problemas pero mirando el histograma y la representación en papel probabilístico normal vimos que la realidad era otra.

Diagrama de probabilidad "engañoso"

En este gráfico (diagrama de probabilidad), todos los datos deberían encontrarse más o menos alineados en una recta (la famosa recta de Henry). Se observa una bifurcación en la parte inferior de la recta indicando que no existen (teóricamente) datos por debajo de un determinado valor. Este fenómeno se encuentra justo en el límite inferior de tolerancia.

En el histograma, se ve claramente que la barra de frecuencia de los datos situados en el límite inferior es anormalmente más alta. Tratándose de una longitud, los datos deberían seguir una distribución normal.

Histograma "engañoso"

Estas representaciones gráficas de los datos nos enseñan claramente que el problema proviene de la manera de registrar los datos. Se miden las piezas pero en caso de obtener una medición por debajo del límite inferior, se registra un dato correspondiente a la propia tolerancia.

Me imagino que existen seguramente muchas “buenas” razones por hacerlo (evitar el papeleo relacionado con las no-conformidades, enmascarar problemas del proceso, poder asegurar que cumplimos con las especificaciones del cliente…). Pero no olvidemos que los datos nos pueden ayudar a detectar donde se encuentran los problemas y mejorar nuestros procesos. Si registramos datos falsos, nos estamos engañando y la tarea de optimización de procesos es bastante más compleja.

Hasta Pronto

Sandrine