Medidas de dispersión o variabilidad

Además de conocer la tendencia central de un conjunto de datos es necesario saber qué tan diferentes son entre sí, es decir, es preciso determinar su variabilidad o dispersión. Esto es un elemento vital en el estudio de capacidad de un proceso. En seguida veremos cuatro formas de medir la variabilidad. La desviación estándar muestral es la medida más usual de variabilidad e indica qué tan esparcidos están los datos con respecto a la media; se denota con la letra S y se calcula mediante la siguiente expresión:






donde x1, x2,..., xn son las observaciones numéricas de la muestra, n su tamaño y x– es la media muestral. Como se puede apreciar, S mide la distancia que en “promedio” hay entre los datos y la media; por ello, entre más grande sea el valor de S habrá mayor variabilidad en los datos. La desviación estándar es expresada en las mismas unidades de medición (gramos, milímetros, etc.) que los datos. Además, S no muestra la magnitud de los datos, sólo refleja lo retirado que están los datos de la media y, al igual que ésta, es afectada por datos atípicos.

Desviación estándar poblacional o del proceso, σ

Si para calcular la desviación estándar se emplean todos los elementos de la población o proceso, entonces se obtiene la desviación estándar poblacional y se denota con la letra griega sigma (σ). Como se comentó antes, es posible considerar a la población como las mediciones de toda la producción de las últimas semanas, o si las mediciones se toman por muestras, entonces una buena idea es obtener los parámetros poblacionales (μ y σ) con todas las mediciones realizadas en las últimas semanas, siempre y cuando éstas no sean pocas; de 120 a 150 mediciones en adelante es una buena cantidad.









Por otra parte, el cuadrado de la desviación estándar, S2, conocido como varianza muestral, es muy importante para propósitos de inferencia estadística. Y en forma equivalente σ2 es la varianza (o variancia) poblacional. Otra medida de dispersión es el rango o recorrido, R, que es igual a la diferencia entre el dato mayor y el dato menor de un conjunto de datos. El rango mide la amplitud de la variación de un grupo de datos, y también es independiente de la magnitud de los datos; por ejemplo, sean los dos conjuntos de datos:

A = {10, 12, 14} y B = {159, 161, 163}

entonces se observa que la magnitud de los datos es diferente, y eso es reflejado por la media, que es de 12 y 161, respectivamente. Pero en cuanto a la variabilidad, los datos de ambos conjuntos están dispersos de la misma manera, como lo indica la desviación estándar que es igual a 2 en ambos casos, y el rango que es de 4 para los dos conjuntos. El coeficiente de variación, CV, es una medida de variación que es relativa a la
magnitud de los datos, ya que es igual a la magnitud relativa de la desviación estándar en comparación con la media de los datos, es decir:




El CV es útil para comparar la variación de dos o más variables que están medidas en diferentes escalas o unidades de medición (por ejemplo, metro frente a centímetro o metro frente a kilogramo). Este coeficiente suele interpretarse como una medición en términos porcentuales de la variación de una variable. Por ejemplo, en el caso de los conjuntos de datos A y B que se acaban de presentar en la definición de rango, se tiene que sus correspondientes CV son:




respectivamente, por lo que la variabilidad en los términos relativos del CV para el conjunto 

A es de 16.66%, mientras que para el conjunto B es sólo de 1.242%.

En el caso del grosor de los discos, tenemos que 

S = 0.027,    S2 = 0.0007,    R = 1.25 − 1.11 =0.14, y CV = 2.29%.

 La interpretación del rango es muy directa, ya que indica la amplitud máxima de la dispersión; así, 0.14 mm es la discrepancia máxima que existió entre los grosores de los discos en la muestra. Por lo general, la interpretación de la desviación estándar se hace en combinación con la media, como lo veremos en seguida, y su interpretación en forma individual se realiza en forma comparativa con respecto a la desviación estándar de otras líneas de producción o lotes. Es necesario tomar en cuenta, en caso de hacer estas comparaciones,
que lo que se observa en una muestra es variable, y por lo general pequeñas diferencias muestrales no implican diferencias entre procesos o lotes.

Por último, CV = 2.29% indica que la variación del grosor es de 2.29%, lo cual se puede considerar relativamente bajo.


0 comentarios: